A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bancos de Dados Biológicos I

Apresentações semelhantes


Apresentação em tema: "Bancos de Dados Biológicos I"— Transcrição da apresentação:

1 Bancos de Dados Biológicos I
Apresentação… Bancos de Dados Biológicos, assunto considerado de extrema relevância e indispensável para quem pretende trabalhar com bioinformática. Afinal, Bancos de dados e sistemas de bancos de dados tornaram-se componentes essenciais em qualquer sociedade moderna. Daniel Guariz Pinheiro

2 Sumário Introdução Banco de Dados Sistemas de Banco de Dados
Processo de extração de conhecimento Banco de Dados Biológicos Dados Biológicos Revisão Histórica Principais Bases de Dados Bases de Dados de Expressão Gênica NCBI GEO (Gene Expression Omnibus) e o CGAP SAGE Genie Referências A idéia desse Curso é a de justamente promover a multidisciplinaridade e a interação entre as diferentes áreas. Mas, para que isso seja possível em um curto espaço de tempo como é o nosso caso, é importante que cada um conheça ao menos o fundamental de cada uma das 3 grandes áreas que constituem os pilares da bioinformática (A Biologia, a Estatística e a Computação), somente assim será possível iniciarem os diálogos uns com os outros. O bom aproveitamento do Curso depende dessa interação. Desse modo pretendo seguir um roteiro, tentando de certa forma nivelar o conhecimento necessário para os trabalhos no curso. O Objetivo é expor: - Uma visão geral dos aspectos básicos de um banco de dados (que costuma gerar um pouco de confusão nas conversas entre biológos e computeiros). A arquitetura geral de um Sistema de Banco de Dados, e de que forma ele é concebido para organizar os dados biológicos. Apresentar de uma forma geral como é o processo de extração de conhecimento a partir desses sistemaS. E os principais Bancos de Dados Biológicos que serão mencionados e utilizados durante o curso. Quais seriam esses dados biológicos. Fazer uma breve revisão histórica , mostrando também um pouco da evolução desse assunto. Expor sobre as principais bases de dados biológicos, Especialmente de expressão gênica, NCBI GEO, SAGE Genie, as principais bases de dados que armazenam bibliotecas de SAGE, que é o foco dos trabalhos no curso. - Ao final vou indicar algumas referências, as utilizadas para a construção dessa apresentação e também as que serão úteis para se aprofundarem nos assuntos.

3 Banco de Dados A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe) A database is a repository for a collection of computerized data files. (C.J.Date) Conceito de Banco de Dados. Esses são dois conceitos extraídos de livros de autores bastante conceituados na área de Banco de Dados. O 1. é de Elmasri e Navathe: Um banco de dados é uma coleção de dados relacionados. Por dados, entende-se fatos conhecidos que podem ser armazenados e que possuem significado implícito. Por exemplo: A freqüência que indica a expressão do gene HBB (da beta-globina humana) na biblioteca de SAGE obtida de uma amostra de sangue periférico humano. São fatos relacionados, que possuem significado implícito e que podem ser armazenados. Agora eu posso armazenar isso, em papel ou esculpi-lo em pedra, por exemplo, isso seria um banco de dados? Sim seria … porém o uso comum da palavra Banco de Dados hoje é um pouco mais restrito e o 2. conceito, extraído do livro de C.J. Date completa esse nosso conceito: Um banco de dados é um repositório para uma coleção de arquivos de dados computadorizados. Além disso, a utilização do termo Banco de Dados também implica em certas propriedades: Deve representar um aspecto do mundo real; Deve conter dados coerentes e com algum significado; -Deve possuir um propósito. Propriedades: Representar um aspecto do mundo real; Conter dados coerentes e com um significado inerente; Deve ter um propósito;

4 Abordagem utilizando Sistema de Arquivos
O programador define e implementa os arquivos necessários para uma aplicação específica. Gera redundância na definição e no armazenamento dos dados; Possui estrutura específica e dependente de determinada aplicação; Não permite compartilhamento e acesso concorrente; Um Banco de Dados pode ser definido utilizando arquivos comuns. Nessa abordagem o programador define e implementa os arquivos necessários para uma aplicação específica. As características dessa abordagem são: - Redundância na definição e no armazenamento dos dados; - Ficando portanto suscetível a inconsistências, além é claro do consumo de espaço em disco. Sua estrutura é específica e dependente de determinada aplicação; Se não há uma padrão e a estrutura é específica e somente a aplicação para o qual ele desenvolvido possui os métodos para consultar e extrair informação de forma estruturada. Imagine um arquivo do MSword. É possível acessar o documento através de outra aplicação. Bom nesse caso ainda há outras aplicações que acessam a informação, mas é porque essa aplicação foi alterada para em modo de compatibilidade reconhecer esse arquivo, mas sabemos que não é perfeito. Não permite compartilhamento e acesso concorrente; - Se o arquivo está sendo utilizado, não é possível que seja acessado ao mesmo tempo. Imagine 2 pessoas editando um arquivo texto do MSword compartilhado na rede. O último que salvar vai ignorar as alterações da outra pessoa e sobrescrevê-las.

5 Abordagem com Sistemas de Banco de Dados
Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; Evita redundância; Contém em si a definição de sua estrutura (metadados); Possui restrições implementadas que evitam inconsistências nos dados; Solução genérica para qualquer aplicação; Permite o acesso concorrente de múltiplos usuários; Permite diferentes visões dos dados; Independência da aplicação; Permite representar relacionamentos complexos entre os dados; ... Uma outra abordagem mais eficiente na grande maioria dos casos é a utilização de um Sistema de Banco de Dados, através de um SGBD (Sistema de Gerenciamento de Bancos de Dados), mantendo um repositório único para o armazenamento e recuperação de informações de forma estruturada. *Metadados, ou Metainformação, são dados capazes de descrever outros dados, ou seja, dizer do que se tratam, dar um significado real e plausível a um arquivo de dados, são a representação de um objeto digital. Mais sinteticamente, podemos dizer que um metadado é um dado utilizado para descrever um dado primário. No SGBD Oracle, por exemplo, a tabela USER_TABLES é uma meta-tabela que possui informações a respeito das tabelas criadas pelos usuários. Entre estas informações podem ser encontradas: proprietário da tabela, nome da tabela, nome da tablespace (unidade de armazenamento lógico) para qual foi definida, entre outras.

6 Modelo de dados Uma coleção de conceitos que podem ser usados para descrever a estrutura do banco de dados. Projeto de um Banco de Dados Relacional Modelo de Dados Conceitual; Modelo de Entidades e Relacionamentos (MER); Entidades, atributos e relacionamentos; Diagrama de Entidades e Relacionamentos (DER); Modelo de Dados de Implementação; Modelo de Dados Relacional; Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR; Modelo de Dados Baseado em Registros Representação através de estruturas de registros; Modelo de Dados Físico; Detalhes internos de armazenamento; Esse tipo de abordagem utiliza na sua concepção um modelo de dados, que é uma coleção de conceitos que podem ser usados pra descrever a sua estrutura em diferentes níveis. O Modelo de Dados Conceitual utiliza os conceitos de entidades, atributos e relacionamentos para descrever a estrutura. Modelos de Dados Conceituais ou de Alto-Nível fornecem conceitos próximos à percepção dos usuários. Já os Modelos de Dados Físicos ou de Baixo-Nível fornecem conceitos que descrevem detalhes de como os dados são armazenados no computador.

7 Diagrama de Entidades e Relacionamentos
Notação Original Peter Chen,1976. Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos. Notação IDEF1X Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 O DER é bastante utilizado para representar no nível conceitual um banco de dados, é necessário para ter uma idéia de como as informações serão relacionadas, visando aproveitar ao máximo o que a arquitetura de um Sistema de Banco de Dados oferece. A Notação Original foi proposta em 1976 por Peter Chen. Há um modelo sem atributos, mais simples (útil para identificar as entidades e os relacionamentos com a cardinalidade) e depois com atributos associados a cada entidade. Exemplo: Armazenar os empregados que trabalham nos projetos. Atualmente há notações mais elaboradas, que descrevem mais detalhes no nível conceitual. Por exemplo a Notação IDEF1X, utilizada nessa ferramenta proprietária bastante conhecida. Erwin. Nesse modelo é possível visualizar o mesmo problema, identificando as mesmas 2 entidades + 1, pois nesse caso temos um relacionamento com cardinalidade N:M que exige a criação da 3ª entidade para o relacionamento entre as outras duas. ERwin®

8 Sistema de Gerenciamento de Banco de Dados
A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe) Modelo de Dados Relacional (SGBDR) Inspirado na Álgebra Relacional Organiza os dados em uma estrutura de tabelas Linguagem SQL (Structured Query Language) Modelo de Dados Orientado a Objetos (SGBDOO) Inspirado nos Paradigmas de Orientação a Objetos Permite a persistência de objetos Linguagem OQL (Object Query Language) Modelo de Dados Objeto-Relacional (SGBDOR) Extensão do Modelo Relacional incorporando algumas das funcionalidades do modelo Orientado a Objetos; Extensão da linguagem SQL (SQL3); Todas as funcionalidades de um Sistema de Banco de Dados estão implementadas em um sistema de gerenciamento. Utilizando o conceito extraído do livro de Elmasri e Navathe: Um SGBD é uma coleção de programas que permitem ao usuário criar e manter um banco de dados. O SGBD é portanto um sistema computacional de propósito geral que facilita o processo de definir, construir e manipular bancos de dados para várias aplicações. Há 3 tipos principais de modelos de sistemas de gerenciamento de bancos de dados: SGBDR – Construído utilizando o Modelo de Dados Relacional Inspirado na Álgebra relacional: forma de cálculo sobre conjuntos. Define as operações sobre conjuntos: união, intersecção, diferença, produto cartesiano,… A forma de representação no nível de implementação é em uma estrutura de tabela. Utiliza a linguagem SQL para a consulta e manipulação dos dados. Linguagem SQL pode ser considerada uma das grandes razões para o sucesso dos bancos de dados relacionais e pois ela se tornou um padrão para bancos de dados relacionais. Há o modelo inspirado nos paradigmas da Programação Orientada a Objetos (um estilo de programação que permite uma série de vantagens, como a reutilização de código de uma forma mais eficiente e organizada) Permite a gravação dessa entidade nomeada objeto no banco de dados, permitindo a consulta e reutilização posteriormente. A linguagem OQL é uma linguagem no estilo da SQL, permite a construção de expressões mais abrangentes do que select-from-where do SQL. Possui construções que permitem o acesso a estruturas próprias de sistemas orientados a objeto. O Modelo Objeto-Relacional, é uma extensão do Modelo Relacional incorporando algumas das funcionalidades do modelo Orientado a Objetos. Linguagem, Objeto-Relacional - A linguagem de consulta OR é uma extensão da linguagem SQL para suportar o modelo de objetos A grande vantagem dos modelos relacionais e objeto-relacionais: a velocidade. Enquanto que no Orientado a Objetos a principal vantagem é a possibilidade de definir estruturas mais complexas. O2 Jasmine

9 Ambiente Simplificado de um Banco de Dados
Elmasri, R. A. and Navathe Esse é uma esquema geral de um ambiente simplificado de um Sistema de Banco de Dados. Eles possuem dois tipos principais distintos de repositórios: o que armazena os metadados, ou seja as informações sobre a estrutura, e os dados. Para o acesso e a esses dados e estrutura existem os SGBDs. O Sistema de Gerenciamento de Banco de Dados, que é composto basicamente por um módulo de processamento de consultas (SQL) que através do módulo de acesso aos dados, pode interagir com os dados armazenados (os dados primários e também os metadados), esse software de gerenciamento recebe instruções de aplicações que fazem a interface com o programador ou o usário do sistema.

10 A abordagem com arquivos é indicada?
O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; Não há necessidade de múltiplos acessos. Apesar de serem sistemas absolutamente eficientes e possuírem vantagens indiscutíveis, há situações em que a utilização de arquivos é mais indicada… O NCBI disponibiliza muitos dos seus bancos de dados em forma de arquivos, que alguns de vocês já fizeram uso quando utilizaram a ferramenta BLAST.

11 Banco de Dados Flat file
Abordagem utilizando arquivos Arquivos que contêm registros de dados que não estão estruturalmente relacionados. Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) Possui um padrão específico de formatação GenBank, Fasta, ASN.1 ... É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. Ex.: Módulos da BioPerl ( São os chamados Banco de Dados Flat files. Que possuem alguns recursos para minimizar as desvantagens de se utilizar a abordagem com arquivos. Utilização de um padrão de formatação. Desenvolvimento de programas chamdos parsers que reconhecem esses formatos e permitem recuperar as informações de forma automática. Exemplos de programas desse tipo são encontrados no pacote BioPerl. Flat files are data files that contain records with no structured relationships. Additional knowledge is required to interpret these files such as the file format properties Parser - programa que percorre arquivos texto reconhecendo padrões específicos de formatação para extrair as informações desejadas.

12 Bancos de Dados para Extração de Conhecimento
Data mining Transformação Conhecimento Seleção Integração dos Dados/ Pré-Processamento Padrões Databases Os dados biológicos estão atualmente distribuídos, cada um com sua formatação e forma de armazenamento. Como então é o processo de extração de conhecimento a partir desses bancos de dados? Esse esquema representa esse processo de uma forma geral. Esse processo é freqüentemente parte das tarefas da bioinformática. Dados são obtidos de um ou mais bancos de dados biológicos, sejam eles extraídos de flat files ou de SGBDs. Nessa etapa é realizada uma checagem na consistência dos dados, nessa etapa pode ser realizado um pré-processamento desses dados (como eliminação de dados inconsistentes e redundantes, preenchimento de dados incompletos, etc.) e então são integrados apropriadamente em um Banco de Dados, de preferência em um bancos de dados Data warehouse (bancos de dados desenvolvidos utilizando técnica de modelagem que permite definir uma estrutura otimizada para buscas). A próxima etapa é a de seleção dos dados relevantes para um estudo mais específico, por exemplo a seleção de atributos. Estes dados então são transformados no formato próprio para a aplicação das técnicas de data-mining que podem auxiliar na determinação de padrões nesses dados. Esses padrões devem ser avaliados e então a é possível atribuir significado biológico nesse caso e daí então gerar conhecimento, que pode ser utilizado como feedback para o processo. Dados Data warehouse

13 Revisão Histórica Leroy Hood Desenvolve o primeiro
seqüenciador automático 1977 1986 Depois de um pouco da teoria de Banco de Dados e do processo geral de extração de conhecimento a partir deles, e antes de começar a apresentar os principais bancos de dados biológicos é necessária uma breve revisão sobre alguns acontecimentos históricos que foram marcantes para o crescimento dos dados biológicos e o surgimento da necessidade de organização dessas dados e das informações obtidas a partir deles. O primeiro acontecimento marcante, foi o desenvolvimento dos método de seqüenciamento da molécula de DNA. Em 1977 dois métodos foram propostos por dois pesquisadores Gilbert e Sanger. Gilbert desenvolve um método conhecido como método químico e Sanger desenvolve um outro método também conhecido como método enzimático. Esse último método torno-use mais popular. Em 1986 surge o primeiro seqüenciador automático a partir do método de Sanger. Tornando possível os projetos de seqüenciamento completo de genomas de diversos organismos. Gilbert & Sanger Desenvolvem métodos para o seqüenciamento de DNA

14 Sequenciamento de DNA Sequenciamento manual x automático CCCAACT...
O surgimento dos seqüenciadores automáticos realmente é um marco pois fez com que a quantidade de dados biológicos, principalmente de seqüências de nucleotídeos crescesse de forma exponencial. No início a leitura das bases nucleotídicas era feita a olho ... Através dessa foto de gel (onde é possível ter uma visão da seqüência) e observando base por base, este é um sequenciador manual ... A partir da década de 1990, com o surgimento dos seqüenciadores automáticos o processo de sequenciamento tornou-se muito mais rápido e com uma capacidade muito maior, deu-se origem à era do sequenciamento em larga-escala. Como conseqüência, cada vez mais seqüências são geradas... Surgem os softwares que lêem as bases e as transformam em letras (A,C,G,T), há a necessidade cada de armazenar e de analisar essas seqüências de As Cs Gs Ts...

15 Revisão Histórica 1990 1996 1999 2001 1988 1995 1997 2000 SAGE
Iniciativa pública Projeto Genoma Humano Publicação do rascunho do Genoma Humano Cancer Genome Anatomy Project 1990 1996 1999 2001 O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Em 1990 é lançado o PGH. Com o objetivo de construir uma mapa do genoma humano. Para muitos pesquisadores tratava-se na época de um projeto irrealizável. Para outros não havia sentido em mapear o genoma pois as infomações obtidas seriam desencontradas e não valeriam o esforço. Por outro lado, alguns pesquisadores viram naquela oportunidade a chance de transformar a biologia (e mais especificamente a genética) em big science, com direito a financiamentos gigantescos e divulgação ampla. Em 1995 surgem as técnicas de análise de expressão gênica em larga escala, com essas técnicas é possível obter um perfil global da expressão de milhares de genes simultâneamente, a partir de uma determinada amostra de células. Ambas as técnicas quantificam a expressão de genes considerando a quantidade de moléculas de RNA mensageiro transcrita dos genes. Em 1996, foi estabelecido pelo NCI o CGAP, um projeto com o objetivo fornecer dados, ferramentas e informações para a determinação de perfis de expressão gênica de células normais e cancerosas, que podem ser úteis às pesquisas que conseqüentemente poderão auxiliar no diagnóstico, prognóstico e no tratamento de pacientes com câncer. Em 2000, pesquisadores do consórcio público Projeto Genoma Humano e da empresa privada norte-americana Celera anunciam o rascunho do genoma humano, que seria publicado em fevereiro de 2001. Em 2000 também é lançado pelo NCBI, o GEO, um importante repositório de dados de expressão gênica. O GEO, vou apresentar ele em mais detalhes nós próximos slides. No Brasil a genômica e a Bioinformática se desenvolve a partir da formação da rede ONSA em 1997, uma rede de laboratórios espalhados pelo Estado de São Paulo, que inicialmente surgiu com o objetivo de seqüenciar o genoma da bactéria Xylella fastidiosa, um patógeno que ataca os laranjais e causa uma doença conhecida como amarelinho. Em 2000 há a publicação do seqüenciamento completo do genoma da bactéria Xylella fastidiosa na revista Nature (Nature  -  Vol July 2000 ). Sendo o primeiro país a obter a seqüência completa de uma patógeno de plantas. O lançamento do projeto Genoma Humano do Câncer no Brasil aconteceu em 1999. 1988 1995 1997 2000 ACTACGACAT 231 ACGTACCTGC 200 TCACGAGACA 189 ACGATTACAA 150 CGAGAGTACG 100 GTACAGATAC 50 CGAGATAGAT 45 CCCAGAGTAA 40 TTAGTTAGAC 37 National Center for Biotechnology Information Genoma Xylella fastidiosa SAGE microarray Rede Organization for Nucleotide Sequencing and Analysis

16 Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan Pra organizar todos esses dados que foram sendo gerados, surgiram os primeiros repositórios de dados... A primeira base de dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de proteínas conhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas of Protein Sequences and Structure”, de O conteúdo dessa base de dados não deveria conter mais de 1Mb de informação, se transferida para computadores modernos. Com o acúmulo desses dados provenientes de seqüenciamentos e informações relacionadas... Surgiram repositórios mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores. O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Hoje, o NCBI além de ser um enorme repositório de dados e informação biológica, proporciona um grande número de ferramentas de bioinformática e recursos para auxiliar o cientista na pesquisa genética. Além do NCBI, temos também o EMBL (Laboratório Europeu de Biologia Molecular) e o DDBJ (Banco de Dados de DNA, do Japão). Todos os 3 grandes centros possuem colaboração e compartilham dados entre si.

17 International Nucleotide Sequence Database Colaboration
Os 3 centros em colaboração alcançaram a marca de 100 Bilhões de pares de bases em Agosto de Sendo o GenBank do NCBI o que mais cresceu... Eles trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas. O Gráfico mostra os dados desde Agosto de 2000, a curva expressa a grande quantidade de dados e seu crescimento exponencial.

18 The Molecular Biology Database Collection
A cada ano a 1 edição da revista Nucleic Acids Research é dedicada aos Bancos de Dados Biológicos Galperin MY. The Molecular Biology Database Collection: 2008 update. Nucleic Acids Res Jan;36(Database issue):D2-4. Atualizações (2008) 1078 bancos de dados 110 adicionais à versão anterior Links atualizados para 80 bancos de dados e 25 bancos de dados considerados obsoletos foram removidos da lista. A lista completa dos bancos de dados e uma breve descrição estão disponíveis no site a revista Nucleic Acids Research Além das bases de dados de seqüências, uma série de outras bases de dados surgiram e crescem em tamanho e quantidade. A cada ano a revista Nucleic Acids Research publica uma edição dedicada a descrever os Bancos de Dados Biológicos. Nessa edição de 2008, foram descritos 1078 bancos de dados, 110 adicionais em relação à edição anterior. 80 tiveram atualização no link de acesso e 25 bancos de dados considerados obsoletos foram removidos da lista. Essa edição está disponível no site da revista.

19 GenBank Banco de Dados de Seqüências Genéticas do NIH
( Repositório público de seqüências de nucleotídeos Arquivamento de todos os dados de seqüências submetidos para qualquer organismo. ~ submissões diretas por mês ~ submissões a granel por mês Redundância de seqüências do mesmo locus Análise de Polimorfismo International Nucleotide Sequence Database Collaboration Último Release 15/12/2007 seqüências ( bp) ~ diferentes organismos GenPept Banco de dados de traduções automáticas das regiões codificadoras (CDS) das seqüências de nucleotídeos do GenBank® Um dos principais bancos de dados, que fazem parte do consórcio que eu havia mencionado, é o GenBank. É o repositório de seqüências de nucleotídeos, é um banco de dados primário, cujo objetivo principal é o arquivamento de seqüências, que recebe cerca de submissões diretas e submissões a granel por mês. As seqüências são atualizadas na maioria dos casos somente por aquele que as submeteu. Além de armazenar um histórico de toda seqüência submetida, possui redundância de seqüências do mesmo locus, o que permite análises de polimorfismo por exemplo, ou de expressão gênica como veremos mais adiante quando eu falar sobre um outro banco de dados derivado do GenBank. Sua última versão é do dia 15/12/2007. Nessa versão ele estava com cerca de 80 milhões de seqs e cerca de 84 bilhões de bases. Um Banco de Dados derivado do GenBank é o GenPept, que possui as traduções automáticas da região codificadora CDS das seqs de nucleotídeos do GenBank.

20 Divisões do GenBank SIGLA Divisão Organizada por Taxonomia
PRI primate sequences ROD rodent sequences MAM other mammalian sequences VRT other vertebrate sequences INV invertebrate sequences PLN plant, fungal, and algal sequences BCT bacterial sequences VRL viral sequences PHG bacteriophage sequences SYN synthetic sequences UNA unannotated sequences EST EST sequences (expressed sequence tags) PAT patent sequences STS STS sequences (sequence tagged sites) GSS GSS sequences (genome survey sequences) HTG HTG sequences (high-throughput genomic sequences) HTC unfinished high-throughput cDNA sequencing ENV environmental sampling sequences Organizada por Taxonomia Submissões Diretas Acurado (~1 error por pb) Bem Caracterizada CoreNucleotide Grandes divisões, que você vai encontrar quando fizer uma busca pela página. dbEST - contém somente ESTs (Expressed Sequence Tags) dbGSS – contém somente fragmentos de seqüências genômicas CoreNucleotide – contém todas as que não estão nas outras 2 divisões Uma subdivisão existe, ela pode ser organizada por taxonomia e por tipo de seqüencia, algumas delas recebem a sigla de um grupo taxonomico, tipo PRI primatas, ROD roedores, MAM outros mamíferos ou VRT vertebrados, INV invertebrados, etc… outros recebem uma sigla para o tipo de seqüência, EST, HTG, sequencias patenteadas. dbEST Organizada por tipo de seqüência Submissões a Granel Não acurado Não é bem caracterizada dbGSS

21 RefSeq Coleção de seqüências curadas de DNA, RNA e proteínas.
( Somente um único exemplar de seqüência para cada molécula. Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e eucariotos 06/01/2007 4.926 taxons distintos Genômicas: ( ) RNAs: ( ) Proteínas: ( ) Status do Registro GENOME ANNOTATION INFERRED MODEL PREDICTED PROVISIONAL REVIEWED VALIDATED WGS Para produzir registros RefSeq, NCBI recolhe as melhores informações disponíveis sobre cada molécula e atualiza os registros assim que obtem mais informações. Em alguns casos a criação de um registro RefSeq envolve apenas selecionar um bom exemplar de uma determinada molécula no GenBank, em outros casos é necessário muitas vezes reunir informações de um conjunto de seqüências do GenBank, combinando partes desses registros. Em outros casos as seqüências vêm de outros bancos de dados curados. Tudo depende da qualidade da informação disponível. A primeira vez que ele é criado recebe o status de provisional, após serem avaliadas e revisadas pela equipe de anotação do NCBI, recebem o status de validated e depois de os dados adicionais serem incorporados recebem o status de reviewed. O Status varia dependendo da origem dos dados, do tipo de dados (genomico, transcrito ou proteina), do metodo de obtencao e do processo de criacao do registro a partir dessa origem. A tabela completa com a definicao de cada um deles pode ser obtida no site do RefSeq.

22 RefSeq Accession Moleule Method
AP_123456 Protein Mixed NC_123456 Genomic NG_123456 NM_ NM_ mRNA NP_ NP_ NR_123456 RNA NT_123456 Automated NW_ NW_ NZ_ABCD XM_ XM_ XP_ XP_ XR_123456 YP_ YP_ ZP_ Os números de acesso do RefSeq, seguem um padrão, iniciam sempre com uma sigla NM, NR, NP, XM, … depois tem um underline e um número identificador. É possível encontrar também depois um ponto e um número, que indica a versão da seqüência, já que ela passa constantemente por um processo de revisão. Nessa tabela, podemos ver alguns números de acesso exemplos, o tipo de molécula e o método de classificação, se as seqüências em cada grupo passaram por um processo de anotação somente automático ou também de revisão (Mixed). As principais classes de interesse quando se trata de análise de trancritos mRNA NM_ RNA não codificador NR_, proteínas NP e no caso de análise genômica NC_ pois são seqüências curadas, que passaram pela avaliação de um revisor. Há também outras, que são construções alternativas, a descrição completa de cada grupo pode ser encontrada no site do RefSeq. Mixed – processo automático e também de revisão.

23 GenBank versus RefSeq GenBank RefSeq Não curado Curado
Submissão do autor Criado pelo NCBI a partir do GenBank Somente o autor pode revisar Múltiplos registros para o mesmo locus Somente o autor faz a revisão NCBI revisa cada novo registro Múltiplos registros para os mesmos loci Único registro para cada molécula de cada organismo Registro podem entrar em contradições uns com os outros Sem limites para espécies Limitado a organismos modelos Dados compartilhados entre os membros do INSDC Exclusivo do NCBI Assemelha-se à literatura primária Assemelha-se à artigos de revisão Proteínas identificadas e relacionadas Proteínas e transcritos são identificados e relacionados Acesso via NCBI Nucleotide database Acesso via Nucleotide & Protein databases

24 Principais Formatos dos Bancos de Dados Flat files do NCBI
exon /gene="HBB" /inference="alignment:Splign" /number=3 polyA_signal polyA_site ORIGIN 1 acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atggtgcatc 61 tgactcctga ggagaagtct gccgttactg ccctgtgggg caaggtgaac gtggatgaag 121 ttggtggtga ggccctgggc aggctgctgg tggtctaccc ttggacccag aggttctttg 181 agtcctttgg ggatctgtcc actcctgatg ctgttatggg caaccctaag gtgaaggctc 241 atggcaagaa agtgctcggt gcctttagtg atggcctggc tcacctggac aacctcaagg 301 gcacctttgc cacactgagt gagctgcact gtgacaagct gcacgtggat cctgagaact 361 tcaggctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc aaagaattca 421 ccccaccagt gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 481 acaagtatca ctaagctcgc tttcttgctg tccaatttct attaaaggtt cctttgttcc 541 ctaagtccaa ctactaaact gggggatatt atgaagggcc ttgagcatct ggattctgcc 601 taataaaaaa catttatttt cattgc // FASTA (Pearson) >gi| |ref|NM_ | Homo sapiens hemoglobin, beta (HBB), mRNA ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGA GGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGC AGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATG CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGC TCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGAT CCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCA CCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCA CTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACT GGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC /GO_process="nitric oxide transport [PMID ]; oxygen transport [PMID ] [PMID ]; positive regulation of nitric oxide biosynthesis [PMID ]; transport“ /note="beta globin chain" /codon_start=1 /product="beta globin" /protein_id="NP_ " /db_xref="GI: " /db_xref="CCDS:CCDS7753.1" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" /translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH" exon /gene="HBB" /inference="alignment:Splign" /number=2 gene /gene="HBB" /note="hemoglobin, beta; synonyms: HBD, CD113t-C" /db_xref="GeneID:3043" /db_xref="HGNC:4827" /db_xref="HPRD:HPRD_00786" /db_xref="MIM:141900" exon /inference="alignment:Splign" /number=1 CDS /GO_component="hemoglobin complex [PMID ] [PMID ]" /GO_function="heme binding; hemoglobin binding [PMID ]; iron ion binding; metal ion binding; oxygen binding [PMID ]; oxygen transporter activity [PMID ] [PMID ]; selenium binding [PMID ]" GenBank LOCUS NM_ bp mRNA linear PRI 27-JAN-2008 DEFINITION Homo sapiens hemoglobin, beta (HBB), mRNA. ACCESSION NM_000518 VERSION NM_ GI: KEYWORDS . SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 626) AUTHORS Ma,Q., Abel,K., Sripichai,O., Whitacre,J., Angkachatchai,V., Makarasara,W., Winichagoon,P., Fucharoen,S., Braun,A. and Farrer,L.A. TITLE Beta-globin gene cluster polymorphisms are strongly associated with severity of HbE/beta(0)-thalassemia JOURNAL Clin. Genet. 72 (6), (2007) PUBMED REMARK GeneRIF: Forty-five SNPs within the interval including the LCR region and the delta gene showed strong association with disease severity. COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from L On Feb 11, 2003 this sequence version replaced gi: Summary: The alpha (HBA) and beta (HBB) loci determine the structure of the 2 types of polypeptide chains in adult hemoglobin, Hb A. The normal adult hemoglobin tetramer consists of two alpha chains and two beta chains. Mutant beta globin causes sickle cell anemia. Absence of beta chain causes beta-zero-thalassemia. Reduced amounts of detectable beta globin causes beta-plus-thalassemia. The order of the genes in the beta-globin cluster is 5'-epsilon -- gamma-G -- gamma-A -- delta -- beta--3'. Publication Note: This RefSeq record includes a subset of the publications that are available for this gene. Please see the Entrez Gene record to access additional publications. COMPLETENESS: full length. FEATURES Location/Qualifiers source /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /chromosome="11" /map="11p15.5" E estão armazenadas em diversos formatos em um dos diversos bancos de dados vistos anteriormente, cada grupo armazena as seqüências em seu próprio padrão utilizando um identificador também próprio, porém ao longo do tempo foram estabelecidos alguns padrões que hoje são os mais utilizados e reconhecidos ... O padrão é importante para que se possa recuperar as informações e fazer o intercâmbio de informações. A maioria destes formatos foram criados pensando no computador não em você. O Bioinformata deve saber como ler e manipular estes formatos. O formato FASTA é uma das formas mais simples de representação da seqüencia. Uma seqüência em formato FASTA inicia com uma única linha descrevendo o nome da seqüência, seguida por linhas contendo a seqüência em si. A linha de descrição se distingue das linhas da seqüência por conter em seu início o sinal de maior  (">"). Recomenda-se que todas as linhas não possuam mais que 80 caracteres de comprimento. O Formato GenBank é mais completo, útil para os pesquisadores encontrarem facilmente a informação, permite apresentar além da seqüência, uma série de outras informações referente à anotação dessa seqüência por especialistas... (Mostrar alguns campos). Os Identificadores também são importantes e seguem um padrão próprio pra cada grupo... Outro Formato é o do EMBL, que assim como o GenBank também possui além da seqüência informações adicionais... Através de métodos da bioperl, é possível converter de um formato para o outro, devido à padronização. Remark – Observação GeneRIF - Gene Reference Into Function – anotação funcional de genes. HPRD – Human Protein Reference Database – informações sobre proteínas e outras informações relacionadas. ( É importante ficarem atentos aos identificadores eles são necessários para relacionar as informações. Durante o curso e até mesmo após o curso vai surgir a necessidade de transitar entre essas bases de dados. Divisões do GenBank (Divisão Funcional/Divisão

25 Formato Padrão ASN.1 Abstract Syntax Notation One
International Standards Organization (ISO) Linguagem formal para a definição de tipos de dados abstratos NCBI define as especificação para o armazenamento de seqüências de nucleotídeos, proteínas, estruturas, genomas, etc. Formato padrão para representação de dados usado para obter interoperabilidade entre plataformas. Não é de fácil interpretação, é mais útil para a troca de informações entre sistemas. Utilizado principalmente para a especificação de dados em protocolos de telecomunicação. O NCBI utiliza esse formato para o armazenamento e recuperação de diversos tipos de dados, esse tipo de arquivo segue as especificações definidas pelo NCBI para esse formato. A documentação contendo essa especificação pode ser encontrada no site do NCBI. Há módulos implementados pela BioPerl que são capazes de extrair informações desses dados. Seq-entry ::= set { level 1 , class nuc-prot , descr { user { type str "RefSeqGene" , data { { label str "Status" , data str "Reference Standard" } } } ,

26 Formato XML Standard Generalized Markup Language (SGML)
eXtensible Markup Language Recomendação da W3C para gerar linguagens de marcação para necessidades especiais Intercâmbio de dados estruturados. Similar à HyperText Markup Language (HTML) Document Type Definition (DTD) – especificação da estrutura Modular <?xml version="1.0"?> <!DOCTYPE Seq-entry PUBLIC "-//NCBI//NCBI Seqset/EN" " <Seq-entry> <Seq-entry_set> <Bioseq-set> <Bioseq-set_level>1</Bioseq-set_level> <Bioseq-set_class value="nuc-prot"/> <Bioseq-set_descr> <Seq-descr> <Seqdesc> <Seqdesc_user> <User-object> <User-object_type> <Object-id> <Object-id_str>RefSeqGene</Object-id_str> Linguagem Padronizada de Marcação Genérica Portabilidade – intercâmbio de informações entre diferentes plataformas O padrão XML é bastante utilizado no mundo dos negócios, agora está sendo cada vez mais utilizado na bioinformática. Também não é de fácil interpretação, sendo mais útil para a troca de informações entre sistemas. DTD: Define tags válidas e tipos de valores validos Usado para validação do formato Usado para validação dos dados

27 UniGene Sistema analítico automatizado para produzir uma visão organizada do transcriptoma. ( Contribuição Expressed Sequence Tags (ESTs) Pode auxiliar na identificação de uma seqüência não anotada por similiaridade Análise de Expressão Gênica Diferencial Digital Differential Display (DDD) Agrupamento (Clusterização) Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores) Excluir seqüências mitocondriais e de rRNA Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos transponíveis (transposons) Somente seqüências com mais de 100 pb de alta qualidade não repetitiva Alinhamento de seqüências (Megablast) Sobreposição com um nível tolerável de mismatch Cluster pode conter mais de uma forma alternativa do gene Cluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’]) Com o cresimento exponencial do GenBank e a redundância de informações entre seqüências de transcritos motivou a construção desse sistema para produzir uma visão organizada do transcriptoma. Agrupando essas seqüências de transcritos de forma a obter uma representação dos diferentes tipos de transcritos. O Banco de Dados UniGene assim como o RefSeq é considerado um banco de dados derivado, construído a partir dos dados primários, ao contrário do GenBank que é um banco de dados primário, cujas informações são submetidas diretamente nele. Embora os insertos de clones completos de cDNA sejam preferíveis nesse caso, eles são poucos, ao contrário das ESTs que existem aos montes. O Brasil deu a sua contribuição no Projeto Genoma Humano do Câncer, que gerou milhares de ESTs, preferencialmente da porção central dos transcritos. Clusterização Organizando as seqs de transcritos em grupos representando cada um, um único gene. Eliminação de dados de baixa qualidade Mesmo um nível mínimo de ruído pode corromper o resultado final Eliminar seqs de vetor, iniciadores ou adaptadores artificiais Seqs mitocondriais e de rRNA (foco no genoma nuclear) Mascarar elementos repetitivos de baixa complexidade (algoritmo DUST) e elementos transponíveis, identificados através de comparações com uma biblioteca de elementos repetitivos disponível para cada organismo. Cluster pode conter mais de uma forma alternativa do gene Cluster ancorado final 3’ (poli-A+) - o cluster deve conter ao menos 1 seqüência cuja região 3’ seja reconhecida por ao menos 1 evidência cauda e/ou sinal poli-A ou 2 ou mais ESTs geradas com primer de sequenciamento 3’ (diferenciação cauda poli-A de primer interno (comparação com o genoma)

28 UniGene Tamanho Quantidade Hs build 209 query 5’ EST hits 3’ EST hits
1 4 19 59 215 739 1882 3990 4508 65-128 3935 33-64 3919 17-32 5090 9-16 8107 5-8 13349 3-4 18126 2 19078 40756 Esse é um histograma mostrando o tamanho (também chamada de profundidade, ou seja, o número de seqüências nesse agrupamento) de cada agrupamento e a quantidade de agrupamentos. Há um grande número de agrupamentos com poucos membros e poucos agrupamentos com muitos membros. Esse é o resultado de um BLAST feito pela página do NCBI, que exemplifica o processo de montagem de um cluster a partir de ESTs.

29 Digital Differential Display
(DDD) Gene LIPE Uma informação útil, que pode ser extraída da montagem do UniGene é a de expressão gênica, já que temos nele as informações do agrupamento de fragmentos de transcritos obtidos de bibliotecas construídas a partir de amostras de diversos tecidos e linhagens celulares. Sabendo a quantidade de um mesmo transcrito em determinada amostra temos uma estimativa da expressão do gene. Através dessa ferramenta disponível na página do UniGene, é possível consultar essa estimativa da expressão em diversas regiões do organismo, ou então, a expressão em estado de saúde (tumoral por exemplo) ou estágio do desenvolvimento.

30 Nomes e Símbolos de Genes
HUGO Gene Nomenclature Committee (HGNC) ( Genes humanos Aprovação de um nome e símbolo (abreviação) único. Exemplo: CSE1L CSE1 chromosome segregation 1-like (yeast) XPO1 exportin 1 (CRM1 homolog, yeast) XPO4 exportin 4 XPO5 exportin 5 XPO6 exportin 6 XPO7 exportin 7 XPOT exportin, tRNA (nuclear export receptor for tRNAs) XPOTP1 exportin, tRNA (nuclear export receptor for tRNAs) pseudogene 1 Homólogo XP01 Xpo1 - exportin 1, CRM1 homolog (yeast) [Mus musculus] Mouse Genome Informatics (MGI) Mouse Genomic Nomenclature Committee (MGNC) Zebrafish Nomenclature Committee(ZNC) Problemas com a nomenclaturas em Genética Humana foram reconhecidos no início dos anos 60 e em 1979, um guia completo para a nomenclatura de genes humanos foi proposta. Desde então esforços tem sido feitos na tentativa de definir nomenclaturas simples, conveniente e adequada ao uso diário desses termos. Tenta manter uma nomenclatura semelhante para membros de uma mesma família, no caso do exemplo para as exportinas. E também uma nomenclatura semelhante com a de outras espécies, especialmente camundongos.

31 Repositórios para Seqüências de Proteínas
UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL e PIR) ( HBB – Hemoglobin Beta P68871 UniRef100_P68871 UniRef90_P68871 UniRef50_P02042 O UniProt é um banco de dados de informações curadas de proteínas (seqüência e função) que reúne informações de 3 outras fontes (Swiss-Prot, TrEMBL, and PIR. ) e inclui função, classificação e relações entre elas. O UniProtKB recebe informações de seqüências de proteínas e as armazena em um banco de dados chamado de UniParc, é a base de dados para arquivamento das seqüências, através dela é possível ter um histórico de toda seqüência submetida a ele. Ele dá origem a outras bases: - o UniMES que é um banco de dados de proteínas de seqüências metagenômicas e de amostras do ambiente. UniRef que assim como obtém seqüências do UniProtKB (UniRef100) A idéia do UniRef é de construir um repositórios de seqüências de proteínas não redundantes, concentrando todas as diferentes espécies de proteínas existentes, isso é feito de acordo com a similaridade entre as seqüências utilizando algoritmos de agrupamento. O UniRef90 e UniRef50 são construídos a partir do UniRef100, e possuem registros com mais 90% de identidade ou mais (UniRef90) de 50% de identidade ou mais (Uniref50) O número de acesso do cluster tem como identificador seqüência mais representativa com o prefixo UniRef(100/90/50)_ Exemplo beta-globina humana Exemplo de dados do UniMES The initial GOS (Global Ocean Sampling Expedition) dataset is composed of 28 million DNA sequences from oceanic microbes and it predicts nearly 6 million proteins. Metagenomics : study of genetic material recovered directly from environmental samples. UPI C9

32 Repositórios de Dados Biológicos (Estrutura de Proteínas)
PDB – Protein Data Bank ( DEOXY HUMAN HEMOGLOBIN PDB: 1A3N Também há bancos de dados de estruturas de proteínas. Essa informação é bastante relevante já que a sua conformação é que determina a sua função e possíveis interações com outras proteína sou moléculas de DNA ou RNA. O PDB é um banco de dados com informações de proteínas, e que também fornece recursos para o estudo de estruturas de macromoléculas biológicas, suas relações com as seqüências, funções e doenças. Todos os outros bancos de dados de proteínas possuem links para o PDB. Além das informações armazenadas, possui ferramentas que permitem interativamente visualizar os aspectos tridimensionais da proteína.

33 Repositórios de Dados Biológicos (Gene Ontology)
Projeto colaborativo para tratar da necessidade de descrições consistentes de produtos gênicos em diferentes bancos de dados. ( Termos do GO (diferentes níveis de especificidade) Componente Celular Ex.: Retículo Endoplasmático Rugoso, núcleo, ribossomo, etc. Processo Biológico Processo celular fisiológico, transdução de sinal, metabolismo de pirimidinas, etc. Função Molecular Atividade catalítica, atividade de adenilato ciclase, atividade de álcool desidrogenase, etc. Estrutura dos termos Grafo direcionado acíclico (Similar a uma hierarquia, porém nesse caso um filho pode ter mais de um pai) Is_a - A is a B ( A é subclasse de B ) nuclear chromosome is_a chromosome Part_of – C part of D ( C é parte de D, mas não necessariamente D deve possuir C) nucleus part_of cell A descrição dos produtos gênicos é feita em 3 vocabulários (ontologias) estruturados e controlados para a descrição de produtos gênicos em diferentes níveis. Um produto biológico pode - estar associado ou localizado em um ou mais Componentes Celulares - estar envolvido em um ou mais processos biológicos - atuando com através de uma ou mais funções moleculares Um Componente Celular pode ser uma estrutura anatômica da célula ou um grupo de produtos gênicos Um Processo Biológico é uma série de eventos realizados por um ou mais conjuntos ordenados de funções moleculares. (+ de um passo - diferença com função molecular. Não corresponde a vias metabólicas, pois não descreve as dinâmicas e dependências necessárias para descrever completamente uma via metabólica) Uma Função Molecular geralmente corresponde a uma atividade que pode ser realizada por cada produto gênico, mas algumas atividades são realizadas por complexos formados por produtos gênicos. (Não confundir com a descrição do gene álcool desidrogenase, muitos genes possuem a atividade de álcool desidrogenase mas não possuem no nome essa descrição, muitos dos termos do GO que descreve funções moleculares são precedidos pelo termo atividade para justamente evitar essa confusão, por ex. atividade álcool desidrogenase)

34 Repositórios de Dados Biológicos (Gene Ontology)
GO Identifier Exemplos GO: (Cell) GO: (Fibroblast growth factor receptor binding) GO: (Signal transduction) Banco de Dados OBO (Open Biomedical Ontologies) Flat File Banco de Dados Relacional MySQL Cada termo possui seu identificador único, por exemplo Cell Fibroblast growth factor receptor binding Signal transduction

35 Repositórios de Dados Biológicos (Gene Ontology)
Grafo Direcionado Acíclico (DAG) Termo mais abrangente para um termo mais específico Cada termo possui seu identificador único, por exemplo - Cell - Fibroblast growth factor receptor binding - Signal transduction

36 Repositórios de Dados Biológicos (Vias metabólicas)
KEGG – Kyoto Encyclopedia of Genes and Genome ( Via de sinalização MAPKinase (hsa04010) Vias metabólicas – são as interações moleculares entre os genes, suas relações e as conseqüentes reações. KEGG – Informações sobre genes, genomas e vias metabólicas além de classificações funcionais. BioCarta – Informações sobre genes e suas vias metabólicas além de ferramentas para estudá-las. Exemplo: MAPKinase – envolvida em alguns processos biológicos estimulados por fatores de crescimento, stress e inflamação, etc. BioCarta ( Via de sinalização MAPKinase (h_mapkPathway)

37 Bancos de Dados de Expressão Gênica
GEO (Gene Expression Omnibus) ( Início em 1999 Suporte a muitos tipos de dados Início em 1999 devido à demanda de um repositório de dados, principalmente para experimentos de microarray. Plataformas, amostras e séries são conceitos que serão apresentados nos próximos slides. Experimentos baseados em sequenciamento ou baseados em hibridação, todos possuem o objetivo de determinar a abundância de mRNA, DNA genômico ou proteína

38 Gene Expression Omnibus (Arquitetura)
Plataforma (Platform) (GPL) Base para os experimentos com determinado configuração utilizando certa tecnologia. Accession  Samples Organism(s) Title GPL4 396 Homo sapiens SAGE:10:NlaIII:Homo sapiens GPL6 15 SAGE:10:Sau3A:Homo sapiens GPL1485 34 SAGE:17:NlaIII:Homo sapiens Família (Family) Amostra (Sample) (GSM) Descrição do material biológico e condições experimentais. sobre o qual a amostra foi manipulada e os valores de expressãõ gênica. Omnibus – para todos, para qualquer um, ou seja, é um repositório que pode conter todo e qualquer tipo de dado de expressão gênica. Em outras palavras, possui uma estrutura bastante flexível para representar sistemas biológicos complexos através das mais distintas tecnologias. Os dados no GEO estão organizados com base nessas 3 unidades. Em parênteses estão os respetivos prefixos. Plataforma – a base do experimento, que pode ser um array comercial ou nao, da Affimetrix ou Codelink, SAGE utilizando enzima ancora NlaIII, ou SAGE utilizando enzima Sau3A,… Amostra – é o resultado do experimento realizado em cima de uma determinada plataforma. Séries – que organizam as amostras em conjuntos, como por exemplo, experimentos em uma série temporal, acompanhando por exemplo estágios do desenvolvimento de larvas de abelhas Apis mellifera, ou o ciclo celular de um determinado tipo de linhagem celular, ou experimentos que estejam interessados na resposta à dosagem de determinada droga, ou então qualquer outro tipo de agrupamento não especificado, esse por exemplo representa os experimentos de SAGE do CGAP. Accession Title GSM14735 SAGE_Pancreas_carcinoma_CL_ASPC GSM14736 SAGE_Pancreas_carcinoma_CL_PL45 GSM14737 SAGE_Brain_astrocytoma_grade_II_B_H359 Série (Series) (GSE) Organiza as amostras em conjuntos considerados serem parte de um experimento.. Accession Title GSE14 CGAP SAGE

39 Gene Expression Omnibus (Implementação)
Banco de Dados Relacional Não armazena imagens cruas de experimentos (raw image data) Armazenamento BLOB (tipo de dados - texto compactado) Dados (Atributos) GEO - obrigatórios Identificação do clone Número de Acesso Submitter - opcionais Estrutura de armazenamento que permite grande flexibilidade

40 Gene Expression Omnibus (Recuperando Informação)
Web Queries GPLXXXX GSMXXXX GSEXXXX BLAST – possibilidade de utilizar a ferramenta BLAST para encontrar as seqüências similares que possuem perfis de expressão gênica em algum experimento.

41 Gene Expression Omnibus (Ferramenta de Busca)
Brief – somente as características contidas no cabeçalho Quick – além das características contidas no cabeçalho, os 20 primeiros dados

42 Gene Expression Omnibus (Data-mining)
GEO DataSets (GDS) ( Visão do GEO centrada no experimento Series – conjunto de amostras definido pelo autor Datasets – conjunto de amostras estatísticamente comparáveis processadas sob a mesma plataforma. Prefixo GDS Série – conjunto de amostras definido pelo autor da submissão Os datasets as amostras extraídas das séries pela equipe do NCBI que são estatísticamente comparáveis (ou seja, amostras suficientes de cada classe), processadas sob a mesma plataforma. Atualmente não há datasets para dados de SAGE. A – Mostra um resumo sobre o que esse dataset trata B – É possível comparar os dados entre dois grupos utilizando teste estatístico de significância (test-t) C- É possível acessar daí os dados de expressão para cada gene através da ferramenta GEO Profiles que permite comparar também visualmente a diferença de expressão entre essas amostras. D – A ferramenta também oferece a possibilidade de gerar agrupamentos (clusters hierárquicos, K-means, …) Visão dos dados do GEO centrada nos experimentos. O conjunto de amostras de um mesmo experimento está contido em uma Série

43 Formato dos Dados MINiML – MIAME Notation in Markup Language
XML Schema (Validação XSD) SOFT - Simple Omnibus FormaT Arquivo texto (ASCII) <Platform iid="GPL4"> <Accession database="GEO">GPL4</Accession> </Platform> <Sample iid="GSM14737"> <Status database="GEO"> <Submission-Date> </Submission-Date> <Release-Date> </Release-Date> <Last-Update-Date> </Last-Update-Date> </Status> <Title>SAGE_Brain_astrocytoma_grade_II_B_H359</Title> <Accession database="GEO">GSM14737</Accession> <Type>SAGE</Type> <Anchor>NlaIII</Anchor> <Tag-Length>10</Tag-Length> <Tag-Count>105764</Tag-Count> <Channel-Count>1</Channel-Count> <Channel position="1"> <Source>astrocytoma grade II</Source> <Organism>Homo sapiens</Organism> <Characteristics>none</Characteristics> <Molecule>total RNA</Molecule> </Channel> <Description>Producer: Jennifer B. Edwards Tissue description: brain Tissue supplier: Duke Tissue Bank Sample type: bulk Other information: Grade II Laboratory: Gregory Riggins, Duke University Medical Center This library represents a Cancer Genome Anatomy Project library , which was either produced through CGAP funding, or donated to CGAP. The Cancer Genome Anatomy Project (CGAP: is an interdisciplinary program established and administered by the National Cancer Institute (NCI: to generate the information and technological tools needed to decipher the molecular anatomy of the cancer cell. Keywords = brain Keywords = non-normalized Keywords = bulk Keywords = astrocytoma grade II Keywords = short SAGE</Description> <Data-Processing /> <Platform-Ref ref="GPL4" /> <Contact-Ref ref="contrib1" /> <Supplementary-Data type="unknown">NONE</Supplementary-Data> <Data-Table> <Column position="1"> <Name>TAG</Name> <Description>Ten base SAGE tag,</Description> <Link-Prefix> </Column> <Column position="2"> <Name>COUNT</Name> <Description>Absolute tag count</Description> </Column> <Column position="3"> <Name>TPM</Name> <Description>Tags per million, or ( *COUNT)/(Total tags)</Description> <Internal-Data rows="20">CTAAGACTTC CCCATCGTCC CAAGCATCCC AGCCCTACAA TTCATACACC AAAACATTCT ATAATTCTTT CACCTAATTG TTGGGGTTTC GTTGTGGTTA TTGGTCCTCT TTTAACGGCC TGCACTTCAA TGATTTCACT GTGACCACGG TTCAATAAAA TACCATCAAT AGGTGGCAAG TTGGTGAAGG CCACTGCACT </Internal-Data> </Data-Table> </Sample> </MINiML> <?xml version="1.0" encoding="UTF-8" standalone="no" ?> <MINiML xmlns=" xmlns:xsi=" xsi:schemaLocation=" MINiML.xsd" version="0.2"> <Contributor iid="contrib1"> <Person> <First>Cancer Genome Anatomy Project</First> <Last>CGAP</Last> </Person> <Phone> </Phone> <Department>Cancer Genome Anatomy Project</Department> <Organization>National Cancer Institute</Organization> <Address> <City>Bethesda</City> <State>MD</State> <Zip-Code>20852</Zip-Code> <Country>USA</Country> </Address> <Web-Link> \ </Contributor> <Database iid="GEO"> <Name>Gene Expression Omnibus (GEO)</Name> <Public-ID>GEO</Public-ID> <Organization>NCBI NLM NIH</Organization> <Web-Link> </Database> ^SAMPLE = GSM14737 !Sample_title = SAGE_Brain_astrocytoma_grade_II_B_H359 !Sample_geo_accession = GSM14737 !Sample_status = Public on Jan !Sample_submission_date = Dec !Sample_last_update_date = May !Sample_type = SAGE !Sample_anchor = NlaIII !Sample_tag_length = 10 !Sample_tag_count = !Sample_channel_count = 1 !Sample_source_name_ch1 = astrocytoma grade II !Sample_organism_ch1 = Homo sapiens !Sample_molecule_ch1 = total RNA !Sample_description = Producer: Jennifer B. Edwards !Sample_description = Tissue description: brain !Sample_description = Tissue supplier: Duke Tissue Bank !Sample_description = Sample type: bulk !Sample_description = Other information: Grade II !Sample_description = Laboratory: Gregory Riggins, Duke University Medical Center !Sample_description = This library represents a Cancer Genome Anatomy Project library , which was either produced through CGAP funding, or donated to CGAP. !Sample_description = The Cancer Genome Anatomy Project (CGAP: is an interdisciplinary program established and administered by the National Cancer Institute (NCI: to generate the information and technological tools needed to decipher the molecular anatomy of the cancer cell. !Sample_description = Keywords = brain !Sample_description = Keywords = non-normalized !Sample_description = Keywords = bulk !Sample_description = Keywords = astrocytoma grade II !Sample_description = Keywords = short SAGE !Sample_platform_id = GPL4 !Sample_contact_name = Cancer Genome Anatomy Project,,CGAP !Sample_contact_ = !Sample_contact_phone = !Sample_contact_department = Cancer Genome Anatomy Project !Sample_contact_institute = National Cancer Institute !Sample_contact_address = !Sample_contact_city = Bethesda !Sample_contact_state = MD !Sample_contact_zip/postal_code = 20852 !Sample_contact_country = USA !Sample_contact_web_link = !Sample_supplementary_file = NONE !Sample_series_id = GSE14 !Sample_data_row_count = 35555 #TAG = Ten base SAGE tag, LINK_PRE:" #COUNT = Absolute tag count #TPM = Tags per million, or ( *COUNT)/(Total tags) !sample_table_begin TAG COUNT TPM CTAAGACTTC CCCATCGTCC CAAGCATCCC AGCCCTACAA TTCATACACC AAAACATTCT ATAATTCTTT CACCTAATTG TTGGGGTTTC GTTGTGGTTA TTGGTCCTCT TTTAACGGCC TGCACTTCAA TGATTTCACT GTGACCACGG TTCAATAAAA TACCATCAAT AGGTGGCAAG TTGGTGAAGG CCACTGCACT !sample_table_end MIAME – Orientações delineiam como organizar o mínimo de informação que deve ser incluída para descrever um experimento de microarray. O “MINiMaL” como é chamado, é otimizado para microarray mas pode definir qualquer outro tipo de experimento.

44 SAGEmap Repositório para os dados de SAGE do NCBI
( Ferramentas de consulta e análise Ferramentas: Virtual Northern / SAGE xProfiler Mapeamento TAG-Gene (UniGene) Repositório para os dados de SAGE do NCBI, com bibliotecas de tags de diversos organismos - Bibliotecas importados para o GEO - Possui ferramentas de análise de dados como Virtual Northern e SAGE xProfiler - E também possui a sua metodologia para o mapeamento Tag-Gene e meios de consultar a melhor tag para ser usada para determinado gene ou o melhor gene para ser associado à determinada tag A consulta e as ferramentas não estão disponíveis no momento devido a alterações no site. Essas são imagens encontradas no artigo que descreve esse serviço que o NCBI provê. Além das ferramentas de consulta sobre o mapeamento (imagens indisponíveis). No SAGEmap encontramos essas duas ferramentas: VN e o SAGExProfiler Northern Blotting – técnica de biologia molecular baseada em hibridação* para avaliar a expressão gênica relativa relativa entre moléculas de RNA, representada pela intensidade do sinal emitido pela sonda (molécula marcada com um isótopo radioativo) e identificada utilizando um filme sensível à radiação. (*de acordo com a complementariedade de bases) Virtual Northern Através dessa ferramenta é possível submeter uma seqüência qualquer de uma molécula de RNA (de preferência com a região 3’ íntegra), a ferramenta vai identificar as tags presentes nessa seqüência e exibir uma lista com a freqüência de cada uma delas nas bibliotecas presentes na base de dados. SAGE xProfiler - Ferramenta para comparar estatísticamente a expressão gênica entre 2 grupos (Colon Normal x Carcinoma de Colon) Lash AE, Tolstoshev CM, Wagner L, Schuler GD, Strausberg RL, Riggins GJ, Altschul SF. SAGEmap: a public gene expression resource. Genome Res Jul;10(7):

45 SAGE Genie Repositório para os dados de SAGE do CGAP (Somente Hs e Mm)
( Ferramentas de consulta e análise Ferramentas: SAGE Anatomic Viewer / Digital Northern / SAGE Digital Gene Expression Displayer/ … Mapeamento TAG-Gene Repositório para os dados de SAGE do CGAP (somente bibliotecas de tags para humanos e camundongos) Essas bibliotecas também foram importadas para o GEO e há alguma delas encontradas no site do SAGEmap. Possui as suas próprias ferramentas para a consulta e análise dos dados. Através da página de consulta SAGE Anatomic Viewer (link SAV) é possível fazer buscas utilizando diversos identificadores do Gene ou de transcritos, buscando pela melhor tag ou submetendo uma tag para buscar o melhor gene para ser associado à essa tag. Também há uma busca mais recente pelas tags mapeadas em determinado cromossomo. E por onde também é possível fazer buscas. Essa busca gera um resultado, de onde é possível acessar as ferramentas SAGE Anatomic Viewer e o Digital Northern

46 Arquivos SAGE Genie (ftp://ftp1.nci.nih.gov/pub/SAGE/HUMAN)
- Hs.libraries numeric library id [unique key] old library name new library name total tags including linker total tags after elimination of linker unique tags library quality ('1' if good) organ/tissue tissue preparation cell type keywords patient age patient sex mutations other information tagging enzyme anchoring enzyme tissue or cell line supplier library producer laboratory references - Hs_short.datasets database rank order [unique key] database id database name total cDNAs has polyA signal? has polyA tail? tag position [ordinal position, 1 = closest to 3' end] percent tags in confident tag list - Hs_short.map tag database rank order accession UniGene cluster number - Hs_short.best_gene tag [unique key] symbol title cytogenetic location - Hs_short.best_tag UniGene cluster number [unique key] - Hs_short.frequencies numeric library id frequency - Hs_short.confident - Hs_short.no_anchor accession of transcript with no anchor site - Hs_short.repetitive number of transcripts in which tag is found

47 H2G: Hyper & Hypo Expressed Genes
Repositório de dados de Expressão Gênica ( Técnicas SAGE, Microarrays, MPSS Organismos: Homo sapiens (humano) Mus musculus (camundongo) Rattus novergicus (rato) Apis mellifera (abelha) Análises de Expressão Gênica Diferencial SAGEci (Vêncio et al., 2003) Correlation metric P (Slonim et al., 2000) Fold Change (Razão) Difference (Diferença) Acesso aos serviços HTTP (interno/externo) CORBA (interno) (BiT::Inter) SOAP (interno/externo) (SOAP::Lite e BiT::Inter) CORBA – é uma arquitetura desenvolvida para estabelecer e simplificar a troca de dados entre sistemas distribuídos heterogêneos. SOAP - é um protocolo para troca de informações estruturadas em uma plataforma descentralizada e distribuída.

48 Referências Date, C. J An Introduction to Database Systems. Addison-Wesley Longman Publishing Co., Inc. Elmasri, R. A. and Navathe, S. B Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc. CMPUT Principals of Knowledge Discovery In Data ( dex.html) Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU, Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L. Database resources of the National Center for Biotechnology. Nucleic Acids Res Jan 1;31(1):28-33. NCBI Field Guide - ( Wikipedia ( NCBI-HandBook ( d=handbook.TOC&depth=2) Ótimo livro de teoria de banco de dados, um livro bastante conceituado, porém não é recomendado como texto introdutório, apesar do nome. Esse outro livro eu acredito que a leitura é um pouco mais fácil, porém é também um livro teórico sobre Bancos de Dados. Link de um curso sobre Data Mining. Wikipedia, que é sempre um ótimo ponto de partida. O livro online do NCBI que contém muita informação a respeito das principais bases de dados do NCBI.

49 Daniel Guariz Pinheiro
Perguntas... Daniel Guariz Pinheiro MUITO OBRIGADO !!! Perguntas ? Este é o meu (“lgmb” Laboratório de Genética Molecular e Bioinformática, “fmrp” Faculdade de Medicina de Ribeirão Preto, “usp” , “br”) Podem mandar s se quiserem discutir algo... A minha página, que está bastante desatualizada... E esta é a página do Laboratório...


Carregar ppt "Bancos de Dados Biológicos I"

Apresentações semelhantes


Anúncios Google