Banco de Dados Biológicos

Slides:



Advertisements
Apresentações semelhantes
Instituto de Computação
Advertisements

ANÁLISE DISCRIMINANTE
Indexação Automática de Documentos
Universidade Federal de Viçosa
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.
Seqüenciamento parcial de transcritos
Introduction of RefSeq and LocusLink: resources at the NCBI
Pesquisa em Memória Primária
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Pesquisa em Memória Primária
Hashing (Espalhamento)
Análise Léxica Supondo o trecho de programa abaixo:
O Surgimento dos Sistemas de Bioinformática
Formato de Arquivos e Bancos de Dados Biológicos
Evolução Molecular Metodologias de Análise
DIALÉTICA EVOLUTIVA E EVIDÊNCIAS DA EVOLUÇÃO
Software de Rede Willamys Araújo.
Site: Estatística Prof. Edson Nemer Site:
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Teoria dos Grafos Caminhos e Noção de Grafos com pesos
Aula prática 6 Vetores e Matrizes
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
Linguagem de Programação II Parte IX
Sistemas Operacionais
Softwares de Análises Estatísticas em Biologia Sistêmica
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Engenharia Genética.
Bancos de dados para análise de sequências de DNA
Bioinformática (Alinhamento de Seqüências)
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Tópicos Avançados em Inteligência Artificial
Bancos de Dados.
SISTEMAS OPERACIONAIS I Gerenciamento de Arquivos
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Alinhamento de sequências
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Busca Combinatorial e Métodos de Heurística
Introdução a Banco de Dados Aula 04
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Marcílio C. P. de Souto DIMAp/UFRN
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Estrutura de arquivos – Cap 4.1.2
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Introdução à Biologia Molecular Computacional
Sequenciamento de Genomas
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Bioinformática Felipe G. Torres.
FERRAMENTAS DE ANÁLISE MOLECULAR
Ligação, Recombinação e Mapas Genéticos
Aprendizado por Indução
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Alinhamento Global de Seqüências Katia Guimarães.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
PREPARAÇÃO DE UM ARTIGO CIENTÍFICO
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Transcrição da apresentação:

Banco de Dados Biológicos Marcílio C. P. de Souto DIMAp/UFRN

Banco de Dados (BD) Biológicos Por que? Disponibilizar dados biológicos para os cientistas O máximo possível de um tipo particular de informação deveria estar disponível em um único lugar Dados publicados podem ser difíceis de encontrar ou acessar Coleta-los da literatura consume muito tempo Disponibilizar dados em formato que possa ser lido por um computador

BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD BD de seqüências de nucleotídeos EMBL (http://www.ebi.ac.uk/embl) GenBank (http://www.ncbi.nlm.nih.gov/GenBank) DDBJ (http://www.ddbj.nig.ac.jp) UniGene (http://www.ncbi.nlm.nih.gov/UniGene) BD de seqüências de proteínas SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot) PIR (http://pir.georgetown.edu) BD de motivos Pfam (http://www.sanger.ac.uk/Software/Pfam) PROSITE (http://www.expansy.ch/prosite) BD de estruturas macromoleculares 3D PDB (http://www.rcsb.org/pdb)

Usos de BD de Seqüências O que se pode descobrir sobre um gene por meio de uma busca a um BD? Informação evolutiva: genes homólogos, freqüências dos alelos, ... Informação genômica: localização no cromossomo, intros, UTRs, regiões reguladoras, ... Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ... Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ... Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...

Busca de Informação Busca de informação sobre genes e produtos gênicos Gene e produtos gênicos são geralmente organizados por seqüência Seqüências genômicas codificam todas características de um organismo Produtos gênicos são descritos unicamente por sua seqüência Seqüências similares entre biomoléculas indica tanto uma função similar quanto um relacionamento evolutivo Seqüências de macromoléculas proporciona chaves biologicamente significativas para busca em BD

Busca em BD de Seqüências Comece com uma seqüência, encontre informação sobre ela Muitos tipos de seqüências de entrada Pode ser uma seqüência de aminoácido ou de nucleotídeo Genômica, cDNA/mRNA, proteína Completa ou fragmentada Matches exatos são raros Em geral, o objetivo é recuperar um conjunto de seqüências similares

Busca em BD de Seqüências O que queremos saber sobre a seqüência? Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância? O que sabemos sobre este gene? Genômica (localização no cromossomo, regiões reguladoras, ...) Estrutural (estrutura conhecida? ...) Funcional (molecular, celular e doença) Informação evolutiva Este gene é encontrado em outros organismos? Qual é sua árvore taxonômica?

NCBI e Entrez A mais usada interface para a recuperação de informação de BD biológicos é o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez) NCBI (National Center for Biotechnology Information) O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-existentes entre as entradas indíviduas encontradas em diversos BD públicos Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento de um gene cuja seqüência aparece no GenBank A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma proteína cuja seqüência está armazenada em um BD de proteínas A estrutura 3D desta proteína pode ser conhecida - as coordenadas da estrutura podem aparecer em um BD de estruturas Finalmente, o gene pode ter sido mapeado para uma região específica do cromossomo - BD de mapeamento A existência dessas conexões naturais, levou ao desenvolvimento de um método por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos

O Sistema Entrez (1/2) Para ser claro, Entrez não é um BD É a interface por meio da qual todos os seus BDs componentes podem ser acessados O espaço de informação do Entrez inclui Registros do PubMed Dados sobre seqüências de nucleotídeos e proteínas Informação sobre estruturas 3D Informação de mapeamento A vantagem do Entrez está no fato que toda esta informação pode ser acessada por meio de apenas uma query (consulta)

O Sistema Entrez (2/2)

BLAST: Busca com uma Seqüência O objetivo é encontrar outras seqüências que são mais similares a query (consulta) do que seria esperado por ter acontecido ao acaso Homologia Pode começar com seqüências de nucleotídeos ou aminoácidos Pode fazer a busca por nucleotídeos/aminoácidos

BLAST

Mais que NCBI Links para anotações funcionais fora do NCBI Gene Ontology - nomes padrões para: Funções moleculares Localização celular Processos Links para BD de enzimas Funções da enzimas Links para o BD KEGG (vias)

KEGG

Referências A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001. The Molecular Biology Database Collection: 2003 update -- Nucleic Acids Research 31(1):1-12

Marcílio C. P. de Souto DIMAp/UFRN Busca em Banco de Dados Marcílio C. P. de Souto DIMAp/UFRN

Primeiro “Atrás da Tela” Banco de dados são muito usados para buscas Integridade, segurança, ... Busca significa receber uma query (consulta) e recuperar algum entrada do banco de dados que match (case) com ela Comparação inexata de seqüências (alinhamento) Programação dinâmica e BLAST search Eficiência é fundamental Queremos encontrar coisas rápidas, independentemente de quão grande o banco de dados se torne

Alinhamento de Seqüências Possibilitar ao pesquisador determinar se duas seqüências apresentam suficiente similaridade tal que um inferência sobre homologia pode ser justificada Homologia: significa dizer que duas (ou mais) seqüências tem um ancestral comum História evolutiva Similaridade: é uma medida da qualidade do alinhamento entre duas seqüências, baseada em algum critério Não se refere a nenhum processo histórico Apenas uma comparação das seqüências com algum método É uma afirmação logicamente mais fraca Em bioinformática, esses dois termos são muitas vezes confundidos A razão é provavelmente porque uma similaridade significativa é um forte argumento para homologia e, a partir disso, para a dedução de que as seqüências codificam um gene com uma função biológica similar

Bases Evolucionárias Mutações Os eventos mais simples que ocorrem durante o curso da evolução molecular são substituições de um nucleotídeo por outro e a deleção ou inserção de uma par de base Quando uma alinhamento de seqüências refletem genuinamente a história evolutiva de dois genes ou proteínas Resíduos que foram alinhados mas não são idênticos representaria uma substituição Regiões onde os resíduos de uma seqüência não correspondem a nada na outra seria interpretado como ou uma inserção uma seqüência ou uma deleção na outra A L I G N M E N T | | | | | | | - L I G A M E N T

Relação entre Sequências

Similaridade Similaridade pode ser definida contando posições que são idênticas entre duas seqüências Gaps (inserções/deleções) podem ser importantes G A A T T C A G T T A | | | | | | | G G A T T C – G - — A

Substituições Nem todo mismatch (substituições) são iguais Alguns aminoácidos são mais substituível entre si Serina e treonina são mais parecidos do que triptofan e alanina Podemos adicionar um custo diferente para cada tipo de mismatch (substituição) Em geral, não usamos custos diferentes para os mismatches no alinhamento de nucleotídeos Nenhuma substituição, por si, é melhor do que outra

Gaps Sem gaps, há N*M possíveis alinhamentos entre seqüências de comprimentos N e M Uma vez gaps são permitidos, isto se torna um número muito grande O número de possíveis alinhamentos torna-se exponencial no tamanho das seqüências Logo, não podemos experimentar todos

Alinhamento Aleatórios A introdução de gaps também pode levar a alinhamentos sem sentido S O M E T I M E S Q U I P S E N T I C E | | | | | | | | S - - E - – - - — Q U - - - E N - - C E É necessário distinguir entre alinhamentos que ocorreram devido a homologia daqueles que são esperados a acontecer ao acaso Defina um esquema (função) de score (pontuação) que leve em consideração ambos mismatches e penalidades para gaps

Match Scores Match scores são em geral calculados com base na freqüência de mutações particulares em seqüências muito similares

Alinhamento Global e Local (1/2) Seqüências são comparadas como um todo Útil quando temos seqüências que diferem pouco entre si Inclui gaps Local O alinhamento localiza fragmentos de seqüências que são mais similares Algumas vezes não inclui gaps Muitas proteínas não apresentam um padrão global de similaridade Mosaico de domínios modulares Alinhamento de seqüências de nucleotídeos de um mRNA processado (spliced) com sua seqüencia genômica (Exon/Intron)

Alinhamento Global e Local (2/2)

Score do Alinhamento Um score (pontuação) do alinhamento é a soma de todos os match scores, com a penalidade subtraída para cada gap A B C D E F G | | | | A C C - — F G match gap score score 8 2 8 8 8 => 34 - (10+2) = 22

Métodos de Alinhamento de Seqüências Dado um par de seqüências e função de score (pontuação), identifique o alinhamento que obteve o melhor score Alinhamento ótimo Lembre, há um número exponencial de alinhamentos possíveis A maioria deles com scores muito ruins Alinhamento de pares de seqüências Matriz de pontos (dot matrix) Programação dinâmica Dicionário de palavras ou k-tuplas (BLAST)

Matriz de Pontos Permite a inspeção visual de um possível alinhamento entre duas seqüências Permite que repeats e inversões sejam detectadas Permite a identificação de regiões auto-complementares (e.g., RNA com estrutura secundária) O alinhamento não é produzido

Exemplo A T G C G T C G T T A T C G Seqüências: ATGCGTCGTT ATCCGCGAT Passos Organize as seqüências em uma matriz Coloque um ponto em cada lugar que houver um match entre duas bases Trechos diagonais (indicados por linhas) são áreas de alinhamento Mais de um alinhamento pode surgir

Programação Dinâmica (PD) Método computacional que calcula o melhor alinhamento possível entre sequências Abordagem indutiva, em que são definidos os scores para as seqüências menores, e a partir dessas, novos scores são computados os scores de cadeias maiores Sejam s e t duas seqüências, com |s|=m e |t|=n, construir uma matriz (m+1) x (n+1), em que M(i, j) contém a similaridade entre s[1..i] e t[1..j] Algoritmo de Needleman-Wunch

Exemplo (1/12) Sequence 1: GAATTCAGTTA (m = 11) Sequence 2: GGATCGA (n = 7) Esquema de Pontuação (scoring): S(aibj) = +2 if ai = bj (match score) S(aibj) = -1 if ai  bj (mismatch score) w = -2 (gap penalty) Pontuação Máxima na posição i,j da matriz: Mi,j = MAX[ Mi-1, j-1 + s(ai,bj) (match/mismatch), Mi,j-1 + w (gap na seqüência #1), Mi-1,j + w (gap na seqüência #2)] 

Exemplo (2/12) Inicialização Crie uma matriz com m+1 colunas e n+1 linhas, em que m e n correspondem ao tamanho das seqüências a serem alinhadas A primeira linha e a primeira coluna podem ser inicialmente preenchidas com 0

Exemplo (3/12) Preenchimento da Matriz M1,1 = MAX[M0,0 + 2, M1,0 - 2, M0,1 - 2] = MAX[2, -2, -2]

Exemplo (4/12) Preenchimento da Matriz M1,2 = MAX[M0,1 + 2, M1,1 - 2, M0,2 - 2] = MAX[0+2, 2-2, 0-2] = MAX[2, 0, -2]

Exemplo (5/12) Preenchimento da Matriz M1,3 = MAX[M0,2 - 1, M1,2 - 2, M0,3 - 2] = MAX[0-1, 2-2, 0-2] = MAX[-1, 0, -2]

Exemplo (6/12) Preenchimento da Matriz M32 = MAX[M21 - 1, M31 - 2, M22 - 2] = MAX[0-1, -1 - 2, 1-2] = MAX[-1, -3, -1]

Exemplo (7/12) Preenchimento da Matriz Dois caminhos diferentes para se obter o score máximo para célula M32

Exemplo (8/12) Preenchimento da Matriz Matriz Final

Exemplo (9/12) Traceback A |

Exemplo (10/12) Traceback T C A G T T A | | | | T C – G - — A

Exemplo (11/12) G A A T T C A G T T A | | | | | | Traceback G A A T T C A G T T A | | | | | | G G A – T C – G - — A

Exemplo (12/12) G A A T T C A G T T A | | | | | | Traceback G A A T T C A G T T A | | | | | | G G A T - C – G - — A

Score do Alinhamento G A A T T C A G T T A | | | | | | | | | | | | G G A – T C – G - — A   + - + - + + - + - - + 2 1 2 2 2 2 2 2 2 2 2 2 – 1 + 2 – 2 + 2 + 2 – 2 + 2 – 2 – 2 + 2 = 3

Significância de um Alinhamento Teste de significância é um ramo da estatística que se preocupa com a avaliação da probabilidade que um resultado particular poderia ter acontecido ao acaso Como podemos calcular a probabilidade de que um alinhamento aconteceu por acaso? Com um modelo de evolução Empiricamente, por meio do embaralhamento de nossas seqüências e o cálculo dos scores nessas seqüências aleatórias

Busca em BD por Similaridade (1/2) Até agora o foco era sobre o alinhamento de pares específicos de seqüências Porém, para uma seqüência nova determinada, geralmente não como saber qual seqüência (ou seqüências) é apropriada para a comparação Busca em BD por similaridade nos permite determinar quais das várias seqüências são potencialmente relacionadas a uma seqüência particular de interesse Este processo pode levar a descobertas inesperadas Um dos primeiros resultados com esse processo venho com a descoberta de que o oncogene viral v-sis é uma forma modificada de um gene celular normal Naquela época, as bases de dados de seqüências eram pequenos o suficiente tal que esse achado pode ser considerado um fato surpreendente Hoje, porém, seria mais surpreendente fazer uma busca em um BD e não encontrar nenhum hit

Busca em BD por Similaridade (2/2) A operação básica é sequencialmente alinhar uma seqüência query com cada seqüência subject no BD Os resultados são apresentados como uma lista de ranks seguida por uma série de alinhamento individuais de seqüências, mais vários scores e estatísticas ADICIONAR FIGURA

Métodos Heurísticos Soluções de programação dinâmica para problemas de alinhamento são relativamente lentas Não levam a buscas eficientes nos imensos BD de seqüências Necessidade de uma técnica para fazer busca em grandes BD para encontrar seqüências que tenha um match inexato com a seqüência query Soluções competidoras: FASTA & BLAST Métodos heurísticos (aproximação) de programação dinâmica Baseado na estratégia de quebrar uma seqüência em cadeias pequenas de letras consecutivas, chamadas de palavras Idéia: alinhamento representando um relacionamento verdadeiro entre as seqüências conterá pelo menos uma palavra que é comum a ambas seqüências Estas palavras hits podem ser identificadas rapidamente pre-indexando todas as palavras da query e então consultando o índece na medida que o BD é pecorrido Programação dinâmica encontra relacionamentos em seqüências distantemente relacionada que aproximações não conseguem

BLAST O BLAST é uma heurística para comparação local mais utilizada Basic Local Aligment Search Tool (Altschull et al., 1990) Há várias variantes do BLAST, dependendo do tipo da seqüência query (DNA ou proteínas) e do BD sendo consultado

Referências A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001. M. S. Waterman. Introduction to Computational Biology: maps, sequences and genomes. Chapman & Hall. 2000. http://www.sbc.su.se/~per/molbioinfo2001/seqali-dyn.html (ótimo tutorial sobre programação dinâmica)

Análise de Genomas Então, o que fazer com um genoma completo? Afinal, um genoma sequenciado consiste apenas de um infinidade de bases em uma ordem definida Análise é obviamente necessária a fim de se obter informações biologicamente interessantes. A análise de um genoma cobre muitos aspectos diferentes Definição da localização dos genes (regiões codificadoras, regiões reguladoras): identificação de gene Predição de genes ab initio usando software baseado em regras e padrões. Identificação de genes por meio de alinhamento com proteínas conhecidas e seqüências EST Predição de genes por meio de similaridade com proteínas e seqüências ESTem outros organismos Predição de genes por meio de comparação com outros genomas Regiões conservadas são provavelmente regiões codificadoras ou reguladoras

Análise de Genomas Anotação de genes: comparar com genes/proteínas com funções conhecidas em outros organismos. Essencialmente o mesmo que rotular um gene. Classificação funcional. Grupos amplos de caracterização funcional, tais como “proteínas ribossomais”, .... Vias metabólica Há