Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São Paulo - Piracicaba, SP figueira@cena.usp.br
Dogma Central
Estrutura de Gene Eucarioto
Estrutura de Gene Eucarioto
Banco de Dados NCBI - National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ Iniciado em 1988 Missão: melhor entendimento dos processos moleculares que afetam a saúde humana NCBI cria banco de dados públicos e recursos de biologia computacional; e disseminação de informações
http://www.ncbi.nlm.nih.gov/
Histórico de Seqüências do GenBank
X Ano Pares Base Sequences 1982 680 338 606 1983 2 274 029 2 427 1984 3 368 765 4 175 1985 5 204 420 5 700 1986 9 615 371 9 978 1987 15 514 776 14 584 1988 23 800 000 20 579 1989 34 762 585 28 791 1990 49 179 285 39 533 1991 71 947 426 55 627 1992 101 008 486 78 608 1993 157 152 442 143 492 1994 217 102 462 215 273 1995 384 939 485 555 694 1996 651 972 984 1 021 211 1997 1 160 300 687 1 765 847 1998 2 008 761 784 2 837 897 1999 3 841 163 011 4 864 570 2000 11 101 066 288 10 106 023 2001 15 849 921 438 14 976 310 2002 28 507 990 166 22 318 883 2005 56,037,734,462 52 016 762 X
Tipos de Banco de Dados Abrangentes Nucleotídeos Proteínas GenBank (more...) EMBL: European Molecular Biology Laboratory DDBJ: DNA Data Bank of Japan Proteínas Swiss-Prot Protein Information resource UniProt Estrutura de Proteínas PDB: Protein Data Bank MMDB: Molecular Modeling Database (baseado em PDB) Mapas e Genoma Entrez Genomes
Tipos de Banco de Dados Especializados Organismo-Específico Funcional Human Genome Sequencing GDB: Genome Database (human mapping information) MGD: Mouse Genome Database SGD: Saccharomyces Genome Database Funcional TRANSFAC: Transcription Factors Vector Database Organelle Genome Database GOBASE Tecnologia de Seqüenciamento EST: Expressed Sequence Tags GSS: Genome Survey Sequences STS: Sequence Tagged Sites HTG: High Throughput Sequences
Tipos de Banco de Dados Nível de Curadoria Preliminar Arquivo seqüências não terminadas - localizadas nos centros de seqüenciamento Arquivo repositório da informação redundante (várias seqüências do mesmo gene) submissor mantém controle editorial sobre registros Curadoria (cont.) Revisados (cont.)
Tipos de Banco de Dados Nível de Curadoria Curadoria Revisadas não-redundante cada registro pretende conter conhecimento corrente registro contém informações adicionais RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos) Swiss-Prot (seqüências de proteínas) EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish) Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos) Revisadas cada registro revisado e comentado por especialistas ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famílias
http://www.ebi.ac.uk/Databases/
http://www.ddbj.nig.ac.jp
Estrutura do GenBank http://www.ncbi.nlm.nih.gov/Database/index.html
Entrez
PubMed
TaxBrowser
BLAST
Busca em Banco de Dados Por texto - palavra chave Entrez no NCBI Por seqüência: nucleotídeos ou amino ácidos (proteínas) BLAST no NCBI Basic Local Alignment Search Tool
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#LocusA
Busca em Entrez Três níveis de complexidade de busca Básico Enter: cystic fibrosis human Avançado (cont.) Complexo Boolean Enter: cystic fibrosis[titl] AND human[orgn]
Busca em Entrez Avançado Step 1: Select "Limits" option Enter: cystic fibrosis Select "Title Word" as search field Press "Go" Step 2: Enter: human Select "Organism" as search field Step 3: Select "History" option Enter: #1 AND #2 (Note that Boolean operators must be in upper case. The OR and NOT operators are also available, and parentheses can be used to nest the search.)
Busca em BLAST Por seqüência de nucleotídeos ou de amino ácidos (proteínas) Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia Alinhamento: origem ou função comum Alinhamento Global ou Local (segmentos)
Busca em BLAST BLAST: Basic Local Alignment Search Tool realiza comparações entre pares de seqüências buscando regiões com similaridade local NCBI BLAST WU-BLAST (Washington University) FASTA SSEARCH http://www.ebi.ac.uk/fasta33/
Busca em BLAST Similaridade x Homologia identidade = ocorrência do exato mesmo nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade homologia = dividem mesma ancestralidade com significado evolutivo Homologia => conceito central de Biologia
Busca em BLAST Algoritmos de BLAST, FASTA, SSEARCH NÃO AVALIAM HOMOLOGIA MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS
Busca em BLAST Por que saber o quanto 2 seqüências são similares? Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!
Busca em BLAST Alinhamento x Similaridade Requer meios de avaliar: o que fazer primeiro? = Círculo vicioso Requer meios de avaliar: combinações perfeitas e imperfeitas (matches e mismatches) inclusão de gaps (intervalos) Matrizes ou Tabela de Valores: descrevem a probabilidade com sentido biológico de uma base ou amino ácido ocorrer num alinhamento
Busca em BLAST Comparação de nucleotídeos -> por identidade matches: tipicamente +1 ou +5 mismatches: tipicamente -1 ou -4 Comparação de amino ácidos -> mais complexo! função natureza química e freqüência matrizes de substituição penalidades maiores: menor funcionalidade freqüência de ocorrência
Busca em BLAST
BLAST blastn DNA DNA DNA blastp PTN PTN PTN blastx DNA PTN PTN Programa Seqüência Base Comparação blastn DNA DNA DNA blastp PTN PTN PTN blastx DNA PTN PTN tblastn PTN DNA PTN tblastx DNA DNA PTN
BLAST tblastn blastn blastp blastx tblastx Nucleotide Protein Sequence Em 6 quadros Nucleotide Sequence Protein Sequence Translated Protein Sequence tblastn blastn blastp blastx Nucleotide DB Protein DB tblastx Translated DB (contain amino acid sequences) Em 6 quadros
Busca em BLAST Matrizes de Substituição: baseadas em alinhamentos de alta confiança de diversas proteínas homólogas, avaliando freqüência de todas as substituições Point Accepted Mutation - PAM Blocks substitution - BLOSUM
Point Accepted Mutation - PAM calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas) 34 super-famílias agrupadas em 71 árvores filogenéticas com 1.572 substituições substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds Matriz PAM1 = prob. mudança de 1 aa em 100 Multiplicando a matriz por ela mesmo - matriz com graus arbitrários de proximidade
Point Accepted Mutation - PAM250
Blocks Substitution - BLOSUM seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente banco de dados - BLOCKS 2.000 blocos de segmentos de seqüência sem gaps alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas seqüências dos blocos agrupadas freqüência de susbtituições entre grupos na família estimadas - prob. substituição importante nível de cut-off de % de identidade de seqüência que define os grupos (clusters) - ex. BLOSUM62
Blocks Substitution - BLOSUM62
Busca em BLAST Matrizes de Substituição do BLAST-NCBI Point Accepted Mutation - PAM PAM30, PAM70 Blocks substitution - BLOSUM BLOSUM45, BLOSUM62, BLOSUM80
Busca em BLAST Penalidades por Intervalo (gaps) prevê inserções e deleções penalidades - limitar introdução mas flexível para extender (ocorre vários resíduos) BLAST-NCBI penalidades existência: 7, 8 e 9 10, 11 e 12 extensão: 2 1 http://www.ncbi.nlm.nih.gov/BLAST/
Busca em BLAST Programação Dinâmica solução ótima de busca de alinhamentos algoritmo de Smith-Waterman alinhamento local ao invés de global -mais relevante biologicamente
Busca em BLAST Heurística: Sensibilidade x Rapidez FASTA: usa palavras exatas (strings) BLAST: usa matriz de scores (BLOSUM62) usa como semente de alinhamento com alto score realiza filtragem de seqüências repetidas (ex. CA) nos primeiros passos, gaps não são permitidos
(a) 1. Filtra regiões de baixa complexidade 2. Gera lista de seqüências pequenas 11 bases nt ou 3 aa 3. Determina pares de maior score baseado na matriz e sem gaps 4. Reduz lista por limite estabelecido (b) 5. Busca no banco de dados combinações perfeitas para a lista gerada 6. Procura extender o alinhamento a partir dessa “semente” (c) 7. Tenta extender alinhamento até o score continuar a crescer 8. Gaps são incluídos 9. Determina significância de cada score calculando valor E.
BLAST Estatísticas: raw score: soma de scores de substituições e gaps (função das matrizes e não comparável) bit scores: versão em escala do score valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)
BLAST Submissão de seqüência - query Alinhamento no banco de dados - target Melhores de escores são relatados usar valor E valor E <0.01 Submissão: DNA, PTN ou DNA como PTN Proteínas: melhor para identificar homologias DNA: degeneração do terceira base do códon
http://www.ncbi.nlm.nih.gov/BLAST/
Blastn
Blastp
BLAST Interpretação de função: cautelosa! Similaridada restrita a domínios Área de cobertura do alinhamento Erros de anotação no banco de dados Falta de homologia - distanciamento evolutivo
Alinhamento Múltiplo Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna. Algoritmo: ClustalW
http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html
http://prodes.toulouse.inra.fr/multalin/multalin.html
http://www.ch.embnet.org/software/BOX_form.html