Uso da bioinformática na análise genômica
Receber Processar Anotar Depositar Início Bioinformática Receber Processar Anotar Depositar Fim
Processamento de seqüências 20 30 10 cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc O programa Phred lê o cromatograma e nomeia as bases Cada base tem uma chance de erro de sua nomeação (10% = 0,1) DNA: FASTA Seq.qual A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)
Crescimento do GenBank Seqüências 16.000.000 15 milhões 14.000.000 24h 12.000.000 10.000.000 Europeu Japonês 8.000.000 6.000.000 4.000.000 2.000.000 606 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Ano
(seqüenciador grande) Eucariotos Seqüencias do DNA (genoma) Seqüências do mRNA (genes expressos) Repetição calculada draft = 5x finished = 10x Amostragem tecidos momentos Genoma pequeno (seqüenciador grande) Eucariotos mRNA TR cDNA
Seqüenciamento parcial de transcritos
EST (Etiqueta de Seqüência Expressa) Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...] EST (Etiqueta de Seqüência Expressa) seqüenciamento único de cada cDNA extremidades 5’ ou 3’ ORESTES (ESTs ricas em ORFs) seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico prevalece o centro do cDNA (cds)
Um mRNA & suas ESTs 5’EST 3’EST 5’EST 3’EST mRNA AUG ATG cDNA (fita +) ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA AUG cDNA (fita +) (A)200 (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST Quantas ESTs de Schistosoma mansoni há no NCBI? Quantas proteínas não mitocondriais?
PCR inespecífico & seu ORESTES amplicon (fita -) amplicon (fita +) PCR (60ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG (A)200 CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -) Iniciador (60ºC 37ºC) Quantos ORESTES estão hoje no NCBI? Eles são ESTs? Só há ORESTES humanos?
250 200 150 100
2. Estudando coleções de sequências Alinhamento de um grupo pequeno de sequências com MultiAlign Descarregando um grande número de sequências através do BatchEntrez Formação de aglomerados de sequências com Icatools, com Cap3 ou Megablast Estimando distância evolutiva com Phylip
Aglomerados ou Clusters Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados Usa-se também para validar bibliotecas Pode usar dados originais ou descarregados do NCBI
Alinhamento global: usar para publicar Quando se quer comparar globalmente as sequências, busca-se o melhor alinhamento global Um bom algoritmo computacional é o usado no Fast Alignment, apelidado de FASTA
Descarregando muitas seqüências com BatchEntrez Inicialmente busque suas seqüências Descarregue uma lista dos indicadores delas (GI) Use o BatchEntrez para baixar o FASTA das seqüências Estude-as localmente com seu programa predileto
Alinhamento Global Comparação exaustiva Visando Use o BatchEntrez para baixar o FASTA das seqüências Estude-as localmente com seu programa predileto
Phylip Genes ortólogos são os homólogos mais próximos entre dois organismos (BestHit) A evolução os faz diferentes Phylip DNAdist mede Phylip Protdist para proteínas Plylip Neighbor faz uma matriz E um desenhador de árvore:
Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene
UniGene Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado
MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar
Qualidade das bibliotecas (100 primeiras ESTs) Número de seqüências Boa biblioteca ? 1 2 3 4 5 7 9 11 Freqüência em que uma EST foi amostrada
SNP catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg SNP