A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.

Apresentações semelhantes


Apresentação em tema: "Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG."— Transcrição da apresentação:

1 Uso da bioinformática na análise genômica

2 TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCTAGCTACG ATCTCGTAGCTAGCTACGA ATCTCGTAGCTAGCTACGAC ATCTCGTAGCTAGCTACGACG ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT A G C T A C G A C G T C T A

3 Start End

4 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred) O programa Phred lê o cromatograma e nomeia as bases cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc Cada base tem uma chance de erro de sua nomeação (10% = 0,1) A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = = Phred 30 Processamento de seqüências

5 In the Pursuit of Optimal Sequence Trimming Parameters for EST Projects Fabiano C. Peixoto & J. Miguel Ortega LCC-CENAPAD A T G C BIOINFORMÁTICA UFMG

6 Noticed: BLAST results Phred 15 Too much trimming

7 Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979 Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| |||||||||||||||||||| Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919 Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| ||||||||||||||||| Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859 Query: 649 ccaggcttgatgataccagtttcaacgc 676 |||||||||||||||||||||||||||| Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAAC GTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAA CGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgaca gaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccatacc aggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaaca gggcctagcgggtccgcgggggaagggtcccggctcaatccaccaataga gcggagctaaagtgacgggggcgcca Phred 15

8 Experimental approach Sequences: pUC18 plasmidial vector (published sequence) Sequence reaction: Single pool - 3 plates (96 samples) MegaBACE sequencer 3 reads for each plate, esd processing reads Processing: BLAST (MegaBLAST, as in UniGene) Phred trim: a chromatogram analyzer trim_alt: trim_cutoff parameter 1% up to 25%

9

10 16%17% Trim_alt sequence BLAST gaps/missmatches (% of bases) Additional bases 3%

11 Seqüências Ano milhões Crescimento do GenBank EuropeuJaponês 24h

12 Seqüencias do DNA (genoma) Seqüências do mRNA (genes expressos) Repetição calculada draft = 5x finished = 10x Amostragem tecidos momentos Genoma pequeno (seqüenciador grande) Eucariotos mRNA cDNA TR

13 Seqüenciamento parcial de transcritos

14 Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e...damonh...] EST (Etiqueta de Seqüência Expressa) – –seqüenciamento único de cada cDNA – –extremidades 5 ou 3 ORESTES (ESTs ricas em ORFs) – –seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico – –prevalece o centro do cDNA (cds)

15 Um mRNA & suas ESTs (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) ATG ATCATGACTTACGGGCGCGCGAT GGCGCGCGATATCC A A A T T T A T T A T C C 3EST 5EST A A A T T T A T T A T C C A T C T A C G

16 PCR inespecífico & seu ORESTES (A) 200 cDNA (fita -) AUG amplicon (fita +) Iniciador (60ºC 37ºC) amplicon (fita -) amplicon (fita +) PCR (60ºC) ORESTES AGATCGATCATGACTTACGGGCGCGCGATATCG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC +ORESTES (outros iniciadores)

17

18 O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTG ATGCTGACTGATCGTAGCTAGCTGACTGATCGTACG TAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

19

20 Alinhador local Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. Fragmenta sua seqüência e procura homologia no banco de dados. Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

21 Alinhamento local O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína Se não fosse assim, não teria sentido usar...

22 Programas BLAST & Bancos Há vários Programas BLAST úteis Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) Ou usa-se limites [organism]

23 BLASTn e BLASTx A EST identifica o gene homólogo: BLASTn A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx – –BLASTx: a EST traduzida em seis proteínas – –1 existe, 5 não... – –O mundo Blast é assim

24 tBLASTx tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

25 Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados – –Usa-se também para validar bibliotecas Aglomerados ou Clusters

26 Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene

27 Qualidade das bibliotecas (100 primeiras ESTs) Freqüência em que uma EST foi amostrada Boa biblioteca? Número de seqüências

28 Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado UniGene

29 MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar


Carregar ppt "Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG."

Apresentações semelhantes


Anúncios Google