A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA.

Apresentações semelhantes


Apresentação em tema: "Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA."— Transcrição da apresentação:

1

2

3 Uso da bioinformática na análise genômica

4 TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCTAGCTACG ATCTCGTAGCTAGCTACGA ATCTCGTAGCTAGCTACGAC ATCTCGTAGCTAGCTACGACG ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT A G C T A C G A C G T C T A

5 Início Fim Receber Processar Anotar Depositar Bioinformática

6 20 30 10 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred) O programa Phred lê o cromatograma e nomeia as bases cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc Cada base tem uma chance de erro de sua nomeação (10% = 0,1) A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10 -3 = Phred 30 Processamento de seqüências 0 10 20 30 40 50

7 I Brazilian Workshop on Bioinformatics October 18th, 2002, Gramado, RS, Brazil

8

9 Seqüências 0 2.000.000 4.000.000 6.000.000 8.000.000 10.000.000 12.000.000 14.000.000 16.000.000 19821983198419851986198719881989199019911992199319941995199619971998199920002001 Ano 606 45 milhões Crescimento do GenBank EuropeuJaponês 24h

10 Seqüencias do DNA (genoma) Repetição calculada draft = 5x finished = 10x Genoma pequeno (seqüenciador grande) Seqüências do mRNA (genes expressos) Amostragem tecidos momentos Eucariotos mRNA cDNA TR

11 Seqüenciamento parcial de transcritos

12 Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e...damonh...] EST (Etiqueta de Seqüência Expressa) – –seqüenciamento único de cada cDNA – –extremidades 5 ou 3 ORESTES (ESTs ricas em ORFs) – –seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico – –prevalece o centro do cDNA (cds)

13 (A) 20 0 AUG Um mRNA & suas ESTs (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) (T) 18 cDNA (fita -) (A) 18 ATG ATCATGACTTACGGGCGCGCGAT GGCGCGCGATATCC A A A T T T A T T A T C C 3EST 5EST A A A T T T A T T A T C C A T C T A C G

14 PCR inespecífico & seu ORESTES (A) 200 cDNA (fita -) AUG amplicon (fita +) Iniciador (60ºC 37ºC) amplicon (fita -) amplicon (fita +) PCR (60ºC) ORESTES AGATCGATCATGACTTACGGGCGCGCGATATCG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC +ORESTES (outros iniciadores)

15 100 150 200 250 26,630,649

16

17 O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTG ATGCTGACTGATCGTAGCTAGCTGACTGATCGTACG TAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

18 dbEST: ESTs 5 e 3 Trace Arquive: dados originais Entrez Nucleotide: > 50 nt, em fase, com anotação Entrez Protein: proteínas deduzidas selecionadas mineração automática (KOG, BioCarta e KEGG) mineração manual (interesse de grupos) UniGene: dados de expressão diferencial (microarray e DGED) I MISS YOU Transcriptoma de S. mansoni Rede Genoma de Minas Gerais

19

20

21 Alinhador local Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. Fragmenta sua seqüência e procura homologia no banco de dados. Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

22 Alinhamento local O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína Se não fosse assim, não teria sentido usar...

23 Programas BLAST & Bancos Há vários Programas BLAST úteis Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) Ou usa-se limites [organism]

24 BLASTn e BLASTx A EST identifica o gene homólogo: BLASTn A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx – –BLASTx: a EST traduzida em seis proteínas – –1 existe, 5 não... – –O mundo Blast é assim

25 tBLASTx tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

26 Receber Processar Anotar Depositar bioinformática

27

28 Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados – –Usa-se também para validar bibliotecas Aglomerados ou Clusters

29 Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene

30 Qualidade das bibliotecas (100 primeiras ESTs) Freqüência em que uma EST foi amostrada Boa biblioteca? Número de seqüências 1 2 3 4 5 7 9 11

31 Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado UniGene

32 MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

33 Etapa Número de seqüências no aglomerado Número de algomerados Construção de UniGene para AW1 (5.145 ESTs correspondem a 2.026 clusters) identidade > 96 % alinhamento > 70 % do potencial

34

35 Interface gráfica Alternativa para encontrar só o gene

36 Online Mendelian Inheritance in Man Um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a Web pelo NCBI Funciona como uma revisão já feita

37 catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg

38 No NCBI é acessado um banco de dados: MMDB – –Molecular Modelling DataBase (PDB sem teóricos) O banco de dados PDB tem um mirror no Brasil – –www.pdb.ufmg.br Arquivos do tipo 1MEY.pdb são descarregados As coordenadas 3D de totos os átomos As proteínas podem ser vistas com programas (RasMol) ou direto no navegador (Plug-in Chime)

39 Modelagem Molecular por Homologia A proteína precisa ter uma ortóloga no PDB Pode ser automaticamente modelada pelo Swiss Model (Modeller na UFMG) Já modelaram todas proteínas – –confira 3DCrunch:

40


Carregar ppt "Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA."

Apresentações semelhantes


Anúncios Google