A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

www.cromatina.icb.ufmg.br Miguel Uso da bioinformática na análise genômica.

Apresentações semelhantes


Apresentação em tema: "www.cromatina.icb.ufmg.br Miguel Uso da bioinformática na análise genômica."— Transcrição da apresentação:

1

2 Miguel

3

4 Uso da bioinformática na análise genômica

5 TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCTAGCTACG ATCTCGTAGCTAGCTACGA ATCTCGTAGCTAGCTACGAC ATCTCGTAGCTAGCTACGACG ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT A G C T A C G A C G T C T A

6 Início Fim Receber Processar Anotar Depositar Bioinformática

7 A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred) O programa Phred lê o cromatograma e nomeia as bases cromatograma acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc Cada base tem uma chance de erro de sua nomeação (10% = 0,1) A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = = Phred 30 Processamento de seqüências

8 I Brazilian Workshop on Bioinformatics October 18th, 2002, Gramado, RS, Brazil

9

10 Seqüências Ano milhões Crescimento do GenBank EuropeuJaponês 24h

11 Seqüencias do DNA (genoma) Repetição calculada draft = 5x finished = 10x Genoma pequeno (seqüenciador grande) Seqüências do mRNA (genes expressos) Amostragem tecidos momentos Eucariotos mRNA cDNA TR

12 Seqüenciamento parcial de transcritos

13 Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e...damonh...] EST (Etiqueta de Seqüência Expressa) – –seqüenciamento único de cada cDNA – –extremidades 5 ou 3 ORESTES (ESTs ricas em ORFs) – –seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico – –prevalece o centro do cDNA (cds)

14 (A) 20 0 AUG Um mRNA & suas ESTs (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) (T) 18 cDNA (fita -) (A) 18 ATG ATCATGACTTACGGGCGCGCGAT GGCGCGCGATATCC A A A T T T A T T A T C C 3EST 5EST A A A T T T A T T A T C C A T C T A C G

15 PCR inespecífico & seu ORESTES (A) 200 cDNA (fita -) AUG amplicon (fita +) Iniciador (60ºC 37ºC) amplicon (fita -) amplicon (fita +) PCR (60ºC) ORESTES AGATCGATCATGACTTACGGGCGCGCGATATCG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC +ORESTES (outros iniciadores)

16

17

18 O formato FASTA, o mais simples, é anotado >Gene5 EST com homologia... ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTG ATGCTGACTGATCGTAGCTAGCTGACTGATCGTACG TAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

19 dbEST: ESTs 5 e 3 Trace Arquive: dados originais Entrez Nucleotide: > 50 nt, em fase, com anotação Entrez Protein: proteínas deduzidas selecionadas mineração automática (KOG, BioCarta e KEGG) mineração manual (grupos) RefSeq: seqüências de referência UniGene: dados de expressão diferencial (microarray e DGED) número I.M.A.G.E. Transcriptoma de S. mansoni Resultados esperados Rede Genoma de Minas Gerais

20

21

22 Alinhador local Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua. Fragmenta sua seqüência e procura homologia no banco de dados. Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor. É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

23 Alinhamento local O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína Se não fosse assim, não teria sentido usar...

24 Programas BLAST & Bancos Há vários Programas BLAST úteis Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx) Outros são usados quando a sua seqüência é de aminoácidos (BLASTp) E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...) Ou usa-se limites [organism]

25 BLASTn e BLASTx A EST identifica o gene homólogo: BLASTn A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx – –BLASTx: a EST traduzida em seis proteínas – –1 existe, 5 não... – –O mundo Blast é assim

26 tBLASTx tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6 possibilidades, exatamente como BLASTx Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não! Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

27 Receber Processar Anotar Depositar bioinformática

28

29 3. Quais proteínas vamos estudar?

30 Proteína pré-selecionada EST Saldo de códons positivo Algoritmo de seleção de clones com CDS completo Patrimônio de um projeto EST

31 Demonstração de agente selecionador de clones (utilizando 16 mil ESTs dbEST) Identificador da via COG com presença de genes eucarióticos (Dm e Ce) Número de proteínas depositadas (azul) e de ESTs com saldo de códons positivo (vermelho)

32

33

34 Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes! E quantos dos genes foram detectados – –Usa-se também para validar bibliotecas Aglomerados ou Clusters

35 Programas para aglomerar Icatools Phrap Cap3, Cap4 Swat BLAST MegaBLAST Um aglomerado = Um gene

36 Qualidade das bibliotecas (100 primeiras ESTs) Freqüência em que uma EST foi amostrada Boa biblioteca? Número de seqüências

37 Organização das sequências do GenBank em um conjunto de aglomerados Cada aglomerado do UniGene contém as sequências que representam um gene único E também informações relacionadas, como em que tecidos o gene é expresso, etc. E também onde está mapeado UniGene

38 MegaBLAST gera o UniGene Todas ESTs contra todas Detecção de homologia > 96% de identidade > 70% do potencial Aglomerar

39 Resultado parcial com seqüências 12/03/2003 UFMG UFOP Produção por laboratório Seqüências boas

40 Etapa Número de seqüências no aglomerado Número de algomerados Construção de UniGene para AW1 (5.145 ESTs correspondem a clusters) identidade > 96 % alinhamento > 70 % do potencial

41

42 Interface gráfica Alternativa para encontrar só o gene

43 Online Mendelian Inheritance in Man Um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a Web pelo NCBI Funciona como uma revisão já feita

44 catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg

45 No NCBI é acessado um banco de dados: MMDB – –Molecular Modelling DataBase (PDB sem teóricos) O banco de dados PDB tem um mirror no Brasil – –www.pdb.ufmg.br Arquivos do tipo 1MEY.pdb são descarregados As coordenadas 3D de totos os átomos As proteínas podem ser vistas com programas (RasMol) ou direto no navegador (Plug-in Chime)

46 Modelagem Molecular por Homologia A proteína precisa ter uma ortóloga no PDB Pode ser automaticamente modelada pelo Swiss Model (Modeller na UFMG) Já modelaram todas proteínas – –confira 3DCrunch:

47

48 Arquitetura computacional (estações de trabalho e instalações CENAPAD/MG-CO) metionina.cenapad.ufmg.br Processamento, Linux RedHat: Phred, BLAST, Java 2x Xeon 2,4 GHz, 4 GB RAM, 2x 36 GB HD, RAID 0 adenina.cenapad.ufmg.br Armazenamento de dados, Linux RedHat: Oracle 2x PIII 1,4 GHz, 4GB RAM, 3x 36 GB HD, RAID 5 Unidade de fita DAT 20/40 bionfo.cenapad.ufmg.br Interface Web, Windows 2000: QuickPlace 1x PIII 1,4 GHz, 512 MB RAM, 2x 18 GB HD, RAID 1

49 LCC-CENAPAD A T G C BIOINFORMÁTICA UFMG Osvaldo Carvalho Farah Coordenador de Computação Científica: Fabiano Peixoto Equipe: Operação Suporte Oracle J. Miguel Ortega Estudantes de Doutorado: Alessandra Faria-CamposAnotação Maurício Mudado*Bases de dados Saulo de Paula*Microarray Cristiane NobreRedes neurais Daniela CamposGenoma Iniciação Científica: Estevam Bravo-Neto (ciências biológicas)* João Torres (ciências da computação)


Carregar ppt "www.cromatina.icb.ufmg.br Miguel Uso da bioinformática na análise genômica."

Apresentações semelhantes


Anúncios Google