A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi.

Apresentações semelhantes


Apresentação em tema: "Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi."— Transcrição da apresentação:

1 Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi

2 As novas ciências ÔMICAS Genoma Transcriptoma Proteoma Metaboloma Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc.

3 Genomas e transcriptomas O genoma é único O transcriptoma modifica- se espaço- temporalmente –Quais genes estão ativos num determinado instante e condição? –Como isso influencia a adaptação da célula ao meio? Proteoma

4 Montando o genoma da fábula Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula. > Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed > Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor que fazem os seres humanos - "mas eu n

5 Montagem de genomas Prof. Dr. Francisco Prosdocimi

6 Montando um quebra-cabeças

7 O problema da montagem Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb) Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb) O genoma humano tem 3,1 Gb Através do método de Sanger normalmente produz- se sequências de 800bp Como montar um genoma?

8 Montagem de genomas numa casca de noz A abordagem shotgun Parte-se o DNA em pedacinhos –Corre-se um gel –Escolhe-se o tamanho dos fragmentos a trabalhar Pedacinhos são clonados em vetores (montagem da biblioteca genômica) Sequenciamento com primers do vetor Monta-se a sequência por sobreposição

9 Montagem da Biblioteca Genômica Fragmentação do DNA –Enzimas de restrição –Sonicação –Calor Digestão do vetor Ligação para a produção da molécula recombinante Inserção em bactéria

10 Como sequenciar o que não se sabe o que é? Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5 do que desejamos sequenciar Vetor de sequenciamento –Primer Universal Forward e Reverse Sequenciamento do inserto desconhecido

11 Análise dos Sequencing Reads Leituras do sequenciamento (cada uma das sequências produzidas) Tipos de Reads que podemos encontrar –Vetor + Inserto –Vetor + Inserto + Vetor –Vetor O vetor não representa nosso genoma de estudo, portanto, sua sequência deve ser mascarada

12 Possibilidades (teóricas) de mascaramento > Sequencia original ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (1) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (2) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (3) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (4) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (5) XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

13 Reads limpas O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor Só temos agora sequência do organismo que estudamos Alinhamento de sequências (bioinformática) Sobreposição das sequências LINUX prompt $> cross_match reads.fasta vector.fasta Aligning vector and read sequences Masking vector regions $> more reads.fasta.cross_match > Read1 XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAG AGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCA GCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX

14 Sequence clustering Cálculo da pontuação de sobreposição –Match / Mismatch / Gap scores –Minmatch (14) / Minscore (30)

15 Montagem de contigs Reads alinhados Programa cria sequências consenso (contigs) –CAP3, Phrap, TIGR Assembler, Celera Assembler

16 Problemas de montagem E se o genoma contiver muitas sequências repetitivas? –O clustering vai reunir partes do genoma que não são contíguas Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições Genome Contig Sequencing reads Região repetitiva: alta cobertura de reads Alinhamento com regiões doutras partes do genoma

17 Reconstrução do genoma Contigs + gaps Certas regiões do DNA são difíceis de serem clonadas –Clonagem de fragmentos é estatística Não estão presentes na biblioteca de DNA Portanto, não são sequenciadas

18 Genome finishing Primer walking consiste numa técnica de fechamento de genomas –Primers são criados para a realização de uma PCR que produzirá a sequência dos gaps E se a sequência for muito grande? Grande parte dos genomas publicados contêm regiões de gap

19 Genomas eucarióticos Genomas enormes, nível de Mb ou Gb Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento Montagem de BACs – BAC to BAC sequencing

20 Mated-pair sequencing Não se sequencia o inserto inteiro Sequenciamento das extremidades do inserto Montagem das sequências das extremidades Clonagem de insertos com tamanhos variados (em diferentes tipos de vetores)

21 Gaps reais e virtuais Gaps virtuais –Conhece-se o vetor que contém os mated-pairs –Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto) –Shotgun do vetor em questão Gaps reais –Não se conhece nada sobre este gap –Pode ter qualquer tamanho –Difícil solução

22 Genome coverage Cobertura do genoma Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma –Garante que haverão poucos gaps reais Genoma Humano público (2001): 2,9X coverage Celera: 5,1X coverage Quanto maior a cobertura, menor o número de contigs (significando que as moléculas foram montadas por completo)

23 Passos para a montagem Produção de sequencing reads até 8x o tamanho do genoma Montagem dos contigs Identificação de gaps reais e virtuais Fechamento de gaps Publicação do genoma

24 Montagem de transcriptomas Prof. Dr. Francisco Prosdocimi

25 Genoma X Transcriptoma

26 Sequenciando ESTs Expressed Sequence Tags –Etiquetas de sequências expressas Amplificação dos genes a partir de primers do vetor de clonagem –Pode-se produzir ESTs 3 ou 5 –A EST 3 está ancorada ao poli-A O conteúdo da extremidade 5 da EST, no entanto, varia devido: –Tamanho do mRNA –Tamanho do inserto clonado –Tamanho amplificado pela transcriptase reversa –Formas de Splicing do gene

27 Características das ESTs Representam o pool de mRNAs Possuem de 150 a ~1000 nucleotídeos Etiquetas de seqüências gênicas Cada clone é seqüenciado uma única vez Apresentam redundância Permitem a identificação dos genes mais expressos em diferentes fases/tecidos Permitem a identificação de splicing alternativo

28 Montagem dos genes Contigs –Cada contig representa um gene completo A cobertura do contig depende da expressão de cada gene –Genes muito expressos são mais vistos Genes singlets –Menor evidência Quantidade de ESTs sequenciadas e saturação da biblioteca Sequências únicas –Cada uma é um gene Sequências quiméricas :. Diminui a redundância; :. Aumenta o tamanho; :. Aumenta a qualidade.

29 Sequence clustering Cálculo da pontuação de sobreposição –Match / Mismatch / Gap scores –Minmatch (14) / Minscore (30) Déja vu?

30 Produção de ESTs e ORESTEs

31 Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e...damonh...] EST (Etiqueta de Seqüência Expressa) –seqüenciamento único de cada cDNA –extremidades 5 ou 3 ORESTES (ESTs ricas em ORFs) –seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico –prevalece o centro do cDNA (cds)

32 Um mRNA & suas ESTs (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) (A) 20 0 (T) 18 cDNA (fita -) AUG (A) 18 cDNA (fita +) ATG ATCATGACTTACGGGCGCGCGAT GGCGCGCGATATCC A A A T T T A T T A T C C 3EST 5EST A A A T T T A T T A T C C A T C T A C G

33 PCR inespecífico & seu ORESTES (A) 200 cDNA (fita -) AUG amplicon (fita +) Iniciador (60ºC 37ºC) amplicon (fita -) amplicon (fita +) PCR (60ºC) ORESTE S AGATCGATCATGACTTACGGGCGCGCGATATCG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC +ORESTES (outros iniciadores)

34 Produção de ESTs e ORESTEs

35 Epílogo Sabemos agora montar os genomas e os transcriptomas E daí? Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes –Quais são? O que fazem? –O que um organismo pode fazer dado que tem os genes que tem? A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo

36 Outras análises transcriptômicas Prof. Dr. Francisco Prosdocimi

37 SAGE Serial Analysis of gene expression Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII) Produção e sequenciamento de concatâmeros

38 Bioinformática SAGE Extração e contagem das tags Algus transcritos não geram tags com certa enzima Tags possuem 10bp ou 17bp (+4 restr. Site) Mapeamento de tags a genes usando alinhamento de sequências (1 to N, N to 1) –Tags não unívocas; repeat regions Erros de sequenciamento atrapalham a análise >SAGE-WT1-A0001-A01.abd 1047 ABI GGCAGTGAATTGTAATACGACTCACTATAGGGC GAATTGGGCCCTCTAATGCATGTTGACGTGCAC TTCCGTAGCCTCATGTTTTATGGAATCACCTAT TATGCCATGACTTTTTCAAAACTAGGCTGTGCC ATGTTTACACAGTATGCACACATCTTCCATGGA TGTGGACAGAAAATCCTCCAACATGATGGCAA A tag em azul deverá ser a o complemento reverso da sequência. Short SAGE: TagFreqMappedGenes GCAGACCATA1451AB666788, U18897 AACAGTTCCA 931NM_ GCCAACTCGG 2NM_ CGTGCGGATT 1NM_123587, Y15324, P67473, MB12983

39 Microarray Análise comparativa da expressão gênica em high-throughput

40


Carregar ppt "Análise de genomas e transcriptomas Prof. Dr. Francisco Prosdocimi."

Apresentações semelhantes


Anúncios Google