A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise de genomas e transcriptomas

Apresentações semelhantes


Apresentação em tema: "Análise de genomas e transcriptomas"— Transcrição da apresentação:

1 Análise de genomas e transcriptomas
Prof. Dr. Francisco Prosdocimi

2 As novas ciências “ÔMICAS”
Genoma Transcriptoma Proteoma Metaboloma Fenoma, Lipidoma, Glicoma, Interactoma, Spliceoma, Kinoma, etc.

3 Genomas e transcriptomas
O genoma é único O transcriptoma modifica-se espaço-temporalmente Quais genes estão ativos num determinado instante e condição? Como isso influencia a adaptação da célula ao meio? Proteoma

4 Montando o “genoma da fábula”
Abaixo temos uma Fábula Fabulosa do escritor Millôr Fernandes que foi, assim como um genoma, dividida em partes. Monte as partes e produza a seqüência completa da fábula. > Frase 1 edoria e calor que fazem os seres humanos - "mas eu não". MORAL DA HISTÓRIA: NÃO MORRE A PASSARADA QUANDO MORRE UM PÁSSARO. > Frase 2 ela não pôde resistir e exclamou: "Mas, como, seu marido não morreu há cinco anos?" "Sim, é verdade" - respondeu então a outra, cheia daquela compreensão, sabed > Frase 3 Quando a amiga lhe apresentou o garotinho lindo dizendo que era seu filho mais novo, ela não pôde resistir e exclamou: "Mas, com > Frase 4 dade" - respondeu então a outra, cheia daquela compreensão, sabedoria e calor que fazem os seres humanos - "mas eu n

5 Prof. Dr. Francisco Prosdocimi
Montagem de genomas Prof. Dr. Francisco Prosdocimi

6 Montando um quebra-cabeças

7 O problema da montagem Genomas bacterianos normalmente têm o tamanho medido em dezenas a centenas de quilobases (kb) Genomas eucarióticos têm o genoma medido em Megabases (Mb) ou gigabases (Gb) O genoma humano tem 3,1 Gb Através do método de Sanger normalmente produz-se sequências de 800bp Como montar um genoma?

8 Montagem de genomas numa casca de noz
A abordagem shotgun Parte-se o DNA em pedacinhos Corre-se um gel Escolhe-se o tamanho dos fragmentos a trabalhar Pedacinhos são clonados em vetores (montagem da biblioteca genômica) Sequenciamento com primers do vetor Monta-se a sequência por sobreposição

9 Montagem da Biblioteca Genômica
Fragmentação do DNA Enzimas de restrição Sonicação Calor Digestão do vetor Ligação para a produção da molécula recombinante Inserção em bactéria

10 Como sequenciar o que não se sabe o que é?
Para sequenciarmos no método de Sanger, precisamos utilizar um primer complementar à extremidade 5’ do que desejamos sequenciar Vetor de sequenciamento Primer Universal Forward e Reverse Sequenciamento do inserto desconhecido

11 Análise dos Sequencing Reads
Leituras do sequenciamento (cada uma das sequências produzidas) Tipos de Reads que podemos encontrar Vetor + Inserto Vetor + Inserto + Vetor Vetor O vetor não representa nosso genoma de estudo, portanto, sua sequência deve ser mascarada

12 Possibilidades (teóricas) de mascaramento
> Sequencia original ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (1) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (2) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAATTCTCTAACACACCATCTCGAATTCTCTAACAAA > Sequencia mascarada (3) XXXXXXXXXXXXXXXXXXXAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (4) ATCTCGAATTCTCTAACAGAACACGTAATATCAGCACCATCTCGAATCTCTAACAGAACACGTAATATCAG CACCATCTCGAATTCTCTAACAGAACACCATCTCGAAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX > Sequencia mascarada (5) XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

13 Reads limpas O programa Cross_match compara as sequências de DNA e mascara as sequências do vetor Só temos agora sequência do organismo que estudamos Alinhamento de sequências (bioinformática) Sobreposição das sequências LINUX prompt $> cross_match reads.fasta vector.fasta Aligning vector and read sequences Masking vector regions $> more reads.fasta.cross_match > Read1 XXXXXXXXXXACTAGACCCTATGAGGACATACATAGGACACAGAGATATATCCCGGCGCGTTTCATCTCGTACAGTTACCCCTTCAGCAGCACTCTCTGCACGATCGTCTACGXXXXXXXXXXXXXXXX

14 Sequence clustering Cálculo da pontuação de sobreposição
Match / Mismatch / Gap scores Minmatch (14) / Minscore (30)

15 Montagem de contigs Reads alinhados
Programa cria sequências consenso (contigs) CAP3, Phrap, TIGR Assembler, Celera Assembler

16 Problemas de montagem E se o genoma contiver muitas sequências repetitivas? O clustering vai reunir partes do genoma que não são contíguas Análise do conteúdo de repetições de um genoma deve ser feito antes da montagem Deve-se mascarar as repetições e montar apenas as partes do genoma sem repetições Genome Contig Sequencing reads Região repetitiva: alta cobertura de reads Alinhamento com regiões doutras partes do genoma

17 Reconstrução do genoma
Contigs + gaps Certas regiões do DNA são difíceis de serem clonadas Clonagem de fragmentos é estatística Não estão presentes na biblioteca de DNA Portanto, não são sequenciadas

18 Genome finishing Primer walking consiste numa técnica de fechamento de genomas Primers são criados para a realização de uma PCR que produzirá a sequência dos gaps E se a sequência for muito grande? Grande parte dos genomas publicados contêm regiões de gap

19 Genomas eucarióticos Genomas enormes, nível de Mb ou Gb
Por vezes decide-se realizar uma abordagem hierárquica para o sequenciamento Montagem de BACs – BAC to BAC sequencing

20 Mated-pair sequencing
Não se sequencia o inserto inteiro Sequenciamento das extremidades do inserto Montagem das sequências das extremidades Clonagem de insertos com tamanhos variados (em diferentes tipos de vetores)

21 Gaps reais e virtuais Gaps virtuais Gaps reais
Conhece-se o vetor que contém os mated-pairs Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto) Shotgun do vetor em questão Gaps reais Não se conhece nada sobre este gap Pode ter qualquer tamanho Difícil solução

22 Genome coverage Cobertura do genoma
Antes de tentarmos montar um genoma, precisamos ter uma quantidade de bases cerca de 8x maior do que o genoma Garante que haverão poucos gaps reais Genoma Humano público (2001): 2,9X coverage Celera: 5,1X coverage Quanto maior a cobertura, menor o número de contigs (significando que as moléculas foram montadas por completo)

23 Passos para a montagem Produção de sequencing reads até 8x o tamanho do genoma Montagem dos contigs Identificação de gaps reais e virtuais Fechamento de gaps Publicação do genoma

24 Montagem de transcriptomas
Prof. Dr. Francisco Prosdocimi

25 Genoma X Transcriptoma

26 Sequenciando ESTs Expressed Sequence Tags
Etiquetas de sequências expressas Amplificação dos genes a partir de primers do vetor de clonagem Pode-se produzir ESTs 3’ ou 5’ A EST 3’ está ancorada ao poli-A O conteúdo da extremidade 5’ da EST, no entanto, varia devido: Tamanho do mRNA Tamanho do inserto clonado Tamanho amplificado pela transcriptase reversa Formas de Splicing do gene

27 Características das ESTs
Representam o pool de mRNAs Possuem de 150 a ~1000 nucleotídeos Etiquetas de seqüências gênicas Cada clone é seqüenciado uma única vez Apresentam redundância Permitem a identificação dos genes mais expressos em diferentes fases/tecidos Permitem a identificação de splicing alternativo

28 Montagem dos genes Contigs
Cada contig representa um gene completo A cobertura do contig depende da expressão de cada gene Genes muito expressos são mais vistos Genes singlets Menor evidência Quantidade de ESTs sequenciadas e saturação da biblioteca Sequências únicas Cada uma é um gene Sequências quiméricas :. Diminui a redundância; :. Aumenta o tamanho; :. Aumenta a qualidade.

29 Sequence clustering Cálculo da pontuação de sobreposição
Match / Mismatch / Gap scores Minmatch (14) / Minscore (30) Déja vu?

30 Produção de ESTs e ORESTEs

31 EST (Etiqueta de Seqüência Expressa)
Seqüênciamento de genes expressos: Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...] EST (Etiqueta de Seqüência Expressa) seqüenciamento único de cada cDNA extremidades 5’ ou 3’ ORESTES (ESTs ricas em ORFs) seqüenciamento único do amplicon derivado de cDNA por PCR inespecífico prevalece o centro do cDNA (cds)

32 Um mRNA & suas ESTs 5’EST 3’EST 5’EST 3’EST mRNA AUG ATG cDNA (fita +)
ATCATGACTTACGGGCGCGCGAT AAATTTATTATCC (T)18 5’EST cDNA (fita -) 3’EST mRNA AUG cDNA (fita +) (A)200 (A)18 GGCGCGCGATATCC AAATTTATTATCCATCTACG (T)18 5’EST cDNA (fita -) 3’EST

33 PCR inespecífico & seu ORESTES
amplicon (fita -) amplicon (fita +) PCR (60ºC) +ORESTES (outros iniciadores) mRNA amplicon (fita +) AUG GGGCGCGCGATATCGAAAAATTTATAAGGCTAG (A)200 CCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC AGATCGATCATGACTTACGGGCGCGCGATATCG ORESTES cDNA (fita -) Iniciador (60ºC ºC)

34 Produção de ESTs e ORESTEs

35 Epílogo Sabemos agora montar os genomas e os transcriptomas E daí?
Número de genes (introns e éxons), elementos regulatórios, tamanho em pares de bases Fizemos uma análise quantitativa e partiremos agora para uma análise qualitativa dos genes presentes Quais são? O que fazem? O que um organismo pode fazer dado que tem os genes que tem? A análise genômica é uma análise de como pode funcionar o metabolismo de um organismo

36 Outras análises transcriptômicas
Prof. Dr. Francisco Prosdocimi

37 SAGE Serial Analysis of gene expression
Utilização de enzima de restrição do tipo III (corta upstream ao sítio de reconhecimento) (NlaIII) Produção e sequenciamento de concatâmeros

38 Bioinformática SAGE Extração e contagem das tags
Algus transcritos não geram tags com certa enzima Tags possuem 10bp ou 17bp (+4 restr. Site) Mapeamento de tags a genes usando alinhamento de sequências (1 to N, N to 1) Tags não unívocas; repeat regions Erros de sequenciamento atrapalham a análise >SAGE-WT1-A0001-A01.abd 1047 ABI GGCAGTGAATTGTAATACGACTCACTATAGGGCGAATTGGGCCCTCTAATGCATGTTGACGTGCACTTCCGTAGCCTCATGTTTTATGGAATCACCTATTATGCCATGACTTTTTCAAAACTAGGCTGTGCCATGTTTACACAGTATGCACACATCTTCCATGGATGTGGACAGAAAATCCTCCAACATGATGGCAA A tag em azul deverá ser a o complemento reverso da sequência. Short SAGE: Tag Freq MappedGenes GCAGACCATA 1451 AB666788, U18897 AACAGTTCCA 931 NM_789654 GCCAACTCGG 2 NM_123587 CGTGCGGATT 1 NM_123587, Y15324, P67473, MB12983

39 Microarray Análise comparativa da expressão gênica em high-throughput

40


Carregar ppt "Análise de genomas e transcriptomas"

Apresentações semelhantes


Anúncios Google