A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um.

Apresentações semelhantes


Apresentação em tema: "Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um."— Transcrição da apresentação:

1 Genômica e Proteômica Montagem de genomas

2 Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo pb. Em média 450 pb Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um quebra-cabeças

3 Agosto / 2004LABINFO – LNCC / MCT Introdução Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final Freqüentemente, nem temos todas as peças É um problema computacional complexo! Como ?

4 Agosto / 2004LABINFO – LNCC / MCT Introdução Definir a estratégia de seqüenciamento Gerar as seqüências Construção e validação de bibliotecas Seqüênciar Montar Finalizar a seqüência genômica

5 Agosto / 2004LABINFO – LNCC / MCT Estratégia de seqüenciamento Clone-by-clone (Primeiro mapear, depois seqüênciar) Whole-genome shotgun sequencing Hybrid shotgun sequencing Expressed Sequence Tag - EST

6 Agosto / 2004LABINFO – LNCC / MCT Clone-by-clone e Whole-genome shotgun sequencing

7 Agosto / 2004LABINFO – LNCC / MCT Whole-genome shotgun sequencing

8 Agosto / 2004LABINFO – LNCC / MCT Whole-genome shotgun sequencing

9 Agosto / 2004LABINFO – LNCC / MCT Hybrid shotgun sequencing

10 Agosto / 2004LABINFO – LNCC / MCT Expressed Sequence Tag A1A1 A2A2 A3A3 B1B1 B2B2 C1C1 C2C2 C3C3 A1A1 A3A3 A1A1 A2A2 EST gene genoma Mensagem (ou transcrito) Splices alternativos do mesmo gene

11 Agosto / 2004LABINFO – LNCC / MCT Bibliotecas Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA As bibliotecas devem ser validadas. Garantir: Que as seqüências tenham o tamanho esperado Que não exista contaminação e presença excessiva de vetores Que a distribuição das seqüências seja a esperada Para EST as bibliotecas podem ser de diferentes tecidos

12 Agosto / 2004LABINFO – LNCC / MCT Bibliotecas

13 Agosto / 2004LABINFO – LNCC / MCT Administração e gerência No caso de redes de seqüenciamento, recepcionar os cromatogramas Armazenar os cromatogramas Gerar relatórios sobre o seqüenciamento Divulgação de estatísticas sobre o desenvolvimento do projeto

14 Agosto / 2004LABINFO – LNCC / MCT Administração e gerência

15 Agosto / 2004LABINFO – LNCC / MCT Administração e gerência

16 Agosto / 2004LABINFO – LNCC / MCT Administração e gerência

17 Agosto / 2004LABINFO – LNCC / MCT Estratégia híbrida Leitura dos cromatogramas converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade Montagem comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs Objetivo: Um contig !!!

18 Agosto / 2004LABINFO – LNCC / MCT Estratégia híbrida Analisar a montagem Acompanhar a evolução do número de contigs Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas

19 Agosto / 2004LABINFO – LNCC / MCT Estratégia híbrida Finalizar o genoma Ordenar e orientar os contigs (scaffold) Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds Definir estratégias específicas para fechar gaps – espaços entre contigs – no genoma Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão.

20 Agosto / 2004LABINFO – LNCC / MCT Leitura dos cromatogramas A leitura dos cromatogramas é a realizada pelo programa phred O phred nomeia cada base e atribue um valor de qualidade para cada base lida A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base

21 Agosto / 2004LABINFO – LNCC / MCT Leitura dos cromatogramas Q = -10 log 10 ( P e ) Q Qualidade e P e Probabilidade de erro Ex.: 1 erro em 100 bases Q = -10 log 10 (1/100) Q = 20 Ex.: 1 erro em bases Q = -10 log 10 (1/10000) Q = 40 Ex.: 1 erro em bases Q = -10 log 10 (1/ ) Q = 60

22 Agosto / 2004LABINFO – LNCC / MCT Leitura dos cromatogramas

23 Agosto / 2004LABINFO – LNCC / MCT Leitura dos cromatogramas

24 Agosto / 2004LABINFO – LNCC / MCT Leitura dos cromatogramas O phred gera um arquivo contendo as bases e as respectivas qualidades

25 Agosto / 2004LABINFO – LNCC / MCT Filtragem de vetores Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor O trecho correspondente tem cada uma de suas base substituídas por x

26 Agosto / 2004LABINFO – LNCC / MCT Filtragem de vetores

27 Agosto / 2004LABINFO – LNCC / MCT Montagem Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNA Fragmento ATAGACCCAT GACCCAT ATGCATGCCATA CCAT GACTGCCATA CCATGCATG Alinhamento ATAGACCCAT ---GACCCAT ATGCATGCCATA CCAT GACTGCCATA CCATGCATG ATAGACCCATGCATGCC Consenso

28 Agosto / 2004LABINFO – LNCC / MCT Montagem

29 Agosto / 2004LABINFO – LNCC / MCT Programas / pacotes de montagem Assembler (www.tigr.org)www.tigr.org Bambus – Programa para gerar scaffold CAP3 (genome.cs.mtu.edu)genome.cs.mtu.edu phred/phrap/consed (www.phrap.org)www.phrap.org Staden (www.mrc-lmb.cam.ac.uk) – GAP4www.mrc-lmb.cam.ac.uk Pode utilizar o CAP3 ou o phrap

30 Agosto / 2004LABINFO – LNCC / MCT CAP3 Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads Alinhamento entre reads para identificação de sobreposição Identificação e remoção de falsos alinhamentos

31 Agosto / 2004LABINFO – LNCC / MCT CAP3 Formação dos contigs através da junção dos reads em ordem decrescente da pontuação dos alinhamentos Correção nos contigs através da validação forward-reverse Alinhamento múltiplo dos reads para a construção da seqüência de consenso Geração dos arquivos de saída (links, ace etc)

32 Agosto / 2004LABINFO – LNCC / MCT phrap Tratamento das seqüências Conversão de trechos de bases iguais, no início e no fim dos reads em N Identificação e exclusão de reads iguais Exclusão de regiões, provavelmente não filtradas, de vetores do alinhamento Determinação dos singlets (reads que não tem alinhamento com nenhum outro read)

33 Agosto / 2004LABINFO – LNCC / MCT phrap Identificação de sobreposição Formação dos contigs Determinação do consenso Determinação dos links entre contigs e do scaffold Geração dos arquivos de saída (log, ace, contigs etc)

34 Agosto / 2004LABINFO – LNCC / MCT Pipeline da montagem Entrada: cromatogramas Base-calling (phred) – phd_file Conversão (phd2fasta) phd_files multifasta e multifasta.qual Filtragem (cross_match) de vetores e repetições multifasta.screen Montagem (phrap / cap3) Arquivo de * Clones (formcon) multifasta.screen.con * Somente para o CAP3

35 Agosto / 2004LABINFO – LNCC / MCT Análise da montagem

36 Agosto / 2004LABINFO – LNCC / MCT Análise da montagem Contig 1Contig 4 Contig 5 b P1 g b P8 g b P7 g b P2 g b C2 g b C1 g b P6 g b P3 g b P4 g b P5 g b P9 g b P10 g b P11 g b P12 g b C3 g b C4 g b C6 g b C5 g b C7 g

37 Agosto / 2004LABINFO – LNCC / MCT Análise da montagem

38 Agosto / 2004LABINFO – LNCC / MCT Análise da montagem

39 Agosto / 2004LABINFO – LNCC / MCT Identificação de repetições Repetição trechos de DNA ao longo do(s) cromossomo(s) Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada

40 Agosto / 2004LABINFO – LNCC / MCT Identificação de repetições Repetições ambíguas A B C D A C B D

41 Agosto / 2004LABINFO – LNCC / MCT Identificação de repetições Repetições colapsadas A B C A B C

42 Agosto / 2004LABINFO – LNCC / MCT Identificação de repetições Como identificar: Regiões de contigs que empilham reads Regiõe(s) que têm match com outras regiõe(s) Regiões que apresentam links de pontas de clones inconsistentes Regiões em que existem mais de um read com bases discrepantes em relação ao consenso

43 Agosto / 2004LABINFO – LNCC / MCT Identificação de repeats Regiões que empilham reads

44 Agosto / 2004LABINFO – LNCC / MCT Identificação de repeats Regiõe(s) que têm match com outras regiõe(s)

45 Agosto / 2004LABINFO – LNCC / MCT Identificação de repeats Regiõe(s) que têm match com outras regiõe(s)

46 Agosto / 2004LABINFO – LNCC / MCT Identificação de repeats Regiões que apresentam links de pontas de clones inconsistentes

47 Agosto / 2004LABINFO – LNCC / MCT Identificação de repeats Regiões em que existem mais de um read com bases discrepantes em relação ao consenso

48 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs Low Consensus Quality (LCQ) É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade. High Quality Discrepancies (HQD) São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40. Positions not Confirmed on both Strands (NCBS) Posições no consenso que não estão confirmadas nas duas fitas. Reads quiméricos

49 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs - LCQ

50 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs - HQD

51 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs - HQD

52 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs - NCBS

53 Agosto / 2004LABINFO – LNCC / MCT Problemas nos contigs - Quimera

54 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma Estratégias para resolver os problemas de montagem dos contigs (LCQ, HQD, NCBS, quimeras) Estratégias para resolver os problemas de repetição Fechar os gaps gerados pelos filtros Estratégias para fechar os demais gaps. Gaps dentro de scaffolds (virtuais) e entre scaffolds (reais)

55 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma -- HQD Retirar os reads que contenham HQD, remontar o contig isoladamente e comparar as seqüências Retirar o(s) read(s)s que determina(m) o consenso, remontar o contig isoladamente e comparar as seqüências (muitos reads e muitas bases com HQD) Ressequenciar reads da região

56 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma – LCQ e NCBS Ressequenciar reads que estejam com baixa qualidade Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente.

57 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma – Quimeras Retirar os reads quiméricos. Realizar a montagem isolada e comparar os consensos Se houver diferença, ressequenciar reads da região, inclusive o quimérico

58 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma – fechamento de gaps Ressequenciar reads que estejam com baixa qualidade nas extremidades dos contigs Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente.

59 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma – fechamento de gaps (filtro) Montar separadamente os dois contigs de cada gap, ou apenas, as duas extremidades. Pode ser necessário montar com diferentes programas (cap3 e phrap) para estabelecermos comparações Garantir que, na medida do possível, os clones estejam com as duas pontas (forward e reverse). Resgatar, para isto, as pontas que se tornaram singlets

60 Agosto / 2004LABINFO – LNCC / MCT Finalização do genoma – fechamento de gaps (filtro) Realizar experimentos que confirmem que os dois contigs do gap realmente estão juntos e na orientação indicada pelo scaffold (Ex. PCR combinatório) Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente. Sequenciar o produto de PCR

61 Agosto / 2004LABINFO – LNCC / MCT Genomas montados no LABINFO Chromobacterium violaceum e Mycoplasma synoviae (www.brgene.lncc.br)www.brgene.lncc.br Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br)www.genesul.lncc.br

62 Agosto / 2004LABINFO – LNCC / MCT Genomas em andamento no LABINFO Xylella fastidiosa Ann1 e Xylella fastidiosa Dixon (www.xylella.lncc.br)www.xylella.lncc.br Rhizobium tropici (www.nbf.lncc.br)www.nbf.lncc.br Leifsonia xyli cynodontis (www.leifsonia.lncc.br)www.leifsonia.lncc.br

63 Agosto / 2004LABINFO – LNCC / MCT EST A montagem de EST, é na verdade, a construção de clusters (grupos) de seqüências de EST que são originadas da expressão de um mesmo gene O pipeline é semelhante a montagem de genomas completos. Com exceção da filtragem de repeats. Tanto o programa CAP3, quanto o phrap podem ser utilizados

64 Agosto / 2004LABINFO – LNCC / MCT Referências Green, ED – Strategies for the systematic sequencing of comples genomes (Nature Reviews – Genetics, vol 2, agosto 2001, ) (http://www.nature.com/cgi- taf/DynaPage.taf?file=/nrg/journal/v2/n8/full/nrg0801_573a_fs.h tml)http://www.nature.com/cgi- taf/DynaPage.taf?file=/nrg/journal/v2/n8/full/nrg0801_573a_fs.h tml Huang, X e Madan, A – CAP3: A DNA Sequence Assembly Program (Genome Research) Telles, GP et all - Bioinformatics of the sugarcane EST project (Genetics and Molecular Biology, vol 24, n1-4, 2001) Telles, GP e Silva FR – Trimming and clustering sugarcane ESTs (Genetics and Molecular Biology, vol 24, n1-4, 2001)


Carregar ppt "Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um."

Apresentações semelhantes


Anúncios Google