A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Frederico Schmitt Kremer

Apresentações semelhantes


Apresentação em tema: "Frederico Schmitt Kremer"— Transcrição da apresentação:

1 Frederico Schmitt Kremer
UFPel | CDTec | PPGB Montagem de genomas Frederico Schmitt Kremer Pelotas | 2015

2 Sequenciadores de Nova Geração

3 Sequenciadores de DNA

4 paired-end / Mate-pair
Bibliotecas de sequenciamento Single-end (“Fragmento”) paired-end / Mate-pair (“Pareadas”)

5 Dados de NGS : FASTQ O formato mais comum para a representação da saída dos sequenciadores de NGS é o FASTQ. Baseado no formato FASTA, o FASTQ possui além da sequência, o valor de qualidade de cada base. >NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... FASTA @NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... +NCYC361-11a03.q1k bases 1 to 1576 !)))))****(((***%%((((*(((+,**(((+**+,-... FASTQ >NCYC361-11a03.q1k bases 1 to 1576 QUAL

6 Dados de NGS : FASTQ

7 Dados de NGS : FASTQ O ajuste de qualidade das leituras pode ser feito através da “trimagem” (trimming) das bases com baixa qualidade nas extremidades, assim como de regiões de adaptadores. Da mesma forma, reads inteiras podem ser removidas caso a média da qualidade de cada base seja menor que uma dado valor de phred (Ex: Q20, Q30, Q50).

8 Montagem Duas principais abordagens podem ser utilizadas para a montagem de um genoma: por referência (ressequenciamento) e montagem de novo. Montagem por referência Normalmente usada para organismos com genoma bem caracterizado e com pouco variabilidade estrutural, sendo útil na identificação de pequenas variantes genéticas (ex: SNPs, INDELs e CNVs). Montagem de novo Útil para espécies ainda pouco estudadas, ou quando a estrutura genômica está sujeita a alterações (translocações, inversões, transposições), como em microoorganismos.

9 Montagem A milhões de leituras dos sequenciadores NGS precisam ser montadas em sequencias maiores, denominadas contigs, de forma similar aos métodos de Sanger. Entretanto, os algoritmos Greedy (ex: ContigExpress) seriam inviáveis computacionalmente.

10 Montagem Para trabalhar com um volume grande de leituras pequenas (short reads) surgiram os montadores baseados em grafos de Brujin. Cada read é dividida em sub-reads de tamanho k denomiadas “k-mers”. Considerando uma sequencia de 5 nucleotídeos, seus k-mers seriam, se k = 4: ATCGC → ATCG + TCGC Se k fosse igual a 3, os k-mers seriam: ATCGC → ATC + TCG + CGC

11 Montagem

12 Montagem

13 Montagem Após conectar todos os k-mers que apresentam sobreposições é feita a construção de um “caminho”, que servirá de base para a construção das contigs. Dependendo do programa utilizado e do tamanho das leituras, o valor de k pode influenciar fortemente a qualidade da montagem.

14 Montagem Dificilmente será conseguido uma única contig, sobretudo quando a qualidade do sequenciamento não é muito boa, ou a cobertura não é alta. Estatísticas como N50 e NG50 podem auxiliar na avaliação da qualidade de uma montagem.

15 Montadores Maioria de uso livre (gratuito), de código aberto e exclusivos para sistemas Linux. Normalmente são usados através de linhas de comando. Ray SGA SPAdes Velvet A5 Newbler Alguns são pagos e apresentam interface grática, sendo mais amigáveis. Geneious CLC Genomics DNAstar

16 Pós-Montagem A montagem de novo normalmente resulta em um genoma consideravelmente fragmentado. Diferentes técnicas podem ser utilizadas para otimizar esta montagem, incluindo: Geração de scaffolds. Fechamento de gaps. Correção de erros de montagem.

17 NNNNNNNNNNNNNNNNNNNNNN...
Scaffolding Scaffold Contig 1 Gap Contig 2 NNNNNNNNNNNNNNNNNNNNNN...

18 Scaffolding com leituras pareadas

19 Scaffolding com um genoma de referência

20 Scaffolding com leituras longas (long-reads)

21 Integrando resultados de diferentes montadores

22 Fechamento de gaps Scaffolds são contigs conectadas por regiões desconhecidas, denominadas gaps de montagem. Uma etapa importante para aprimorar uma montagem é “fechar” estes gaps, visto que estes podem estar localizados sobre regiões codificantes, regulatórias ou com outras funções relevantes. Diferentes abordagens podem ser utilizadas para o fechamento de gaps, incluindo PCR + Sanger, uso de dados de leituras pareadas ou longas e montagens alternativas.

23 Fechamento de gaps com leituras pareadas

24 Fechamento de gaps com leituras longas

25 Correção de erros de montagem

26 Fatores que afetam a montagem
Quanto menor o tamanho das leituras, mais complexo será o processo de montagem do genoma. Dentre os fatores que mais afetam a montagem de genomas inclui-se: Sequências repetitivas (ex: SSR, VNTR). Elementos repetidos ao longo do genoma (ex: fagos, rRNAs, transposases). Rearranjos estruturais no genoma.

27 Fatores que afetam a montagem

28 Tipos de montagens Genoma rascunho (draft): Disponibilizado na forma de contigs / scaffolds. Não reflete completamente a estrutura cromossômica do organismo de interesse, mas pode ser utlizado para muitas das aplicações. Pode conter gaps e regiões apresentar regiões faltantes. Genoma finalizado ou completo: Apresenta a sequência e estrutura completa dos cromossomos, o que permite análises estruturais mais acuradas.

29 Tipos de montagens

30 Pronto?

31 Aonde estão os genes?

32 Dúvidas?


Carregar ppt "Frederico Schmitt Kremer"

Apresentações semelhantes


Anúncios Google