Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Frederico Schmitt Kremer
UFPel | CDTec | PPGB Montagem de genomas Frederico Schmitt Kremer Pelotas | 2015
2
Sequenciadores de Nova Geração
3
Sequenciadores de DNA
4
paired-end / Mate-pair
Bibliotecas de sequenciamento Single-end (“Fragmento”) paired-end / Mate-pair (“Pareadas”)
5
Dados de NGS : FASTQ O formato mais comum para a representação da saída dos sequenciadores de NGS é o FASTQ. Baseado no formato FASTA, o FASTQ possui além da sequência, o valor de qualidade de cada base. >NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... FASTA @NCYC361-11a03.q1k bases 1 to 1576 GCGTGCCCGAAAAAATGCTTTTGGAGCCGCGCGTGAAAT... +NCYC361-11a03.q1k bases 1 to 1576 !)))))****(((***%%((((*(((+,**(((+**+,-... FASTQ ↔ >NCYC361-11a03.q1k bases 1 to 1576 QUAL
6
Dados de NGS : FASTQ
7
Dados de NGS : FASTQ O ajuste de qualidade das leituras pode ser feito através da “trimagem” (trimming) das bases com baixa qualidade nas extremidades, assim como de regiões de adaptadores. Da mesma forma, reads inteiras podem ser removidas caso a média da qualidade de cada base seja menor que uma dado valor de phred (Ex: Q20, Q30, Q50).
8
Montagem Duas principais abordagens podem ser utilizadas para a montagem de um genoma: por referência (ressequenciamento) e montagem de novo. Montagem por referência Normalmente usada para organismos com genoma bem caracterizado e com pouco variabilidade estrutural, sendo útil na identificação de pequenas variantes genéticas (ex: SNPs, INDELs e CNVs). Montagem de novo Útil para espécies ainda pouco estudadas, ou quando a estrutura genômica está sujeita a alterações (translocações, inversões, transposições), como em microoorganismos.
9
Montagem A milhões de leituras dos sequenciadores NGS precisam ser montadas em sequencias maiores, denominadas contigs, de forma similar aos métodos de Sanger. Entretanto, os algoritmos Greedy (ex: ContigExpress) seriam inviáveis computacionalmente.
10
Montagem Para trabalhar com um volume grande de leituras pequenas (short reads) surgiram os montadores baseados em grafos de Brujin. Cada read é dividida em sub-reads de tamanho k denomiadas “k-mers”. Considerando uma sequencia de 5 nucleotídeos, seus k-mers seriam, se k = 4: ATCGC → ATCG + TCGC Se k fosse igual a 3, os k-mers seriam: ATCGC → ATC + TCG + CGC
11
Montagem
12
Montagem
13
Montagem Após conectar todos os k-mers que apresentam sobreposições é feita a construção de um “caminho”, que servirá de base para a construção das contigs. Dependendo do programa utilizado e do tamanho das leituras, o valor de k pode influenciar fortemente a qualidade da montagem.
14
Montagem Dificilmente será conseguido uma única contig, sobretudo quando a qualidade do sequenciamento não é muito boa, ou a cobertura não é alta. Estatísticas como N50 e NG50 podem auxiliar na avaliação da qualidade de uma montagem.
15
Montadores Maioria de uso livre (gratuito), de código aberto e exclusivos para sistemas Linux. Normalmente são usados através de linhas de comando. Ray SGA SPAdes Velvet A5 Newbler Alguns são pagos e apresentam interface grática, sendo mais amigáveis. Geneious CLC Genomics DNAstar
16
Pós-Montagem A montagem de novo normalmente resulta em um genoma consideravelmente fragmentado. Diferentes técnicas podem ser utilizadas para otimizar esta montagem, incluindo: Geração de scaffolds. Fechamento de gaps. Correção de erros de montagem.
17
NNNNNNNNNNNNNNNNNNNNNN...
Scaffolding Scaffold Contig 1 Gap Contig 2 NNNNNNNNNNNNNNNNNNNNNN...
18
Scaffolding com leituras pareadas
19
Scaffolding com um genoma de referência
20
Scaffolding com leituras longas (long-reads)
21
Integrando resultados de diferentes montadores
22
Fechamento de gaps Scaffolds são contigs conectadas por regiões desconhecidas, denominadas gaps de montagem. Uma etapa importante para aprimorar uma montagem é “fechar” estes gaps, visto que estes podem estar localizados sobre regiões codificantes, regulatórias ou com outras funções relevantes. Diferentes abordagens podem ser utilizadas para o fechamento de gaps, incluindo PCR + Sanger, uso de dados de leituras pareadas ou longas e montagens alternativas.
23
Fechamento de gaps com leituras pareadas
24
Fechamento de gaps com leituras longas
25
Correção de erros de montagem
26
Fatores que afetam a montagem
Quanto menor o tamanho das leituras, mais complexo será o processo de montagem do genoma. Dentre os fatores que mais afetam a montagem de genomas inclui-se: Sequências repetitivas (ex: SSR, VNTR). Elementos repetidos ao longo do genoma (ex: fagos, rRNAs, transposases). Rearranjos estruturais no genoma.
27
Fatores que afetam a montagem
28
Tipos de montagens Genoma rascunho (draft): Disponibilizado na forma de contigs / scaffolds. Não reflete completamente a estrutura cromossômica do organismo de interesse, mas pode ser utlizado para muitas das aplicações. Pode conter gaps e regiões apresentar regiões faltantes. Genoma finalizado ou completo: Apresenta a sequência e estrutura completa dos cromossomos, o que permite análises estruturais mais acuradas.
29
Tipos de montagens
30
Pronto?
31
Aonde estão os genes?
32
Dúvidas?
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.