A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Montagem de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade.

Apresentações semelhantes


Apresentação em tema: "Montagem de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade."— Transcrição da apresentação:

1 Montagem de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

2 Planejamento Introdução – Montagem de Sequências – Algoritmos para Montagem de Sequências – Softwares para Montagem de Sequências de Transcritos Newbler Velvet Prática – Newbler – Velvet

3 Por quê sequenciar o transcritoma? Mantém o foco da pesquisa nas regiões gênicas do genoma; Acelera o processo de anotação genômica; – Descoberta de novos genes e modelos gênicos; Visão geral da atividade gênica celular em determinado momento; – Obtenção da expressão gênica relativa para diferentes células sob diferentes condições; Pode auxiliar na identificação de eventos de processamento alternativo de transcritos (e.g. Alternative Splicing) em tecidos ou condições biológicas específicas; Detecção de mutações pontuais e/ou estruturais, tais como fusão de genes;

4 MONTAGEM DE SEQUÊNCIAS DE TRANSCRITOS Introdução

5 Montagem Definição – É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original; leituras (reads) => contigs => scaffolds – A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs); – A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;

6 Gap Conceitos Básicos (1) contig – alinhamento múltiplo de leituras de onde é extraída uma sequência consenso; unitig – contig formado pela sobreposição de sequências únicas das leituras, ou seja, sem ambiguidades; scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs; singlets – leituras não agrupadas em um contig; gap – espaço entre dois contigs, onde não se conhece a sequência;

7 Conceitos Básicos (2) Cobertura (coverage) – Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G] ((N*L)/G) – Ex: Genoma de 1Mbp (G) » 5 milhões de reads (N) de 50bp (L) » Cobertura = ( * 50) / = 25X – Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada; – Profundidade (depth of coverage) Requisitos para o sequenciamento de genomas: – Sanger: C. Venter (3Gb ~7.5x) [Levy et al., 2007] – Roche 454: J. Watson (3Gb ~7.4x) [Wheeler et al., 2008] – Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) [Li et al., 2010]

8 Modelo Lander-Waterman Estimar parâmetros (número esperado de contigs, tamanho dos contigs) (Lander e Waterman, 1988) L = tamanho das leituras T = mínimo de sobrepsição entre leituras G = tamanho do genoma (pool de transcritos) N = número de leituras c = cobertura (NL / G) σ = 1 –T/L E(#contigs) = Ne -cσ E(tamanho do contig) = L((e cσ –1)/c+1–σ) Modelo Lander-Waterman aplicado para estimar a cobertura no transcriptoma de arroz [Zhang et al., 2010] Genoma 1Mb coverage 10x ~5 contigs * quanto maior a cobertura menos contigs são produzidos porém maiores;

9 Montagem de novo Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas. A montagem é possível quando o alvo é excessivamente amostrado com leituras shotgun que se sobrepõem. Montagem de novo de dados de Next-Generation Sequencing (NGS) – tamanho das leituras (menos informação por leitura) necessidade de maior cobertura – aumento da complexidade; – grande volume de dados necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

10 Cobertura – nova geração de sequenciadores Tamanho esperado de contigs Panda e Cachorro genoma de ~2.4Gb [Schatz et al., 2010]

11 Avaliação da Montagem Montagens bem sucedidas: – Montagens são medidas pelo tamanho e precisão dos contigs e scaffolds; – Tamanhos das sequências obtidas: tamanho máximo; tamanho médio; tamanho total combinado; N50 (tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem) – contiguity; – Valores muito altos podem representar erros na montagem e valores muito pequenos podem representar montagem incompleta; – Precisão dos contigs Medidas de satisfação e violações de restrições de montagem (Phillippy et al., 2008); – e.g. sequências sobrepostas no contig devem ter concordância entre si; Se a referência existe é útil e pode ser utilizada para a comparação; – Comparações com proteomas de espécies próximas também podem ser úteis para avaliação da montagem (Papanicolaou, et al. 2009);

12 N50 https://www.broad.harvard.edu/crd/wiki/index.php/N50 N50 - representação do tamanho médio (mediana ponderada) de um conjunto de sequências; Dado um conjunto de sequências de tamanhos variáveis; – N50 = tamanho N onde estão 50% das bases da montagem estão em sequências de tamanho l < N; – L = {2,2,2,3,3,4,8,8} – tamanho combinado 32 – L = {2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8} 6 x (2); 6 x (3); 4 x (4); 16 x (8) – N50(L) = mediana(L) = 6 50% < N50(L) = 6

13 Desafios (1) Contaminates nas amostras (e.g. Bacteria) Ribosomal RNA (pequenas e grandes sub-unidades) Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações) Erros de sequenciamento – e.g. Roche erros de homopolímeros (3 ou mais bases consecutivas); Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA); Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil); – Necessidade de spanners – leituras que atravessam uma região de repetição e que possuem suficientes regiões únicas em ambos os lados; – Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação, estando um dos pares ancorado em uma região única;

14 Desafios (2) Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação; Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura); Processamento alternativo do RNA – e.g. Alternative splicing Genes parálogos A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

15 Problemas recorrentes causados por repetições

16 k-mers Subsequências de tamanho k – Em uma sequência de tamanho (L) há (L-k+1) k- mers; – Exemplo: sequência de tamanho L=8 tem 5 k-mers com k=4 ACGTACGA ACGT CGTA GTAC TACG ACGA

17 k-mers Uniqueness ratio k-mers – sequências de tamanho k k-mers uniqueness ratio – número de k-mers distintas que ocorrem uma única vez no genoma número total de k-mers distintas que ocorrem no genoma [Schatz et al., 2010] Trichomonas vaginalis

18 ALGORITMOS PARA MONTAGEM DE SEQUÊNCIAS Introdução

19 Algoritmos para montagem Três categorias (baseadas em grafos) – Overlap/Layout/Consensus (OLC) grafo de sobreposições; – de Bruijn Graphs (DBG) grafo de sobreposição de sufixo-prefixo de k-mers; – Greedy graphs estrutura implícita de grafos de sobreposições;

20 Grafo Grafo é uma estrutura G(V, A) onde V é um conjunto não vazio de objetos denominados nós ou vértices (nodes/vertices) e A é um conjunto de pares não ordenados de V, chamado arestas ou arcos (edges/arcs). Nós (vértices): V = {U, V, W, X, Y, Z} Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j} Representação simplificada de um grafo qualquer

21 Overlap-Layout-Consensus (OLC) Três passos: – 1º detecção de sobreposição; Alinhamento pareado entre todas as leituras – identificação dos pares com melhor match (alinhamento global + heurísticas [e.g. seed & extend]); – 2º layout dos fragmentos (montagem do contig); Construção e manipulação do grafo de sobreposição (Analisar/Simplificar/Limpar); Caminho Hamiltoniano; – 3º decisão da sequência (montagem do consenso); Alinhamento Múltiplo de Sequências – normalmente baseado na pontuação dos pares com sobreposição (sum-of-pairs ou SP); – Realiza ajustes no layout se necessário; Normalmente a frequência de um nucleotídeo em determinada posição determina a base consenso; Caminho Hamiltoniano – caminho que permite passar uma única vez por todos os nós do grafo (contig) – caminho elementar; Grafo de sobreposição: nós - leituras; arestas - sobreposições; sobreposições não consideradas – ?caminhos alternativos?

22 Softwares montadores (OLC) Utilizam o paradigma OLC: – Phrap (http://www.phrap.org/)http://www.phrap.org/ genomas Sanger, 454 (Green, P., unpublished) – CAP3 (http://seq.cs.iastate.edu/)http://seq.cs.iastate.edu/ genomas, cDNAs Sanger, 454 (Huang, X. and Madan, A., 1999) – MIRA (http://sourceforge.net/projects/mira-assembler/)http://sourceforge.net/projects/mira-assembler/ genomas, cDNAs Sanger, 454, Solexa (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004) – Newbler (https://valicertext.roche.com/)https://valicertext.roche.com/ genomas, cDNAs Sanger, 454 Software Proprietário da Roche

23 Greedy Graphs Operação básica: dada alguma leitura ou contig, adiciona uma ou mais leituras ou contigs (mais similares uns aos outros) de forma progressiva até que não haja mais operações possíveis; Estrutura implícita de grafo, em que somente são consideradas as arestas com alto score; Deve ter mecanismos para lidar com sobreposições falsas. – Sobreposições de regiões repetitivas podem ter score alto e levar a erros na montagem. I - reads 1 e 2 (score 200) II - reads 3 e 4 (score 150) III - reads 2 e 3 (score 50)

24 Softwares montadores (Greedy) Baseados em grafos do tipo Greedy: – SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake)http://www.bcgsc.ca/platform/bioinfo/software/ssake genomas Solexa (Warren, R.L. et al., 2007) – SHARCGS (http://sharcgs.molgen.mpg.de/)http://sharcgs.molgen.mpg.de/ genomas Solexa (Dohm, J.C. et al., 2007) – VCAKE (http://sourceforge.net/projects/vcake/)http://sourceforge.net/projects/vcake/ genomas Solexa (Jeck, W.R. et al., 2007)

25 grafos de-Bruijn Grafos k-mer – nós – todas as subsequências de tamanho k; – arestas – todas as sobreposições (k-1 bases) entre essas subsequências que são consecutivas na sequência original; – Pode representar as múltiplas sequências das leituras e implicitamente as sopreposições; aaccgg (k-mer 4): aacc accg ccgg ccggtt (k-mer 4): ccgg cggt ggtt [Miller, et al. 2009] Caminho Euleriano – caminho que atravessa cada aresta uma única vez (contig) – caminho simples; Grafo de de-Bruijn: nó – subsequência (k-mer); arestas – sobreposições;

26 Características dos grafos k-mers Em geral – A montagem é um problema de redução de grafos. NP-difíceis, não há uma solução eficiente conhecida; Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar caminhos simples e simplificar o grafo; Vantagens – Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos NGS; – Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à busca de sobreposições em alinhamentos pareados; Não necessita comparações pareadas (todas x todas); Desvantagens – Usam muita memória (tabela hash k-mers); – Mais sensível a repetições e a erros de sequenciamento; – baixa sensibilidade (perde algumas sobreposições verdadeiras), dependendo do: tamanho de k tamanho da sobreposição taxa de erro nas leituras

27 Tamanho de k Tamanho de k :não pode ser nem muito grande, nem muito pequeno: – grande o suficiente para não pegar falsas sobreposições que compartilham k-mers por acaso; – pequeno o suficiente para que muitas sobreposições verdadeiras compartilhem k-mers;

28 Características dos grafos de-Bruijn O DNA é fita dupla, portanto a que se ter um mecanismo para identificar a correta orientação; – e.g. único nó (subsequência) com dois canais de entrada/saída – forward/reverse; Repetições complexas (repetições em tandem, repetições invertidas, repetições imperfeitas, repetições inseridas em outras repetições). Repetições maiores ou iguais a k levam a grafos complicados, que não contêm por si só informações suficientes para resolver a ambiguidade; – e.g. recorrer às sequências originais e possivelmente a fragmentos mate-pairs/paired-ends; Sequências palíndromes (idêntica à reversa complementar) induz a caminhos que retornam a si (k=4; ACGT = ACGT); – e.g. utilização de um k ímpar (k=5; ACGTA TACGT) evita esse tipo de ocorrência; Erros de sequenciamento; – e.g. pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros;

29 Complexidades em k-mers Ramificações – caminhos sem-saídas divergentes; – Induzidos por erros no sequenciamento nas extremidades das leituras; Bolhas – caminhos que divergem e depois convergem; – Induzidos por erros no sequenciamento no meio das leituras; Corda esfiapada – caminhos que convergem e divergem; – Induzidos por repetições; Ciclos – caminhos que convergem neles mesmos; – Induzidos por repetições (e.g. repetições em tandem – pequenos ciclos); [Miller, J.R., et al., 2010] tips

30 Exemplo AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG

31 Exemplo Grafo completo AGAT (8x) ATCC (7x) TCCG (7x) CCGA (7x) CGAT (6x) GATG (5x) ATGA (8x) TGAG (9x) GATC (8x) GATT (1x) TAGT (3x) AGTC (7x) GTCG (9x) TCGA (10x) GGCT (11x) TAGA (16x) AGAG (9x) GAGA (12x) GACA (8x) ACAG (5x) GCTT (8x) GCTC (2x) CTTT (8x) CTCT (1x) TTTA (8x) TCTA (2x) TTAG (12x) CTAG (2x) AGAC (9x) AGAA (1x) CGAG (8x) CGAC (1x) GAGG (16x) GACG (1x) AGGC (16x) ACGC (1x)

32 Exemplo Após simplificação... TAGTCGA AGAGA TAGA AGAT GCTTTAG GCTCTAG AGACAG AGAA CGAG CGACGC GAGGCT GATCCGATGAG GATT

33 Exemplo Após remoção de tips... TAGTCGA AGAGA TAGA AGAT GCTTTAG GCTCTAG AGACAG CGAG GAGGCT GATCCGATGAG

34 Exemplo Após remoção de bolhas – Velvet (Tour bus) breadth-first traversal prioridade ao que tem maior cobertura (multiplicidade no vértice) TAGTCGA AGAGA TAGA AGAT GCTTTAG AGACAG CGAG GAGGCT GATCCGATGAG

35 Exemplo Simplificação final TAGTCGAG AGAGACAG AGATCCGATGAG GAGGCTTTAGA

36 Softwares montadores (de-Bruijn) Baseados em grafos de de-Bruijn: – VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/)http://www.ebi.ac.uk/~zerbino/velvet/ genomas, cDNAs Solexa, SOLiD (Zerbino, D.R. e Birney E., 2008) – ABySS/Trans-ABySS (http://www.bcgsc.ca/platform/bioinfo/software/abyss)http://www.bcgsc.ca/platform/bioinfo/software/abyss genomas, cDNAs Solexa, SOLiD (Simpson, J.T, et al., 2009) (Birol, I., et. al., 2009)

37 FERRAMENTAS PARA MONTAGEM DE TRANSCRITOS Introdução

38 NEWBLER Softwares

39 Instalação (Newbler) Registro para requisição de software – Download – DataAnalysis_2.5.3_101207_1209.tgz Descompactar – tar -zxvf /origin/of/software/DataAnalysis_2.5.3_101207_1209.tgz -C /destiny/path/ Ir para o diretório destino – cd /destiny/path/DataAnalysis_2.5.3/ Executar setup.sh –./setup.sh

40 Funcionamento Alinhamentos pareados entre as leituras ( seed & extend) ; Constrói Alinhamentos múltiplos de leituras com sobreposição e identifica regiões de com diferenças consistentes entre os conjuntos de leituras e as divide em contigs (unitigs); Montagem contigs (unitigs) e criação do grafo de contigs, baseado no alinhamento das leituras que formam os contigs; Resolução de estruturas de ramificação no grafo; Extensão dos contigs é realizada por meio da visita a cada um dos nós do grafo; Montagem da sequência consenso usando a informação da qualidade/sinal para cada base nos alinhamentos múltiplos; Se há dados disponíveis de sequências paired-end inclui uma etapa adicional: Organização dos contigs em scaffolds, usando a informação dos pares e da distância aproximada dos pares entre os contigs. nós – leituras alinhadas de forma contígua (contigs) arestas – leituras que alinham parte em um contig e parte em outro

41 Exemplo

42 Princípios básicos Newbler Definições (-cdna) Definições (-cdna): contig: Conjunto de leituras com regiões de sobreposição não contestáveis (unitigs) e com diferenças consistentes entre os demais conjuntos de leituras. Um contig pode representar um exon ou parte dele. isogroup: É uma coleção de contigs que contêm leituras que os conectam, podendo representar os contigs de um mesmo locus (gene). isotig: Caminhos alternativos no grafo de contigs dentro de um isogroup. Um isotig pode representar um transcrito individual, ou seja, uma isoforma do gene.

43 isotigs Conexões entre contigs em um isogroup representados por sequências (leituras) com alinhamentos divergindo de forma consistente em dois ou mais diferentes contigs ou por avaliação de profundidade depth spike. depth spike isotig a partir de um único contig Obs: cauda poly(A) - é ignorada portanto não é possível determinar a correta de orientação do transcrito.

44 Chamada básica do Montador runAssembly [parâmetros] seqs.fasta Procura pelo arquivo seqs.fasta.qual no mesmo diretório Cria o seguinte diretório (por padrão): – P_yyyy_mm_dd_hh_min_sec_runAssembly P_ = Projeto, seguido de data e hora

45 Parâmetros mais comuns (1) -cdna – montagem em projetos transcritomas (cDNA); -urt – use read tips (extremidades das leituras) para produzir isotigs mais longos a partir de únicas leituras; -o output_directory – informar o diretório onde serão armazenados os resultados; -force – força o reinicio da montagem, caso o diretório informado para os resultados já exista; -vt trimmingFile.fasta – informar um arquivo fasta com as sequências de vetores, primers ou adaptadores, que devem ser excluídas das extremidades das leituras; -vs screeningFile.fasta – informar um arquivo fasta com as sequências cujas regiões devem ser mascaradas nas leituras;

46 Parâmetros mais comuns (2) -a num – tamanho mínimo para o contig em 454AllContigs (default 100) – obs.: 0 se -cdna; -l num – tamanho mínimo para o contig em 454LargeContigs/454Isotigs (default=500); -m – mantém os dados de sequências na memória para aumentar a velocidade (necessita de RAM); -cpu num – número de processadores para uso (default=1); -minlen num – tamanho mínimo de leituras para serem usadas na montagem; -het – habilita o modo para considerar heterogizidade (e.g., organismos diplóides). Esperar uma maior variabilidade.

47 Outros Parâmetros (1) -cdna options -ig – Isogroup Threshold (número máximo de contigs em um isogroup). Não serão formados isotigs e aparecerão como contigs nos arquivos de saída (default: 500 contigs); -it – Isotig Threshold (número máximo de isotigs em um isogroup). O processo de percorrer o grafo para e aparecerão como contigs nos arquivos de saída (default: 100 isotigs); -icc – Isotig Contig Count Threshold (número máximo de contigs em um isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 100 contigs); -icl – Isotig Contig Length Threshold (tamanho mínimo de um contig para o isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 3 bp);

48 Outros parâmetros (2) -notrim – desabilitar trimagem default de qualidade e primer; -p – especificar que as leituras são paired-ends, caso contrário será detectada automaticamente; -ud – trata leituras separadamente, não agrupamento de duplicatas; -ss – especificar seed step parameter (default: 12); -sl – especificar seed length parameter (default: 16); -sc – especificar seed count parameter (default 1); -ml – especificar tamanho mínimo da sobreposição (default: 40); -mi – especificar a identidade mínima da sobreposição (default: 90);

49 Manual Roche Assembly manual (Part C)

50 Arquivos de saída (1) Arquivos de sequências e qualidades – Contigs 454AllContigs.fna >contig00001 length=542 numreads=16 gene=isogroup00001 status=isotig >contig00002 length=2 numreads=43 gene=isogroup00001 status=it_thresh 454AllContigs.qual – Isotigs 454Isotigs.fna >contig00018 gene=isogroup00001 length=3413 >isotig00003 gene=isogroup00004 length=2675 numContigs=10 454Isotigs.qual 454Isotigs.faa (ORFs traduzidas) >contig >contig name/start/end/frame/nucleotide length/protein length/number of methionines

51 Arquivos de saída (2) Arquivos extras – Alinhamentos de ORFs 454IsotigOrfAlign.txt contig GGCGGGCAGTAAATATCATCATTGAGAATGCCCTCTTTCACTTGCAGAAAGAACAGGCGCTGAGTGATGTCCTGAATCAA : * 119.P..P..C..Y..I..D..D..N..L..I..G..E..K..V..Q..L..F..F..L..R..Q..T..I..D..Q..I..L 93 -2: L..R..A..T..F..I..M..M 1 +3: R..A..V..N..I..I..I..E..N..A..L..F..H..L..Q..K..E..Q..A..L..S..D..V..L..N..Q.. 84 – ACE (Como as leituras foram alinhadas para a formação dos Isotigs - visualização Tablet) 454Isotigs.ace – Estatísticas (Estatísticas da montagem, e.g. número de leituras e bases alinhadas, sobreposições, tamanho médio dos contigs, etc.) 454NewblerMetrics.txt – 454newblermetrics-txt-file/ 454newblermetrics-txt-file/ – Progresso de execução 454NewblerProgress.txt

52 Arquivos de saída (3) Leituras – Status de cada leitura no alinhamento ( alinhamento 3 e 5 no contig); 454ReadStatus.txt AccnoRead Status5' Contig5' Position5' Strand3' Contig 3' Position3' Strand F62E2P401D47TD Singleton F62E2P401ALCTK Outlier F62E2P401CVVLA TooShort F62E2P401ANAAD Repeat F62E2P401CE0XB PartiallyAssembled contig contig F62E2P401EC2X1 Assembled contig contig F62E2P401C259U Assembled contig contig – Pontos de trimagem originais e revisados das leituras para a montagem 454TrimStatus.txt Accno Trimpoints Used Used Trimmed Length Orig Trimpoints Orig Trimmed Length Raw Length F62E2P401BCQ2E F62E2P401BGGG F62E2P401ATLP F62E2P401BJE8M Assembled – Utilizada integralmente na montagem e coordenadas; Too Short – Muito pequena; Repeat – Identificada como repetitiva; Outlier – Leitura problemática (e.g. quimera); PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem e coordenadas; F62E2P401EC2X1 – inicia na base 48 contig02209 e termina na base 322 do contig02209 (a leitura na forma complementar-reversa está integralmente dentro do contig02209) F62E2P401C259U – inicia na base 21 contig00119 e termina na base 38 do contig00129 (leitura atravessa dois contigs) Trimpoints Orig – pontos de trimagem originais (presentes no sff ou fasta) Trimpoins Used – trimagem realizada pelo montador

53 Arquivos de saída (4) Montagem – Informações relacionadas à sequência consenso, qualidade, profundidade (sequências únicas, ou seja, não ambíguas), profundidade (sequências únicas alinhadas – iguais ao consenso), sinal e desvio padrão em cada posição do contig (somente SFF); 454AlignmentInfo.tsv Position Consensus Quality Score Unique Depth Align Depth Signal StdDeviation >isotig C A G G A G

54 Arquivos de saída (5) Grafos – Estrutura de conexão entre contigs [3 seções – Nós (1) /Arestas (2)(3)]; 454ContigGraph.txt (1) ContigNumContigNameLengthAverage_depth contig contig contig (2) EdgeFromContigNumFromEnd ToContigNumToEndAlignmentReadDepth... C 32 5' 31 3' 5 C 32 3' 33 5' S :+;32:+;33:+ S :+;33:+ S :+... (3) EdgeContigNumSequenceThru-FlowInformation... I 4 TGTTCGGTGTTCTCCGCCTCGGGCTGTCACAAATCGTGCTGCTGTGAGCCACTGCGTGCAGGTCTCAT 2:2-3'..3-5';1:6-3'..3-5'... – Layout dos Isotigs 454IsotigsLayout.txt >isogroup00007 numIsotigs=3 numContigs=3 Length : (bp) Contig : Total: isotig00022 >>>>> >>>>> >>>>> 2592 isotig00023 >>>>> >>>>> 2580 isotig00024 >>>>> 947 I short contig seq. acima inicia antes do contig4 e termina depois = dois fluxos de informação separados por ; qtd de sequências:contig_anterior-extremidade..contig_posterior-extremidade P paired-ends – como as sequências em pares atravessam contigs e permitem scaffolds F read-flow – como as sequências simples atravessam contigs e permitem scaffolds

55 Exemplos Pool de 2 amostras de culturas de melanócitos de epiderme humana normal – cDNA sequences (454 GS FLX) – Newbler v Isotigs / Isoformas de transcritos -cdna parâmetros default

56 UCSC Genome Browser (1) isogroup00003 – isotig00001 Gene: DNAJC1

57 VELVET Softwares

58 Compilação (Velvet/Oases) Makefile – Compilar Velvet make OPENMP=1 CATEGORIES=3 MAXKMERLENGTH=75 – Compilar Oases make VELVET_DIR=/path/to/velvet/ Variável ambiente $PATH – bash export PATH=${PATH}:/path/to/velvet/:/path/to/oases/

59 Etapas de montagem com grafos de-Bruijn

60 Construção da tabela hash velveth – Criação de uma tabela hash a partir de um conjunto de sequências de leituras, computando sobreposições entre k-mers. – São gerados 2 arquivos (Sequences e Roadmaps) necessários para a construção do grafo de-Bruijn pelo programa seguinte: velvetg; Sequences: sequências indexadas; Roadmaps: representação doas sobreposições entre os k-mers;./velveth output_directory hash_length [[-file_format][-read_type] filename] Principais parâmetros – hash_length é o tamanho dos k-mers em bp. Quanto menor o k mais lento!!! – read_type pode ser: -short / -shortPaired -short2 / -shortPaired2 -long / -longPaired – file_format pode ser: -fasta (default) -fastq...

61 Construção do Grafo de-Bruijn (1) velvetg – Construção e manipulação do grafo de-Bruijn, correção de erros e resolução de repetições. – Arquivos gerados: contigs.fa - sequências consensos (gaps dentro contigs = Ns); PreGraph - grafo intermediário 0; Graph - grafo intermediário 1; Graph2 - grafo intermediário 2; LastGraph - descrição plena do grafo de-Bruijn produzido; Log - descrição das ações executadas; stats.txt - números relativos à montagem; UnusedReads.fa - sequências não utilizadas na montagem; velvet_asm.afg - formato compatível com AMOS;./velvetg output_directory [options]

62 Construção do grafo de-Bruijn (2) Simplificação do grafo – unificação de nós em cadeia Remoção de erros – remoção de tips – cadeia de nós desconectada no fim; – remoção de bubbles – dois caminhos redundantes que iniciam e terminam nos mesmos nós (Algoritmo Tour Bus); remoção de conexões errôneas – remoção de nós e arcos de baixa cobertura (erro sequenciamento);

63 Construção do Grafo de-Bruijn (3) Principais parâmetros - cov_cutoff : remoção de nós/arcos baixa cobertura (sem remoção) -ins_length : distância esperada entre pares (sem pareamento|auto) -read_trkg : tracking of posições das leituras na montagem (no) -min_contig_lgth : tamanho mínimo para o consenso (k*2) -amos_file : exportar montagem arquivo AMOS (no) -exp_cov : estimativa da cobertura esperada para regiões únicas, é usado na resolução de repetições (sem leituras longas ou em pares) -long_cov_cutoff : remoção de nós com baixa cobertura de leituras longas (sem remoção) -unused_reads : exportar leituras não aproveitadas em UnusedReads.fa (no) -exportFiltered : exportar nós que foram eliminados pelo filtro de cobertura (no) -shortMatePaired* : indica que a entrada é uma biblioteca mate- pair (no)

64 Estatísticas Arquivo tabular – IDidentificador do contig – lgthtamanho em k-mers – outnúmero de arcos 3 – in número de arcos 5 – long_covcobertura em k-mers (long) – short1_covcobertura em k-mers (short1) – short1_Ocovcobertura em k-mers – mapeamento perfeito (short1) – short2_covcobertura em k-mers (short2) – short2_Ocovcobertura em k-mers - mapeamento perfeito (short2) – long_nbnúmero de reads (long) – short1_nbnúmero de reads (short1) – short2_nb número de reads (short2)

65 Cobertura k-mers Tamanho k-mers: Quantas vezes uma subsequência de tamanho k é observada; Tamanho k-mers (L k ) e tamanho nucleotídeos (L N ) – L k = L N -(k-1) = L N -k+1 – L N = L k +(k-1) = L k +k-1 – e.g. ACGTGAAG (L N = 8) k = 3 – ACG / CGT / GTG / TGA / GAA / AAG (6) – L k = = 6 Cobertura k-mers (C k ) e cobertura nucleotídeos (C N ) – C k = C N * (L N –k+1)/L N – C N = (L N * C K )/(L N -k+1)

66 VelvetOptimiser Encontrar os melhores parâmetros (k-mer e cov_cutoff) – VelvetOptimiser.pl [options] -f 'velveth input line --helpThis help. --v|verbose+ Verbose logging, includes all velvet output in the logfile. (default '0'). --s|hashs=i The starting (lower) hash value (default '19'). --e|hashe=i The end (higher) hash value (default '31'). --f|velvethfiles=s The file section of the velveth command line. (default '0'). --a|amosfile! Turn on velvet's read tracking and amos file output. (default '0'). --o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default ''). --t|threads=i The maximum number of simulataneous velvet instances to run. (default '48'). --g|genomesize=f The approximate size of the genome to be assembled in megabases. Only used in memory use estimation. If not specified, memory use estimation will not occur. If memory use is estimated, the results are shown and then program exits. (default '0'). --k|optFuncKmer=s The optimisation function used for k-mer choice. (default 'n50'). --c|optFuncCov=s The optimisation function used for cov_cutoff optimisation. (default 'Lbp'). --p|prefix=s The prefix for the output filenames, the default is the date and time in the format DD-MM-YYYY-HH-MM_. (default 'auto'). Advanced!: Changing the optimisation function(s) Velvet optimiser assembly optimisation function can be built from the following variables. Lbp = The total number of base pairs in large contigs Lcon = The number of large contigs max = The length of the longest contig n50 = The n50 ncon = The total number of contigs tbp = The total number of basepairs in contigs Examples are: 'Lbp' = Just the total basepairs in contigs longer than 1kb 'n50*Lcon' = The n50 times the number of long contigs. 'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided by the total bases in all contigs plus the log of the number of bases in long contigs.

67 Oases (1) Carrega uma montagem preliminar produzida pelo Velvet e agrupa os contigs em pequenos grupos, chamados loci. Explorando as informações de leituras em pares (paired-ends/mate-pairs) e leituras longas, quando disponíveis, para construir as isoformas transcritas dos genes;

68 Oases (2) Identificação de locus – (Genes) – Scaffolding contigs Identificação de isoformas – (Transcritos) – Scaffoldings alternativos Pontuação confiança para a montagem do transcrito. – Assume que a maioria dos exons (nós) são constitutivos. 1 : montagem trivial; p/n : montagem alternativa; – p = número de contigs (nós) no transcrito; n = número de contigs (nós) no locus.

69 Alternative Splicing events (1) Problemas na montagem ao lidar com eventos de Alternative Splicing

70 Alternative Splicing events (2) Splicing (de-Bruijn) graph [Larcroix, et. al. WABI, 2009]

71 Alternative Splicing events (3) Oases utiliza Algoritmo de Programação Dinâmica para iterativamente encontrar os caminhos com maior peso no grafo de-Bruijn – Busca por Splicing MOTIFs para inferir eventos de splicing: exon skipping (ES), alternate donor (AD), alternate acceptors (AA), intron retention (IR), mutually exclusive exons (MEE), alternative polyadelination site (aPS) – Em fase de testes!!!

72 Oases (3)./oases directory [options] Standard options: -ins_length2 : expected distance between two paired-end reads in the second short- read dataset (default: no read pairing) -ins_length_long : expected distance between two long paired-end reads (default: no read pairing) -ins_length*_sd : est. standard deviation of respective dataset (default: 10% of corresponding length) [replace '*' by nothing, '2' or '_long' as necessary] -unused_reads : export unused reads in UnusedReads.fa file (default: no) -amos_file : export assembly to AMOS file (default: no export) -alignments : export a summary of contig alignment to the reference sequences (default: no) --help : this help message Advanced options: -cov_cutoff : removal of low coverage nodes AFTER tour bus or allow the system to infer it (default: 3) -min_pair_count : minimum number of paired end connections to justify the scaffolding of two long contigs (default: 4) -min_trans_lgth : Minimum length of output transcripts (default: hash-length) -paired_cutoff : minimum ratio allowed between the numbers of observed and estimated connecting read pairs -conserveLong : Preserve contigs mapping onto long sequences to be preserved from coverage cutoff (default: no) Must be part of the open interval ]0,1[ (default: 0.1) -scaffolding : Allow gaps in transcripts (default: yes) -degree_cutoff : Maximum allowed degree on either end of a contig to consider it 'unique' (default: 3)

73 Arquivos de saída Arquivos gerados: – transcripts.fa Sequências consensos dos transcritos (isoformas) identificados – >Locus_n_Transcript_x/y_Confidence_z_Length_L N – >Locus_1_Transcript_1/2_Confidence_1.000_Length_399 – >Locus_1_Transcript_2/2_Confidence_1.000_Length_394 – splicing_events.txt – contig-ordering.txt

74 Hawkeye keye keye Integrado ao AMOS – A Modular, Open-Source whole genome assembler Boas estatísticas de montagem Suporte a somente alguns formatos de arquivos – ACE, AFG, BNK Sistema instável Necessita compilar o pacote AMOS Sem páginas de ajuda

75 Tablet - Next Generation Sequence Assembly Visualization Sistema Estável Interface intuitiva Instalação simples Suporte a vários formatos de arquivos – ACE, AFG, MAQ, SOAP2, SAM and BAM Importa atributos – GFF3 Exportar dados de cobertura por contig (transcrito) – número de profundidade por base do contig – oases_asm.afg.txt Script para sumarizar os dados de cobertura (coveragestats.py) Requer muita memória

76 Exemplos Linhagem celular HCC1954BL – Linfoblastos humanos de uma paciente com Câncer de Mama – (36bp) paired-end sequences (Illumina RNA-Seq) – Velvet/Oases transcritos 31 k-mers -exp_cov 5 -cov_cutoff

77 UCSC Genome Browser (1) Locus_2 – 2 transcritos (2 isoformas idêntificadas) Locus_2_Transcript_1/2_Confidence_1.000_Length_1500 Locus_2_Transcript_2/2_Confidence_1.000_Length_1308 Gene: CD74

78 UCSC Genome Browser (2) Locus_1 – 2 transcritos (2 isoformas idêntificadas) Locus_1_Transcript_1/2_Confidence_1.000_Length_399 Locus_1_Transcript_2/2_Confidence_1.000_Length_394 Gene: RPL36A

79 UCSC Genome Browser (3) Locus_1 – 2 transcritos (2 isoformas idêntificadas) Locus_1_Transcript_1/2_Confidence_1.000_Length_399 Locus_1_Transcript_2/2_Confidence_1.000_Length_394 Gene: RPL36AL

80 Referências Miller JR, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data. Genomics Jun;95(6): Epub 2010 Mar 6. Review. PubMed PMID: ; PubMed Central PMCID: PMC ; Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res May;18(5): Epub 2008 Mar 18. PubMed PMID: ; PubMed Central PMCID: PMC ; Schatz MC, Phillippy AM, Shneiderman B, Salzberg SL. Hawkeye: an interactive visual analytics tool for genome assemblies. Genome Biol. 2007;8(3):R34. PubMed PMID: ; PubMed Central PMCID: PMC ; Kumar S, Blaxter ML. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics Oct 16;11:571. PubMed PMID: ; PubMed Central PMCID: PMC ; Milne I, Bayer M, Cardle L, Shaw P, Stephen G, Wright F, Marshall D. Tablet--next generation sequence assembly visualization. Bioinformatics Feb 1;26(3): Epub 2009 Dec 4. PubMed PMID: ; PubMed Central PMCID: PMC ; https://banana-slug.soe.ucsc.edu

81 CONSIDERAÇÕES FINAIS Conclusão

82 Há uma diferenças enormes entre abordagens, funcionalidades e eficiência entre os diferentes algoritmos e implementações para as tarefas de alinhamento de sequências e montagem; As diferentes abordagens refletem diretamente no processamento e especialmente no resultado das análises; Portanto é necessário conhecer os princípios de cada abordagem, reconhecer os parâmetros e os resultados, para podermos utilizá-los da melhor forma possível. – Promover a utilização racional dos programas disponíveis!!!

83 Daniel Guariz Pinheiro


Carregar ppt "Montagem de Sequências de Transcritos Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade."

Apresentações semelhantes


Anúncios Google