Montagem de Sequências de Transcritos

Montagem de Sequências de Transcritos
Daniel Guariz Pinheiro, PhD. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo

Planejamento Introdução Prática Montagem de Sequências
Algoritmos para Montagem de Sequências Softwares para Montagem de Sequências de Transcritos Newbler Velvet Prática

Por quê sequenciar o transcritoma?
Mantém o foco da pesquisa nas regiões gênicas do genoma; Acelera o processo de anotação genômica; Descoberta de novos genes e modelos gênicos; Visão geral da atividade gênica celular em determinado momento; Obtenção da expressão gênica relativa para diferentes células sob diferentes condições; Pode auxiliar na identificação de eventos de processamento alternativo de transcritos (e.g. Alternative Splicing) em tecidos ou condições biológicas específicas; Detecção de mutações pontuais e/ou estruturais, tais como fusão de genes; Transcriptome sequencing • Accelerating gene discovery and gene family expansion • Accelerating genome annotation – identifying novel genes and gene models • Identification of tissue/condition specific alternative splicing events • Identification of transcript fusion events • Building physical and genetic map (SNP and SSR marker identification – facilitating breeding) • Gene expression and allele-specific analysis

Montagem de sequências de transcritos
Introdução Montagem de sequências de transcritos

Montagem Definição É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original; leituras (reads) => contigs => scaffolds A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs); A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado; scaffolds definem a ordem dos contigs e orientação e o tamanho do gap entre contigs. Restrições para uma montagem correta sequências com sobreposição devem ter concordância (exceções: polimorfismo, poliploidia, mix de amostras [ex.:organismos non-clonal e out-bred]); distância entre as leituras pareadas devem ser consistentes com o tamanho dos fragmentos gerados; leituras pareadas dever estar na correta orientação (exceções: fragmentos quiméricos de DNA, métodos de pareamento alternativos (bibliotecas de transposons)) a distribuição das leituras ao longo da montagem deve ser consistente com o processo aleatório de obtenção das leituras, representado como um processo de Poison (exceções: viés na clonagem ou sequenciamento). Todas as leituras devem ser consistentes com a montagem resultante, cada leitura deve perfeitamente alinhar com ao menos uma localização no genoma reconstruído (exceções: erros no sequenciamento, presença de vetor e presença de contaminates).

Conceitos Básicos (1) contig – alinhamento múltiplo de leituras de onde é extraída uma sequência consenso; unitig – contig formado pela sobreposição de sequências únicas das leituras, ou seja, sem ambiguidades; scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs; singlets – leituras não agrupadas em um contig; gap – espaço entre dois contigs, onde não se conhece a sequência; Gap

Conceitos Básicos (2) Cobertura (coverage)
Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da região de interesse (genoma) [G] ((N*L)/G) Ex: Genoma de 1Mbp (G) 5 milhões de reads (N) de 50bp (L) Cobertura = ( * 50) / = 25X Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada; Profundidade (depth of coverage) Requisitos para o sequenciamento de genomas: Sanger: C. Venter (3Gb ~7.5x) [Levy et al., 2007] Roche 454: J. Watson (3Gb ~7.4x) [Wheeler et al., 2008] Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) [Li et al., 2010] Redundância no sequenciamento.

Modelo Lander-Waterman
Estimar parâmetros (número esperado de contigs, tamanho dos contigs) (Lander e Waterman, 1988) L = tamanho das leituras T = mínimo de sobrepsição entre leituras G = tamanho do genoma (pool de transcritos) N = número de leituras c = cobertura (NL / G) σ = 1 –T/L E(#contigs) = Ne-cσ E(tamanho do contig) = L((ecσ–1)/c+1–σ) Genoma 1Mb coverage 10x ~5 contigs Simulação para estimar parâmetros Problemas com repetições Sharon et al RECOMB adaptações do modelo para metagenomas * quanto maior a cobertura menos contigs são produzidos porém maiores; Modelo Lander-Waterman aplicado para estimar a cobertura no transcriptoma de arroz [Zhang et al., 2010]

Montagem “de novo” Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas. A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem. Montagem de novo de dados de Next-Generation Sequencing (NGS) tamanho das leituras (menos informação por leitura) necessidade de maior cobertura – aumento da complexidade; grande volume de dados necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);

Cobertura – nova geração de sequenciadores
Tamanho esperado de contigs Panda e Cachorro genoma de ~2.4Gb [Schatz et al., 2010]

Avaliação da Montagem Montagens bem sucedidas:
Montagens são medidas pelo tamanho e precisão dos contigs e scaffolds; Tamanhos das sequências obtidas: tamanho máximo; tamanho médio; tamanho total combinado; N50 (tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem) – contiguity; Valores muito altos podem representar erros na montagem e valores muito pequenos podem representar montagem incompleta; Precisão dos contigs Medidas de satisfação e violações de restrições de montagem (Phillippy et al., 2008); e.g. sequências sobrepostas no contig devem ter concordância entre si; Se a referência existe é útil e pode ser utilizada para a comparação; Comparações com proteomas de espécies próximas também podem ser úteis para avaliação da montagem (Papanicolaou, et al. 2009);

N50 https://www.broad.harvard.edu/crd/wiki/index.php/N50
N50 - representação do tamanho médio (mediana ponderada) de um conjunto de sequências; Dado um conjunto de sequências de tamanhos variáveis; N50 = tamanho N onde estão 50% das bases da montagem estão em sequências de tamanho l < N; L = {2,2,2,3,3,4,8,8} tamanho combinado 32 L’ = {2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8} 6 x (2); 6 x (3); 4 x (4); 16 x (8) N50(L) = mediana(L’) = 6 50% < N50(L) = 6

Desafios (1) Contaminates nas amostras (e.g. Bacteria)
Ribosomal RNA (pequenas e grandes sub-unidades) Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações) Erros de sequenciamento e.g. Roche erros de homopolímeros (3 ou mais bases consecutivas); Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA); Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil); Necessidade de “spanners” – leituras que atravessam uma região de repetição e que possuem suficientes regiões únicas em ambos os lados; Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação, estando um dos pares ancorado em uma região única;

Desafios (2) Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação; Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura); Processamento alternativo do RNA e.g. Alternative splicing Genes parálogos A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

Problemas recorrentes causados por repetições

“k-mers” Subsequências de tamanho k
Em uma sequência de tamanho (L) há (L-k+1) k-mers; Exemplo: sequência de tamanho L=8 tem 5 k-mers com k=4 ACGTACGA ACGT CGTA GTAC TACG ACGA

k-mers Uniqueness ratio
k-mers – sequências de tamanho k k-mers uniqueness ratio – número de k-mers distintas que ocorrem uma única vez no genoma número total de k-mers distintas que ocorrem no genoma Trichomonas vaginalis Trichomonas vaginalis - parasita eucariota flagelado anaérobio facultativo [Schatz et al., 2010]

Algoritmos para montagem de sequências
Introdução Algoritmos para montagem de sequências

Algoritmos para montagem
Três categorias (baseadas em grafos) Overlap/Layout/Consensus (OLC) grafo de sobreposições; de Bruijn Graphs (DBG) grafo de sobreposição de sufixo-prefixo de k-mers; Greedy graphs estrutura implícita de grafos de sobreposições;

Grafo Grafo é uma estrutura G(V, A) onde V é um conjunto não vazio de objetos denominados nós ou vértices (nodes/vertices) e A é um conjunto de pares não ordenados de V, chamado arestas ou arcos (edges/arcs). Grafo é uma abstração para a representação de um problema real. Nós (vértices): V = {U, V, W, X, Y, Z} Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j} Representação simplificada de um grafo qualquer

Overlap-Layout-Consensus (OLC)
Três passos: 1º detecção de sobreposição; Alinhamento pareado entre todas as leituras – identificação dos pares com melhor match (alinhamento global + heurísticas [e.g. seed & extend]); 2º layout dos fragmentos (montagem do contig); Construção e manipulação do grafo de sobreposição (Analisar/Simplificar/Limpar); Caminho Hamiltoniano; 3º decisão da sequência (montagem do consenso); Alinhamento Múltiplo de Sequências – normalmente baseado na pontuação dos pares com sobreposição (sum-of-pairs ou SP); Realiza ajustes no layout se necessário; Normalmente a frequência de um nucleotídeo em determinada posição determina a base consenso; A maioria dos softwares utilizam heurísticas para chegar a uma solução ótima local, para uma solução ótima global é necessário o uso de programação dinâmica, generalizando o conceito de programação dinâmica para n dimensões. Viável apenas para no máximo 3 dimensões. Grafo de sobreposição: nós - leituras; arestas - sobreposições; Caminho Hamiltoniano – caminho que permite passar uma única vez por todos os nós do grafo (contig) – caminho elementar; sobreposições não consideradas – ?caminhos alternativos?

Softwares montadores (OLC)
Utilizam o paradigma OLC: Phrap ( genomas Sanger, 454 (Green, P., unpublished) CAP3 ( genomas, cDNAs (Huang, X. and Madan, A., 1999) MIRA ( Sanger, 454, Solexa (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004) Newbler ( Software Proprietário da Roche

Greedy Graphs Operação básica: dada alguma leitura ou contig, adiciona uma ou mais leituras ou contigs (mais similares uns aos outros) de forma progressiva até que não haja mais operações possíveis; Estrutura implícita de grafo, em que somente são consideradas as arestas com alto score; Deve ter mecanismos para lidar com sobreposições falsas. Sobreposições de regiões repetitivas podem ter score alto e levar a erros na montagem. I reads 1 e 2 (score 200) II reads 3 e 4 (score 150) III - reads 2 e 3 (score 50)

Softwares montadores (Greedy)
Baseados em grafos do tipo Greedy: SSAKE ( genomas Solexa (Warren, R.L. et al., 2007) SHARCGS ( (Dohm, J.C. et al., 2007) VCAKE ( (Jeck, W.R. et al., 2007)

grafos de-Bruijn Grafos k-mer
nós – todas as subsequências de tamanho k; arestas – todas as sobreposições (k-1 bases) entre essas subsequências que são consecutivas na sequência original; Pode representar as múltiplas sequências das leituras e implicitamente as sopreposições; aaccgg (k-mer 4): aacc accg ccgg ccggtt (k-mer 4): cggt ggtt [Miller, et al. 2009] Grafo de de-Bruijn: nó – subsequência (k-mer); arestas – sobreposições; Caminho Euleriano – caminho que atravessa cada aresta uma única vez (contig) – caminho simples;

Características dos grafos k-mers
Em geral A montagem é um problema de redução de grafos. NP-difíceis, não há uma solução eficiente conhecida; Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar caminhos simples e simplificar o grafo; Vantagens Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos NGS; Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à busca de sobreposições em alinhamentos pareados; Não necessita comparações pareadas (todas x todas); Desvantagens Usam muita memória (tabela hash k-mers); Mais sensível a repetições e a erros de sequenciamento; baixa sensibilidade (perde algumas sobreposições verdadeiras), dependendo do: tamanho de k tamanho da sobreposição taxa de erro nas leituras Tamanho de k (não pode ser nem muito grande, nem muito pequeno): - grande o suficiente para não pegar falsas sobreposições que compartilham k-mers por acaso; - pequena suficiente para que muitas sobreposições verdadeiras compartilhem k-mers; Mais sensível a repetições e a erros de sequenciamento; cada erro de única base induz a k falsos nós no grafo; sendo que cada falso nó tem uma chance de match com algum outro nó, induzindo a problemas na convergência do caminho que determina o contig e a sequência consenso; convergência no grafo de sobreposição é uma read menor que a repetição e no grafo de bruijn a convergência é quando há repetições de tamanho k ou maiores; redução de grafos – redução da complexidade do grafo;

Tamanho de k Tamanho de k :não pode ser nem muito grande, nem muito pequeno: grande o suficiente para não pegar falsas sobreposições que compartilham k-mers por acaso; pequeno o suficiente para que muitas sobreposições verdadeiras compartilhem k-mers;

Características dos grafos de-Bruijn
O DNA é fita dupla, portanto a que se ter um mecanismo para identificar a correta orientação; e.g. único nó (subsequência) com dois canais de entrada/saída – forward/reverse; Repetições complexas (repetições em tandem, repetições invertidas, repetições imperfeitas, repetições inseridas em outras repetições). Repetições maiores ou iguais a k levam a grafos complicados, que não contêm por si só informações suficientes para resolver a ambiguidade; e.g. recorrer às sequências originais e possivelmente a fragmentos mate-pairs/paired-ends; Sequências palíndromes (idêntica à reversa complementar) induz a caminhos que retornam a si (k=4; ACGT = ACGT); e.g. utilização de um k ímpar (k=5; ACGTA ≠ TACGT) evita esse tipo de ocorrência; Erros de sequenciamento; e.g. pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros;

Complexidades em k-mers
“tips” Ramificações – caminhos sem-saídas divergentes; Induzidos por erros no sequenciamento nas extremidades das leituras; Bolhas – caminhos que divergem e depois convergem; Induzidos por erros no sequenciamento no meio das leituras; Corda esfiapada – caminhos que convergem e divergem; Induzidos por repetições; Ciclos – caminhos que convergem neles mesmos; Induzidos por repetições (e.g. repetições em tandem – pequenos ciclos); tips – baixa cobertura são removidos [Miller, J.R., et al., 2010]

Exemplo AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG

Exemplo Grafo completo GATT (1x)‏ TGAG (9x)‏ ATGA (8x)‏ GATG (5x)‏
CGAT (6x)‏ CCGA (7x)‏ TCCG (7x)‏ ATCC (7x)‏ GATC (8x)‏ AGAT (8x)‏ AGAA (1x)‏ GCTC (2x)‏ CTCT (1x)‏ TCTA (2x)‏ CTAG (2x)‏ TAGT (3x)‏ AGTC (7x)‏ GTCG (9x)‏ TCGA (10x)‏ CGAG (8x)‏ GAGG (16x)‏ AGGC (16x)‏ GGCT (11x)‏ TAGA (16x)‏ AGAG (9x)‏ GAGA (12x)‏ AGAC (9x)‏ GACA (8x)‏ ACAG (5x)‏ GCTT (8x)‏ CTTT (8x)‏ TTTA (8x)‏ TTAG (12x)‏ CGAC (1x)‏ GACG (1x)‏ ACGC (1x)‏

Exemplo Após simplificação... GATT AGAT GATCCGATGAG AGAA GCTCTAG
TAGTCGA CGAG GAGGCT TAGA AGAGA AGACAG GCTTTAG CGACGC

Exemplo Após remoção de tips... AGAT GATCCGATGAG GCTCTAG TAGTCGA CGAG
TAGA AGAGA AGACAG GCTTTAG

Exemplo Após remoção de bolhas Velvet (Tour bus)
breadth-first traversal prioridade ao que tem maior cobertura (multiplicidade no vértice) AGAT GATCCGATGAG TAGTCGA CGAG GAGGCT GCTTTAG TAGA AGAGA AGACAG

Exemplo Simplificação final AGATCCGATGAG TAGTCGAG GAGGCTTTAGA AGAGACAG

Softwares montadores (de-Bruijn)
Baseados em grafos de de-Bruijn: VELVET /Oases ( genomas, cDNAs Solexa, SOLiD (Zerbino, D.R. e Birney E., 2008) ABySS/Trans-ABySS ( genomas, cDNAs (Simpson, J.T, et al., 2009) (Birol, I., et. al., 2009)

ferramentas para montagem de transcritos
Introdução ferramentas para montagem de transcritos

Softwares Newbler

Instalação (Newbler) Registro para requisição de software Download
Download DataAnalysis_2.5.3_101207_1209.tgz Descompactar tar -zxvf /origin/of/software/DataAnalysis_2.5.3_101207_1209.tgz -C /destiny/path/ Ir para o diretório destino cd /destiny/path/DataAnalysis_2.5.3/ Executar setup.sh ./setup.sh

Funcionamento Alinhamentos pareados entre as leituras (seed & extend);
Constrói Alinhamentos múltiplos de leituras com sobreposição e identifica regiões de com diferenças consistentes entre os conjuntos de leituras e as divide em contigs (unitigs); Montagem “contigs” (unitigs) e criação do grafo de contigs, baseado no alinhamento das leituras que formam os contigs; Resolução de estruturas de ramificação no grafo; Extensão dos “contigs” é realizada por meio da visita a cada um dos nós do grafo; Montagem da sequência consenso usando a informação da qualidade/sinal para cada base nos alinhamentos múltiplos; Se há dados disponíveis de sequências paired-end inclui uma etapa adicional: Organização dos contigs em scaffolds, usando a informação dos pares e da distância aproximada dos pares entre os contigs. nós – leituras alinhadas de forma contígua (contigs) arestas – leituras que alinham parte em um contig e parte em outro

Exemplo (1) Identificar as sobreposições entre as leituras;
seed & extend; Identificação de unitigs (A,B,C e Repeat); (2) Construção do grafo de sobreposições; (3) Percorrendo o grafo para obter a sequência consenso; 2 1 3

Princípios básicos Newbler
Definições (-cdna): contig: Conjunto de leituras com regiões de sobreposição não contestáveis (“unitigs”) e com diferenças consistentes entre os demais conjuntos de leituras. Um contig pode representar um exon ou parte dele. isogroup: É uma coleção de contigs que contêm leituras que os conectam, podendo representar os contigs de um mesmo locus (gene). isotig: Caminhos alternativos no grafo de contigs dentro de um isogroup. Um isotig pode representar um transcrito individual, ou seja, uma isoforma do gene.

isotigs Conexões entre contigs em um isogroup representados por sequências (leituras) com alinhamentos divergindo de forma consistente em dois ou mais diferentes contigs ou por avaliação de profundidade “depth spike”. “depth spike” Obs: cauda poly(A) - é ignorada portanto não é possível determinar a correta de orientação do transcrito. isotig a partir de um único contig

Chamada básica do Montador
runAssembly [parâmetros] seqs.fasta Procura pelo arquivo seqs.fasta.qual no mesmo diretório Cria o seguinte diretório (por padrão): P_yyyy_mm_dd_hh_min_sec_runAssembly P_ = Projeto, seguido de data e hora

Parâmetros mais comuns (1)
-cdna montagem em projetos transcritomas (cDNA); -urt “use read tips” (extremidades das leituras) para produzir isotigs mais longos a partir de únicas leituras; -o output_directory informar o diretório onde serão armazenados os resultados; -force força o reinicio da montagem, caso o diretório informado para os resultados já exista; -vt trimmingFile.fasta informar um arquivo fasta com as sequências de vetores, primers ou adaptadores , que devem ser excluídas das extremidades das leituras; -vs screeningFile.fasta informar um arquivo fasta com as sequências cujas regiões devem ser mascaradas nas leituras; (-vs and -vt also match reverse-complements of given sequences.)

Parâmetros mais comuns (2)
-a num tamanho mínimo para o contig em 454AllContigs (default 100) – obs.: 0 se -cdna; -l num tamanho mínimo para o contig em 454LargeContigs/454Isotigs (default=500); -m mantém os dados de sequências na memória para aumentar a velocidade (necessita de RAM); -cpu num número de processadores para uso (default=1); -minlen num tamanho mínimo de leituras para serem usadas na montagem; -het habilita o modo para considerar heterogizidade (e.g., organismos diplóides). Esperar uma maior variabilidade.

Outros Parâmetros (1) -cdna options -ig -it -icc -icl
Isogroup Threshold (número máximo de contigs em um isogroup). Não serão formados isotigs e aparecerão como contigs nos arquivos de saída (default: 500 contigs); -it Isotig Threshold (número máximo de isotigs em um isogroup). O processo de percorrer o grafo para e aparecerão como contigs nos arquivos de saída (default: 100 isotigs); -icc Isotig Contig Count Threshold (número máximo de contigs em um isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 100 contigs); -icl Isotig Contig Length Threshold (tamanho mínimo de um contig para o isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 3 bp);

Outros parâmetros (2) -notrim -p -ud -ss -sl -sc -ml -mi
desabilitar trimagem default de qualidade e primer; -p especificar que as leituras são paired-ends, caso contrário será detectada automaticamente; -ud trata leituras separadamente, não agrupamento de duplicatas; -ss especificar seed step parameter (default: 12); -sl especificar seed length parameter (default: 16); -sc especificar seed count parameter (default 1); -ml especificar tamanho mínimo da sobreposição (default: 40); -mi especificar a identidade mínima da sobreposição (default: 90); Página 89 manual === SEED answer === I'm not an expert on assembly, but i'll try to help. When doing a overlap analysis you want to know some parameters about how good your overlap is. Is it nice and uniform, or does it have parts only represented by 2 or 3 seeds and parts covered by 100 seeds. But that's only coverage, a bit to much of a simplification of the assembly quality. 30 time coverage with 500-mers is not the same as 30 time coverage with 8-mers. Which is where these 2 parameters come in. Seed step is the distance between the start of one overlapping segment with the next. Say you find sequence #1 (a 12-mer for example) starting at base number 1 and you find sequence #2 (also a 12-mer) starting at base number 6, then your seed step would be 5. The distribution of seed step gives you a idea of how uniformly that part of you assembly is represented by actual reads. Ideally you would have a new read start at each new base for the best alignment quality. Seed length is the k-mer length you are using. If your assembly would consist of uniform reads, all of the same length, your seed length wouldn't vary across your assembly. But reporting the seed length gives you an idea of the quality of the reads used in that part of your assembly. For instance, if part of your assembly is made up of seeds which are way smaller then a part of your assembly which is just as well covered but by seeds with a much greater length, you can say that the quality of your assembly is better at the site with larger seed length. That's because the quality of your reads is usually better in longer reads, or else they would have been trimmed. But the power of these parameters I think is in there combination. Having large seed steps is okay as long as your k-mer length is also large. If your k-mers are small you want small seed steps, or otherwise the total alignment quality is lower. I hope my rambling was useful. Cheers

Manual Roche Assembly manual (Part C)

Arquivos de saída (1) Arquivos de sequências e qualidades Contigs
454AllContigs.fna >contig length=542 numreads=16 gene=isogroup status=isotig >contig length=2 numreads=43 gene=isogroup status=it_thresh 454AllContigs.qual Isotigs 454Isotigs.fna >contig gene=isogroup length=3413 >isotig gene=isogroup length=2675 numContigs=10 454Isotigs.qual 454Isotigs.faa (ORFs traduzidas) >contig >contig lower case bases correspond to quality values below 40. Alinhamentos de ORFs • Isotig name (as it appears in all other output files) • Isotig nucleotide start position (1-based, inclusive) • Isotig nucleotide end position (1-based, inclusive) • ORF frame {-3, -2, -1, +1, +2, +3} • Nucleotide sequence length (including stop codon, if present in the sequence) • Protein sequence length (excluding stop codon, if present in the sequence) • Number of M (Methionine) codons name/start/end/frame/nucleotide length/protein length/number of methionines

Arquivos de saída (2) Arquivos extras Alinhamentos de ORFs
454IsotigOrfAlign.txt contig GGCGGGCAGTAAATATCATCATTGAGAATGCCCTCTTTCACTTGCAGAAAGAACAGGCGCTGAGTGATGTCCTGAATCAA 2960 -1: * P..P..C..Y..I..D..D..N..L..I..G..E..K..V..Q..L..F..F..L..R..Q..T..I..D..Q..I..L 93 -2: L..R..A..T..F..I..M..M +3: R..A..V..N..I..I..I..E..N..A..L..F..H..L..Q..K..E..Q..A..L..S..D..V..L..N..Q ACE (Como as leituras foram alinhadas para a formação dos Isotigs - visualização Tablet) 454Isotigs.ace Estatísticas (Estatísticas da montagem, e.g. número de leituras e bases alinhadas, sobreposições, tamanho médio dos contigs, etc.) 454NewblerMetrics.txt Progresso de execução 454NewblerProgress.txt 454Contigs.ace (-noace/-consed) = ACE format file, showing how reads were aligned to form contigs, viewable in eg. Tablet, EagleView, or Consed Unlike traditional ace files, here the same read can be in several contigs (but is given an extra suffix), if one contig is in a repeat region and the next is contig is a non-repeat region, and the read spans the junction. numberSearches = ; = número de buscas seedHitsFound = , ; número de seeds, número de seeds / número de buscas overlapsFound = , , 16.62%; número de overlaps encontrados, número de overlaps encontrados/ número de buscas, porcentagem em relação ao número de buscas anterior overlapsReported = , , 89.28%; número de overlaps reportados, número de overlaps reportados/ número de buscas, porcentagem em relação ao número de buscas anterior overlapsUsed = , 4.78, 4.24%; número de overlaps utilizados, número de overlaps utilizados/ número de buscas, porcentagem em relação ao número de buscas anterior === Em relação a sinal, quantidade de bases por exemplo (há que cofirmar!): : sinal 3 AAA :sinal 2.66 AA : sinal 2 TT : sinal 1 G : sinal 0 * /* ** Consensus distribution information. */ consensusDistribution { fullDistribution signalBin = 0.0, ; signalBin = 0.1, 2; signalBin = 0.3, 2; signalBin = 0.4, 2; signalBin = 0.5, 10; ...

Arquivos de saída (3) Leituras
Status de cada leitura no alinhamento ( alinhamento 3’ e 5’ no contig); 454ReadStatus.txt Accno Read Status 5' Contig 5' Position 5' Strand 3' Contig 3' Position 3' Strand F62E2P401D47TD Singleton F62E2P401ALCTK Outlier F62E2P401CVVLA TooShort F62E2P401ANAAD Repeat F62E2P401CE0XB PartiallyAssembled contig contig F62E2P401EC2X1 Assembled contig contig F62E2P401C259U Assembled contig contig Pontos de trimagem originais e revisados das leituras para a montagem 454TrimStatus.txt Accno Trimpoints Used Used Trimmed Length Orig Trimpoints Orig Trimmed Length Raw Length F62E2P401BCQ2E F62E2P401BGGG F62E2P401ATLP F62E2P401BJE8M Assembled – Utilizada integralmente na montagem e coordenadas; Too Short – Muito pequena; Repeat – Identificada como repetitiva; Outlier – Leitura problemática (e.g. quimera); PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem e coordenadas; F62E2P401EC2X1 – inicia na base 48 contig02209 e termina na base 322 do contig02209 (a leitura na forma complementar-reversa está integralmente dentro do contig02209) F62E2P401C259U – inicia na base 21 contig00119 e termina na base 38 do contig00129 (leitura atravessa dois contigs) Outlier – Leitura problemática (quimera) PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem inicia na base 1 do contig 119 e termina na base 60 do contig 119 F62E2P401C4UQA Assembled contig contig inicia na base 27 do contig 119 e termina na base 476 do contig 119 de forma complementar reversa F62E2P401CK9X5 Assembled contig contig Trimpoints Orig – pontos de trimagem originais (presentes no sff ou fasta) Trimpoins Used – trimagem realizada pelo montador

Arquivos de saída (4) Montagem
Informações relacionadas à sequência consenso, qualidade, profundidade (sequências únicas, ou seja, não ambíguas), profundidade (sequências únicas alinhadas – iguais ao consenso), sinal e desvio padrão em cada posição do contig (somente SFF); 454AlignmentInfo.tsv Position Consensus Quality Score Unique Depth Align Depth Signal StdDeviation >isotig C A G G A G 454AlignmentInfo.tsv se derivada de arquivo .fasta não tem StdDeviation e Signal é um número inteiro

Arquivos de saída (5) Grafos
Estrutura de conexão entre contigs [3 seções – Nós (1) /Arestas (2)(3)]; 454ContigGraph.txt (1) ContigNum ContigName Length Average_depth ... contig contig contig (2) Edge FromContigNum FromEnd ToContigNum ToEnd AlignmentReadDepth C ' ' C ' ' S :+;32:+;33:+ S :+;33:+ S :+ (3) Edge ContigNum Sequence Thru-FlowInformation I TGTTCGGTGTTCTCCGCCTCGGGCTGTCACAAATCGTGCTGCTGTGAGCCACTGCGTGCAGGTCTCAT 2:2-3'..3-5';1:6-3'..3-5' Layout dos Isotigs 454IsotigsLayout.txt >isogroup numIsotigs=3 numContigs=3 Length : (bp) Contig : Total: isotig00022 >>>>> >>>>> >>>>> 2592 isotig >>>>> >>>>> 2580 isotig >>>>> 947 “I” short contig seq. acima inicia antes do contig4 e termina depois = dois fluxos de informação separados por ; qtd de sequências:contig_anterior-extremidade..contig_posterior-extremidade “P” paired-ends – como as sequências em pares atravessam contigs e permitem scaffolds “F” read-flow – como as sequências simples atravessam contigs e permitem

Exemplos Pool de 2 amostras de culturas de melanócitos de epiderme humana normal cDNA sequences (454 GS FLX) Newbler v2.5.3 9.681 Isotigs / “Isoformas de transcritos” -cdna parâmetros default

UCSC Genome Browser (1) isogroup00003 isotig00001 Gene: DNAJC1

Softwares velvet

Compilação (Velvet/Oases)
Makefile Compilar Velvet make ’OPENMP=1’ ’CATEGORIES=3’ ’MAXKMERLENGTH=75’ Compilar Oases make ’VELVET_DIR=/path/to/velvet/’ Variável ambiente $PATH bash export PATH=“${PATH}:/path/to/velvet/:/path/to/oases/” Outline Methods & Concepts Assembling short reads Newbler Velvet Documentation More Velvet tricks. . . I The “auto“ option: velvetg <dir> -cov_cutoff auto -exp_cov auto ... I Using two PE libraries: velveth <dir> 25 -fastq -shortPaired <file1> -shortPaired2 velvetg <dir> -ins_length 200 -ins_length I Compilation option: make ’CATEGORIES=3’ ’MAXKMERLENGTH=75’ I Remove genome “parasites”: plasmids, mitochondrial and chloroplastic genomes velvetg <dir> -max_coverage I Adding long reads or contigs to the assembly velveth <dir> 25 -fasta -log <fasta file> ...

Etapas de montagem com grafos de-Bruijn

Construção da tabela hash
velveth Criação de uma tabela hash a partir de um conjunto de sequências de leituras, computando sobreposições entre k-mers. São gerados 2 arquivos (Sequences e Roadmaps) necessários para a construção do grafo de-Bruijn pelo programa seguinte: velvetg; Sequences: sequências indexadas; Roadmaps: representação doas sobreposições entre os k-mers; ./velveth output_directory hash_length [[-file_format][-read_type] filename] Principais parâmetros hash_length é o tamanho dos k-mers em bp. Quanto menor o k mais lento!!! read_type pode ser: -short / -shortPaired -short2 / -shortPaired2 -long / -longPaired file_format pode ser: -fasta (default) -fastq ... -strand_specific => protocolo de sequenciamento strand específico filename pode ser uma lista de arquivos separados por espaço

Construção do Grafo de-Bruijn (1)
velvetg Construção e manipulação do grafo de-Bruijn, correção de erros e resolução de repetições. Arquivos gerados: contigs.fa - sequências consensos (gaps dentro contigs = N’s); PreGraph - grafo intermediário 0; Graph - grafo intermediário 1; Graph2 - grafo intermediário 2; LastGraph - descrição plena do grafo de-Bruijn produzido; Log - descrição das ações executadas; stats.txt - números relativos à montagem; UnusedReads.fa - sequências não utilizadas na montagem; velvet_asm.afg - formato compatível com AMOS; ./velvetg output_directory [options]

Construção do grafo de-Bruijn (2)
Simplificação do grafo unificação de nós em cadeia Remoção de erros remoção de “tips” – cadeia de nós desconectada no fim; remoção de “bubbles” – dois caminhos redundantes que iniciam e terminam nos mesmos nós (Algoritmo Tour Bus); remoção de conexões errôneas – remoção de nós e arcos de baixa cobertura (erro sequenciamento);

Construção do Grafo de-Bruijn (3)
Principais parâmetros -cov_cutoff <floating-point|auto> : remoção de nós/arcos baixa cobertura (sem remoção) -ins_length <integer> : distância esperada entre pares (sem pareamento|auto) -read_trkg <yes|no> : tracking of posições das leituras na montagem (no) -min_contig_lgth <integer> : tamanho mínimo para o consenso (k*2) -amos_file <yes|no> : exportar montagem arquivo AMOS (no) -exp_cov <floating point|auto> : estimativa da cobertura esperada para regiões únicas, é usado na resolução de repetições (sem leituras longas ou em pares) -long_cov_cutoff <floating-point> : remoção de nós com baixa cobertura de leituras longas (sem remoção) -unused_reads <yes|no> : exportar leituras não aproveitadas em UnusedReads.fa (no) -exportFiltered <yes|no> : exportar nós que foram eliminados pelo filtro de cobertura (no) -shortMatePaired* <yes|no> : indica que a entrada é uma biblioteca mate- pair (no) I Remove genome “parasites”: plasmids, mitochondrial and chloroplastic genomes velvetg <dir> -max_coverage

Estatísticas Arquivo tabular ID identificador do contig
lgth tamanho em k-mers out número de arcos 3’ in número de arcos 5’ long_cov cobertura em k-mers (long) short1_cov cobertura em k-mers (short1) short1_Ocov cobertura em k-mers – mapeamento perfeito (short1) short2_cov cobertura em k-mers (short2) short2_Ocov cobertura em k-mers - mapeamento perfeito (short2) long_nb número de reads (long) short1_nb número de reads (short1) short2_nb número de reads (short2)

Cobertura k-mers Tamanho k-mers: Quantas vezes uma subsequência de tamanho k é observada; Tamanho k-mers (Lk) e tamanho nucleotídeos (LN) Lk= LN-(k-1) = LN-k+1 LN = Lk+(k-1) = Lk+k-1 e.g. ACGTGAAG (LN = 8) k = 3 ACG / CGT / GTG / TGA / GAA / AAG (6) Lk = = 6 Cobertura k-mers (Ck) e cobertura nucleotídeos (CN) Ck = CN * (LN–k+1)/LN CN = (LN * CK)/(LN-k+1) uma única sequencia do par pode ser utilizada e a outra não! Sk = k-mers length nb = number of reads C = (L*nb)/Sk

VelvetOptimiser Encontrar os “melhores” parâmetros (k-mer e cov_cutoff) VelvetOptimiser.pl [options] -f 'velveth input line‘ --help This help. --v|verbose+ Verbose logging, includes all velvet output in the logfile. (default '0'). --s|hashs=i The starting (lower) hash value (default '19'). --e|hashe=i The end (higher) hash value (default '31'). --f|velvethfiles=s The file section of the velveth command line. (default '0'). --a|amosfile! Turn on velvet's read tracking and amos file output. (default '0'). --o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default ''). --t|threads=i The maximum number of simulataneous velvet instances to run. (default '48'). --g|genomesize=f The approximate size of the genome to be assembled in megabases. Only used in memory use estimation. If not specified, memory use estimation will not occur. If memory use is estimated, the results are shown and then program exits. (default '0'). --k|optFuncKmer=s The optimisation function used for k-mer choice. (default 'n50'). --c|optFuncCov=s The optimisation function used for cov_cutoff optimisation. (default 'Lbp'). --p|prefix=s The prefix for the output filenames, the default is the date and time in the format DD-MM-YYYY-HH-MM_. (default 'auto'). Advanced!: Changing the optimisation function(s) Velvet optimiser assembly optimisation function can be built from the following variables. Lbp = The total number of base pairs in large contigs Lcon = The number of large contigs max = The length of the longest contig n50 = The n50 ncon = The total number of contigs tbp = The total number of basepairs in contigs Examples are: 'Lbp' = Just the total basepairs in contigs longer than 1kb 'n50*Lcon' = The n50 times the number of long contigs. 'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided by the total bases in all contigs plus the log of the number of bases in long contigs.

Oases (1) Carrega uma montagem preliminar produzida pelo Velvet e agrupa os contigs em pequenos grupos, chamados loci . Explorando as informações de leituras em pares (paired-ends/mate-pairs) e leituras longas, quando disponíveis, para construir as isoformas transcritas dos genes; Quando não é possível utilizar leituras longas ou em pares, utiliza as conexões possível considerando as sequências curtas. MOTIFs – regiões conservadas entre muitas espécies e que possuem um padrão de aminoácios ou nucleotídeos (neste caso – splicing motifs - nucleotídeos) que possuem um papel biológico específico (neste caso – splicing motifs – reconhecimento pela maquinaria de splicing) 1) If you don't have the paired-end read and long read information available, how Oases links the contigs obtained with Velvet? The short reads still provide some local connection information. 2) How the Alternative Splicing events is discovered? This has revealed itself to be quite unreliable. The idea was to do motif searching on the graph, but once again, it is not quite so great as we hoped. 3) How we can obtain the gene expression value for each contig/gene? The contig-ordering graph gives you a transcript -> contig mapping, and the stats file a contig -> coverage mapping. 4) How the confidence score, and what is the criteria for high/low confidence? The confidence is 1 for trivial assemblies and p/n for greedy searches, where p is the number of contigs in the transcript and n the number of contigs in the locus. Regards, Daniel

Oases (2) Identificação de locus Identificação de isoformas
(Genes) Scaffolding contigs Identificação de isoformas (Transcritos) Scaffoldings alternativos Pontuação confiança para a montagem do transcrito. Assume que a maioria dos exons (nós) são constitutivos. 1 : montagem trivial; p/n : montagem alternativa; p = número de contigs (nós) no transcrito; n = número de contigs (nós) no locus.

Alternative Splicing events (1)
Problemas na montagem ao lidar com eventos de “Alternative Splicing”

Splicing (de-Bruijn) graph [Larcroix, et. al. WABI, 2009]

Oases utiliza Algoritmo de Programação Dinâmica para iterativamente encontrar os caminhos com maior peso no grafo de-Bruijn Busca por Splicing MOTIFs para inferir eventos de splicing: exon skipping (ES), alternate donor (AD), alternate acceptors (AA), intron retention (IR), mutually exclusive exons (MEE), alternative polyadelination site (aPS) Em fase de testes!!!

Oases (3) ./oases directory [options] Standard options:
-ins_length2 <integer> : expected distance between two paired-end reads in the second short- read dataset (default: no read pairing) -ins_length_long <integer> : expected distance between two long paired-end reads (default: no read pairing) -ins_length*_sd <integer> : est. standard deviation of respective dataset (default: 10% of corresponding length) [replace '*' by nothing, '2' or '_long' as necessary] -unused_reads <yes|no> : export unused reads in UnusedReads.fa file (default: no) -amos_file <yes|no> : export assembly to AMOS file (default: no export) -alignments <yes|no> : export a summary of contig alignment to the reference sequences (default: no) --help : this help message Advanced options: -cov_cutoff <floating-point> : removal of low coverage nodes AFTER tour bus or allow the system to infer it (default: 3) -min_pair_count <integer> : minimum number of paired end connections to justify the scaffolding of two long contigs (default: 4) -min_trans_lgth <integer> : Minimum length of output transcripts (default: hash-length) -paired_cutoff <floating-point> : minimum ratio allowed between the numbers of observed and estimated connecting read pairs -conserveLong <yes|no> : Preserve contigs mapping onto long sequences to be preserved from coverage cutoff (default: no) Must be part of the open interval ]0,1[ (default: 0.1) -scaffolding <yes|no> : Allow gaps in transcripts (default: yes) -degree_cutoff <integer> : Maximum allowed degree on either end of a contig to consider it 'unique' (default: 3) Hello Daniel On 5/20/11 12:50 PM, Daniel Guariz Pinheiro wrote: -paired_cutoff <floating-point> : minimum ratio allowed between the numbers of observed and estimated connecting read pairs The systems does some stats on each node-node distance estimate, and if the observed number of reads pairs is less than n% of the expected value, then the whole distance estimate is discarded -conserveLong <yes|no> :Preserve contigs mapping onto long sequences to be preserved from coverage cutoff (default: no) Nodes with long sequences are then immune from the coverage cutoff. Must be part of the open interval ]0,1[ (default: 0.1) -scaffolding <yes|no> :Allow gaps in transcripts (default: yes) You allow the scaffolding system to jump tricky areas which are represented by N's. -degree_cutoff <integer> : Maximum allowed degree on either end of a contigg to consider it 'unique' (default: 3) This is Marcel and I playing around with options to reduce noise. I would ignore that one. Regards, Daniel

Arquivos de saída Arquivos gerados: transcripts.fa splicing_events.txt
Sequências consensos dos transcritos (isoformas) identificados >Locus_n_Transcript_x/y_Confidence_z_Length_LN >Locus_1_Transcript_1/2_Confidence_1.000_Length_399 >Locus_1_Transcript_2/2_Confidence_1.000_Length_394 splicing_events.txt contig-ordering.txt transcritos (isoformas) – caminhos alternativos

Hawkeye Integrado ao AMOS – “A Modular, Open-Source whole genome assembler” Boas estatísticas de montagem Suporte a somente alguns formatos de arquivos ACE, AFG, BNK Sistema instável Necessita compilar o pacote AMOS Sem páginas de ajuda

Tablet - Next Generation Sequence Assembly Visualization
Sistema Estável Interface intuitiva Instalação simples Suporte a vários formatos de arquivos ACE, AFG, MAQ, SOAP2, SAM and BAM Importa atributos GFF3 Exportar dados de cobertura por contig (transcrito) – número de profundidade por base do contig oases_asm.afg.txt Script para sumarizar os dados de cobertura (coveragestats.py) Requer muita memória

Exemplos Linhagem celular HCC1954BL
Linfoblastos humanos de uma paciente com Câncer de Mama (36bp) paired-end sequences (Illumina RNA-Seq) Velvet/Oases 3.071 transcritos 31 k-mers -exp_cov 5 -cov_cutoff

UCSC Genome Browser (1) Locus_2 Gene: CD74
2 transcritos (2 isoformas idêntificadas) Locus_2_Transcript_1/2_Confidence_1.000_Length_1500 Locus_2_Transcript_2/2_Confidence_1.000_Length_1308 Gene: CD74

UCSC Genome Browser (2) Locus_1 Gene: RPL36A
2 transcritos (2 isoformas idêntificadas) Locus_1_Transcript_1/2_Confidence_1.000_Length_399 Locus_1_Transcript_2/2_Confidence_1.000_Length_394 Gene: RPL36A

UCSC Genome Browser (3) Locus_1 Gene: RPL36AL
2 transcritos (2 isoformas idêntificadas) Locus_1_Transcript_1/2_Confidence_1.000_Length_399 Locus_1_Transcript_2/2_Confidence_1.000_Length_394 Gene: RPL36AL

Referências Miller JR, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data. Genomics Jun;95(6): Epub 2010 Mar 6. Review. PubMed PMID: ; PubMed Central PMCID: PMC ; Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res May;18(5): Epub 2008 Mar 18. PubMed PMID: ; PubMed Central PMCID: PMC ; Schatz MC, Phillippy AM, Shneiderman B, Salzberg SL. Hawkeye: an interactive visual analytics tool for genome assemblies. Genome Biol. 2007;8(3):R34. PubMed PMID: ; PubMed Central PMCID: PMC ; Kumar S, Blaxter ML. Comparing de novo assemblers for 454 transcriptome data. BMC Genomics Oct 16;11:571. PubMed PMID: ; PubMed Central PMCID: PMC ; Milne I, Bayer M, Cardle L, Shaw P, Stephen G, Wright F, Marshall D. Tablet--next generation sequence assembly visualization. Bioinformatics Feb 1;26(3): Epub 2009 Dec 4. PubMed PMID: ; PubMed Central PMCID: PMC ;

Conclusão considerações finais

Conclusão Há uma diferenças enormes entre abordagens, funcionalidades e eficiência entre os diferentes algoritmos e implementações para as tarefas de alinhamento de sequências e montagem; As diferentes abordagens refletem diretamente no processamento e especialmente no resultado das análises; Portanto é necessário conhecer os princípios de cada abordagem, reconhecer os parâmetros e os resultados, para podermos utilizá-los da melhor forma possível. Promover a utilização racional dos programas disponíveis!!!

Daniel Guariz Pinheiro

Montagem de Sequências de Transcritos

Apresentações semelhantes

Apresentação em tema: "Montagem de Sequências de Transcritos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Montagem de Sequências de Transcritos

Apresentações semelhantes

Apresentação em tema: "Montagem de Sequências de Transcritos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback