Introdução à Montagem de Genomas

Slides:



Advertisements
Apresentações semelhantes
Grafos eulerianos 1.
Advertisements

Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Grafos - Caminhos Caminhos Máximo / Mínimo:
Inteligência Artificial
Celso C. Ribeiro Caroline T. Rocha
Organização Gênica de Eucariotos
Análise de Decisão Aplicada a Gerência Empresarial – UVA Grafos - V
Exercícios PAA- Grafos
Pontes Seja (G) o número de componentes conexas de G. Uma ponte é uma aresta a tal que (G - a) > (G)
Métodos para representação de estruturas hierárquicas
Pesquisa em profundidade
A Classe de Problemas NP
Grafos Grafo G = (V, E) V — conjunto de vértices
Universidade Bandeirante de São Paulo Fundamentos da Álgebra
GRAFOS EULERIANOS E HAMILTONIANOS
Software Básico Silvio Fernandes
Universidade Federal de Viçosa
Montagem e análise de genomas
GRASP Greedy Randomized Adaptative Search Procedure
Sequenciamento inicial e análises do genoma humano
Árvores.
2002 LCG/UFRJ. All rights reserved. 1 Localização no Plano Claudio Esperança Paulo Roma.
Grafos – Parte 1 Projeto e Análise de Algoritmos Aline Vasconcelos
Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011.
Árvore Geradora de Peso Mínimo
Genômica e Proteômica Montagem de genomas.
ORGANIZAÇÃO FUNCIONAL do GENOMA
Balanceamento de Linhas
Progressão Aritmética (PA) Professor : Eduardo Jatobá
Grafos Msc. Cintia Carvalho Oliveira Doutoranda em Computação – UFU
Baseado em: The Algorithm Design Manual Steven S. Skiena
Aula de Recuperação: Matemática
Grafos Árvores Geradoras.
Teoria dos Grafos Caminhos e Noção de Grafos com pesos
Finding and Evaluating Community Structure in Networks
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Oferta e Demanda A Curva de Oferta
Exercícios: Alg Gulosos Eduardo Laber. Cap 4-Exercício 2 a)Verdadeiro, já que trocando cada elemento pelo seu quadrado não altera a ordem das arestas.
Exercícios PAA- Grafos
Otimização Inteira 5a. Aula Franklina.
Conceitos Básicos Alysson e Franklina 2ºs/
Estrutura de dados, pseudocódigo
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Genómica Licenciatura em Ciências Biomédicas
Medidas de posição  Estudando as distribuições de  frequência,  percebe-se que existe uma  posição de  concentração dos valores, que podem estar mais concentrados no início, no meio ou no 
Histórico, exemplos e problemas
Múltiplos de um número Sonia Regina de Souza Guedes.
Busca com informação e exploração
Introdução e Busca Cega
Introdução aos Agentes Inteligentes Busca Heurística (Informada)
O Problema Do Acordo Distribuído (Acordo Bizantino)
Problema do menor Caminho
Análise Bidimensional
Campus de Caraguatatuba Aula 8: Noções Básicas sobre Erros (2)
Conceitos básicos em grafos
Redes ADSA António Câmara.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
NOÇÕES DE PROBABILIDADE
Sistemas Operacionais
Estratégias de sequenciamento : genoma e transcriptoma
CAP3 (Contig Assembly Program)
Clusterização de sequências biológicas : PHRAP e CAP3
Fragment Assembly Analyzer Erico Teixeira e Francisco do Nascimento Maio, 2003 FAAz.
Sequencing by Hybridization Aluno: Ennio Baptista Orientadora: Kátia Guimarães
Sequenciamento de Genomas
CAP3 (Contig Assembly Program)
Um cromossomo eucariotico tem tipicamente ~ 50 a 200 Mbp Como sequenciar um genoma ?
Grafos Anjolina Grisi de Oliveira 2005
Algoritmos e Programação I
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
Transcrição da apresentação:

Introdução à Montagem de Genomas Gustavo Gilson Lacerda Costa glacerda@lge.ibi.unicamp.br

Histórico 1995, Haemophilus influenzae 1996, Methanococcus jannaschii 1997, Saccharomyces cerevisiae 1997, Escherichia coli 1998, Caenorhabditis elegans 2000, Drosophila melanogaster 2000, Arabidopsis thaliana 2001, Homo sapiens 2002, Schizosaccharomyces pombe 2002, Oryza sativa 2002, Mus musculus 2005, Pan troglodites

Onde sequenciar seu genoma Illumina (www.everygenome.com) $9500 por indivíduo $7500 para grupos de 5 Serviço contratado sempre através do médico do paciente O médico recebe um notebook com um navegador genômico carregado com os dados do paciente

Onde sequenciar seu genoma DNAVision (www.dnavision.com)

Onde sequenciar seu genoma Complete Genomics (www.completegenomics.com) Para grandes lotes, preço por genoma pode chegar a $5000 Serviço voltado para empresas e instituições acadêmicas

Montagem de genomas

Whole Genome Shotgun (WGS) Quebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) Não sabemos a posição de cada fragmento no genoma

Whole Genome Shotgun (WGS) Sequenciar as pontas de cada fragmento

Whole Genome Shotgun - Montagem DNA original singlet NOte that contig orientation/order is not determined gap

Montagem de genomas (ab initio) Reconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) Os reads têm tamanho entre 35-800 bp Os reads podem conter erros de sequenciamento (mismatches ou indels) A orientação (5`3` ou 3`5`) de cada read é desconhecida

TAMANHO DOS GENOMAS

Tamanho do genoma 3,4 Gbp Homo sapiens 15 Gbp Allium cepa 680 Gbp Amoeba dubia

1pg ~ 1Gbp

Cobertura Total de pares de bases em reads dividido pelo tamanho do genoma Ex: Genoma de 1Mbp 5 milhões de reads de 50bp Cobertura = (5000000 * 50) / 1000000 = 25X Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada

Cobertura É preciso ter várias coberturas para conseguir montar contigs grandes (oversampling) Sanger: 8X a 10X 454 Titanium (pirosequenciamento): 15X Solexa: > 50X

Modelo de Lander-Waterman L = tamanho do read T = overlap mínimo G = tamanho do genoma N = número de reads c = cobertura (NL / G) σ = 1 – T/L E(#clusters) = Ne-cσ E(tamanho do cluster) = L((ecσ – 1) / c + 1 – σ) cluster = contig ou singlet

Exemplo c N #cluster #contigs bases não sequenciadas 1 1,667 655 614 Genome size: 1 Mbp L= 600 T= 40 c N #cluster #contigs bases não sequenciadas 1 1,667 655 614 367,806 3 5,000 304 250 49,787 5 8,334 78 57 6,735 8 13,334 7 335

Modelo de Lander waterman

Medidas para avaliar uma montagem Número de contigs Tamanho médio dos contigs Tamanho do maior contig N50: maior N tal que 50% do total de pares de base do genoma esteja contida em contigs >= N bp

Cálculo do N50 Seja uma montagem de um genoma de 300 bp que produziu 8 contigs de tamanho (3, 3, 15, 24, 39, 45, 54 e 117) Ordenar os contigs em ordem decrescente de tamanho e ir somando um por um Quando a soma ultrapassar 150 (300/2), o tamanho do contig da vez é o N50 Os dois maiores contigs (117+54=171) ultrapassam 150. Logo N50=54 (tamanho do segundo maior contig)

Glossário de montagem Read: fragmento sequenciado Contig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads Singlet: read sem sobreposição com nenhum outro Gap: região do genoma não capturada por nenhum read Cobertura: Total de bases sequenciadas dividido pelo tamanho do genoma

Paradigmas de montagem Guloso (Greedy) Overlap – Layout – Consensus (OLC) Grafo de De Bruijn (DBG)

I - Guloso (Greedy) Guloso Phrap, TIGR assembler, CAP3 Criação de uma tabela de sobreposições Pegue a sobreposição de melhor score Junte os fragmentos Repita até que não possa ser feita mais nenhuma junção

I - Guloso (Greedy) Phrap, TIGR assembler, CAP3 Mesmo paradigma, diferentes resultados Cada programa usa uma série de heurísticas próprias, pré e pós processamentos Cap3: montagem de ESTs (transcritos) Phrap e TIGR: genomas (pequenos e simples) Nenhum deles funciona bem com reads curtos (Illumina/Solid)

II - Overlap – Layout – Consensus (OLC) Overlap: alinhamento par a par entre todos os reads sequenciados para detectar sobreposições Layout: ordenação/orientação dos reads de acordo com os overlaps Consensus: reconstrução da sequência do genoma através do alinhamento múltiplo dos reads (obedecendo ao layout)

II - Overlap – Layout - Consensus Montadores OLC usam uma estrutura de dados chamada grafo de overlap Celera Assembler Arachne Mira Newbler

O que é um grafo? Informalmente, um grafo é um conjunto de vértices conectados por um conjunto de arestas Grafo direcionado Grafo não direcionado 1 2 3 1 2 3 4 5 6 4 5 6

II - Overlap-Layout-Consensus Grafo de overlaps Vértices: reads Arestas: overlaps Overlap graph for a bacterial genome.  The thick edges in the picture on the left (a Hamiltonian cycle) correspond to the correct layout of the reads along the genome (figure on the right).  The remaining edges represent false overlaps induced by repeats (exemplified by the red lines in the figure on the right) Fonte: http://www.cbcb.umd.edu/research/assembly_primer.shtml

III - Grafo de De Bruijn (DBG) - Definição É uma representação de uma sequência (ou conjunto de sequências) através de sua decomposição em subsequências de tamanho K (K-mer) Os vértices são sequências de k-1 caracteres Arestas são inseridas entre pares de vértices (u,v) em que o sufixo de tamanho k-2 de u é igual ao prefixo de tamanho k-2 de v k=7, k-1=6, k-2=5 O k-mer ou aresta é ACCTGAT

Construção de um grafo de De Bruijn Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3 CC CG GT AT TG GC CA

Grafo de De Bruijn K=8 Fonte: http://www.homolog.us/blogs/2011/07/28/de-bruijn-graphs-i/

Grafo de De Bruijn GENOMA E se o genoma fosse desconhecido? Vamos ver como ficaria o grafo de De Bruijn construído a partir dos reads Cada read é decomposto em subsequências de tamanho K (K-mers) e inserimos todos os K-mers no grafo de uma vez

Grafo de De Bruijn

Grafo de De Bruijn Sem erros de sequenciamento e com cobertura alta DBG do genoma ~ DBG dos reads A sequência do genoma pode ser recomposta através de um caminho euleriano no DBG Caminho euleriano: caminho que passa por todas as arestas do grafo exatamente uma vez Se o DBG não for euleriano, tenta-se simplificá-lo ao máximo e encontrar subgrafos eulerianos

Grafo de De Bruijn Erros de sequenciamento tipicamente geram topologias características no DBG

Grafo de De Bruijn Repeats também induzem topologias características

Grafo de De Bruijn Repeats também induzem topologias características

Reconstituição do genoma com o DBG Reads= (GTGC,ATGT,GCCG,CGCA,TGCC) k=3 Reconstruir a sequência do genoma é encontrar um caminho euleriano (caminho que passa por cada aresta uma unica vez) CC CG GT AT TG GC CA

Reconstrução da sequência (De Bruijn)

Reconstrução da sequência (De Bruijn)

Reconstrução da sequência (De Bruijn)

Reconstrução da sequência (De Bruijn)

Reconstrução da sequência (De Bruijn)

Reconstrução da sequência (De Bruijn)

Montagem - De Bruijn (Velvet, Euler-USR, Abyss) Escolha um valor de K, menor que o tamanho do read K grande: mais especificidade K pequeno: mais sensibilidade Inicie um grafo G vazio Para cada read sequenciado, divida-o em palavras de tamanho k (k-mers), com passo de 1, e insira os k-mers no grafo G Simplifique o grafo G (remova tips e bubbles) Busque caminhos eulerianos Se não houver, busque subgrafos eulerianos

Montagem - De Bruijn (Velvet, Euler-USR, Abyss) Os montadores DBG conseguem gerenciar quantidades massivas de sequência Não precisa alinhar todo mundo contra todo mundo Construção do grafo em tempo linear Erros de sequenciamento -> grafo maior -> muita, muita memória

O problema dos repeats Trechos de sequência repetidos ao longo do genoma Em procariotos: pouco frequente Em fungos: média quantidade Em algumas plantas e em vertebrados compõem a maior parte do genoma Desafio para qualquer software, independente do paradigma usado

A B C D E F G H I J K L 1 2 3 4 5 6 7 8 9 10 11 12

A B C D 1 2 3 4

O problema dos repeats Vamos tentar reconstruir a seguinte frase (genoma) a partir de alguns fragmentos (reads) It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, …

Qual a próxima palavra? Worst ou Age?

Erros de montagem causados por Repeats excision collapsed tandem rearrangement

Resolvendo repeats com paired ends

O problema dos repeats O maior repeat tem tamanho 5. Logo eu precisava de reads maiores que 6 para conseguir montar sem ambiguidades

O problema dos repeats Ou então: vínculos par a par entre os reads com distância conhecida (paired ends)

Construindo Scaffolds Os paired ends também são muito úteis para ordenar e orientar os contigs Mesmo que não tenhamos a sequência entre dois contigs, a informação de que eles são vizinhos é de grande valor We need to determine the relative order/orientation of contigs Using forward-reverse constraints helps SCAFFOLD

Resumo do processo de montagem Scaffolding

Scaffolding Alguns montadores são capazes de produzir scaffolds Velvet Celera assembler SoapDeNovo Newbler Programas standalone Bambus Supercontigs Construção de scaffolds também é um problema modelado em grafos (caminho de custo mínimo)

Tamanho do read, paired-ends e cobertura Reads grandes facilitam a montagem. Se eles forem pareados melhor ainda Reads longos podem atravessar repeats Reads paired-ends ajudam a resolver ambiguidades e atravessar repeats maiores Cobertura alta também ajuda, mas só até um certo ponto Mais precisão para determinar as bases do consenso Diminui as chances de haver regiões do genoma não sequenciadas Regiões do genoma de cobertura atipicamente alta provavelmente representam repeats fundidos 11 April 2017 · Computational Genomics

Montagem comparativa Em algumas ocasiões, já existe um genoma de algum organismo parecido sequenciado (referência) Queremos saber as diferenças entre o nosso genoma de interesse e a referência Mais simples computacionalmente Alinhamos os reads contra a referência, fazemos o layout e o consenso Alignment-Layout-Consensus

Ressequenciamento Ressequenciamento: SNPS, variações estruturais, variações de número de cópias DEL SNP reference genome 64

REFERÊNCIA= TODAY_IS_SUNDAY Montagem ab initio Montagem comparativa