Genômica e Proteômica Montagem de genomas.

Slides:



Advertisements
Apresentações semelhantes
Programação em Java Prof. Maurício Braga
Advertisements

Instituto de Computação
Estratégias Pipelined
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs
BIBLIOTECAS DE DNA ou BANCOS DE DNA FABIANA SEIXAS
Universidade Federal de Viçosa
Montagem e análise de genomas
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Mineração de Padrões Arborescentes
Gerenciamento de Arquivos, Páginas e Registros
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
Introdução Automatização dos processos de sequenciamento
Sequenciamento inicial e análises do genoma humano
Capítulo 4: Estado Global
Geometria Computacional Fecho Convexo
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Transcrição do RNA em Organismos Procariotos e Eucariotos
Transcrição do RNA em Organismos Procariotos
Clonagem Gênica 1-Introduçao 2-Estratégia geral de clonagem gênica
Construção de Biblioteca Gênica
Anotação de SAGE Tags Rodrigo Martins Brandão.
Interações do Algoritmo Phred/Phrap
Serial Analysis of Gene Expression (SAGE)
Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum) Podemos saber quantas.
Na formação dos gametas (meiose)
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Sistemas Operacionais I
Marco Antonio Montebello Júnior
Marco Antonio Montebello Júnior
Inteligência Artificial
Disciplina: Bioinformática Aplicada ao Estudo de Doenças Parasitárias
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Análise de genomas e transcriptomas
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
Genômica e Proteômica 1) Genômica Estrutural O que é Genômica ?
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Genómica Licenciatura em Ciências Biomédicas
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Aula prática 6 Vetores e Matrizes
Distância entre Dois Pontos
MATEMÁTICA APLICADA REVISÃO BÁSICA.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Geração de Código aula-12-geração-de-código.pdf.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Capítulo 5 Entrada/Saída 5.1 Princípios do hardware de E/S
Estratégias de sequenciamento : genoma e transcriptoma
CAP3 (Contig Assembly Program)
Análises de sequências
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Seqüenciamento e genômica
Clusterização de sequências biológicas : PHRAP e CAP3
Fragment Assembly Analyzer Erico Teixeira e Francisco do Nascimento Maio, 2003 FAAz.
Seqüenciamento de DNA via Phred-Phrap-Consed
Serial Analysis of Gene Expression - SAGE
Sequencing by Hybridization Aluno: Ennio Baptista Orientadora: Kátia Guimarães
Sequenciamento de Genomas
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
CAP3 (Contig Assembly Program)
RNA-SEQ: CONCEITO E APLICAÇÕES
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Um cromossomo eucariotico tem tipicamente ~ 50 a 200 Mbp Como sequenciar um genoma ?
Programação Computacional Aula 8: Entrada e Saída pelo Console Prof a. Madeleine Medrano
Bioinformática Felipe G. Torres.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
ANÁLISE EM LARGA ESCALA
Transcrição da apresentação:

Genômica e Proteômica Montagem de genomas

Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um “quebra-cabeças” LABINFO – LNCC / MCT Agosto / 2004

Introdução Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final Freqüentemente, nem temos todas as peças É um problema computacional complexo! Como ? LABINFO – LNCC / MCT Agosto / 2004

Introdução Definir a estratégia de seqüenciamento Gerar as seqüências Construção e validação de bibliotecas Seqüênciar Montar Finalizar a seqüência genômica LABINFO – LNCC / MCT Agosto / 2004

Estratégia de seqüenciamento Clone-by-clone (“Primeiro mapear, depois seqüênciar”) Whole-genome shotgun sequencing Hybrid shotgun sequencing Expressed Sequence Tag - EST LABINFO – LNCC / MCT Agosto / 2004

Clone-by-clone e Whole-genome shotgun sequencing LABINFO – LNCC / MCT Agosto / 2004

Whole-genome shotgun sequencing LABINFO – LNCC / MCT Agosto / 2004

Whole-genome shotgun sequencing LABINFO – LNCC / MCT Agosto / 2004

Hybrid shotgun sequencing LABINFO – LNCC / MCT Agosto / 2004

Expressed Sequence Tag B1 B2 C1 C2 C3 EST gene genoma Mensagem (ou transcrito) Splices alternativos do mesmo gene LABINFO – LNCC / MCT Agosto / 2004

Bibliotecas Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA As bibliotecas devem ser validadas. Garantir: Que as seqüências tenham o tamanho esperado Que não exista contaminação e presença excessiva de vetores Que a distribuição das seqüências seja a esperada Para EST as bibliotecas podem ser de diferentes tecidos LABINFO – LNCC / MCT Agosto / 2004

Bibliotecas LABINFO – LNCC / MCT Agosto / 2004

Administração e gerência No caso de redes de seqüenciamento, recepcionar os cromatogramas Armazenar os cromatogramas Gerar relatórios sobre o seqüenciamento Divulgação de estatísticas sobre o desenvolvimento do projeto LABINFO – LNCC / MCT Agosto / 2004

Administração e gerência LABINFO – LNCC / MCT Agosto / 2004

Administração e gerência LABINFO – LNCC / MCT Agosto / 2004

Administração e gerência LABINFO – LNCC / MCT Agosto / 2004

Estratégia híbrida Leitura dos cromatogramas  converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade Montagem  comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs Objetivo: Um contig !!! LABINFO – LNCC / MCT Agosto / 2004

Estratégia híbrida Analisar a montagem Acompanhar a evolução do número de contigs  Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas LABINFO – LNCC / MCT Agosto / 2004

Estratégia híbrida Finalizar o genoma Ordenar e orientar os contigs (scaffold) Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds Definir estratégias específicas para fechar “gaps” – espaços entre contigs – no genoma Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão. LABINFO – LNCC / MCT Agosto / 2004

Leitura dos cromatogramas A leitura dos cromatogramas é a realizada pelo programa phred O phred nomeia cada base e atribue um valor de qualidade para cada base lida A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base LABINFO – LNCC / MCT Agosto / 2004

Leitura dos cromatogramas Q = -10 log10( Pe ) Q  Qualidade e Pe  Probabilidade de erro Ex.: 1 erro em 100 bases Q = -10 log10(1/100)  Q = 20 Ex.: 1 erro em 10000 bases Q = -10 log10(1/10000)  Q = 40 Ex.: 1 erro em 1000000 bases Q = -10 log10(1/1000000)  Q = 60 LABINFO – LNCC / MCT Agosto / 2004

Leitura dos cromatogramas LABINFO – LNCC / MCT Agosto / 2004

Leitura dos cromatogramas LABINFO – LNCC / MCT Agosto / 2004

Leitura dos cromatogramas O phred gera um arquivo contendo as bases e as respectivas qualidades LABINFO – LNCC / MCT Agosto / 2004

Filtragem de vetores Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor O trecho correspondente tem cada uma de suas base substituídas por “x” LABINFO – LNCC / MCT Agosto / 2004

Filtragem de vetores LABINFO – LNCC / MCT Agosto / 2004

Montagem Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNA Fragmento ATAGACCCAT GACCCAT ATGCATGCCATA CCAT GACTGCCATA CCATGCATG Alinhamento ---GACCCAT --------ATGCATGCCATA ------CCAT ----------GACTGCCATA ------CCATGCATG ATAGACCCATGCATGCC Consenso LABINFO – LNCC / MCT Agosto / 2004

Montagem LABINFO – LNCC / MCT Agosto / 2004

Programas / pacotes de montagem Assembler (www.tigr.org) Bambus – Programa para gerar scaffold CAP3 (genome.cs.mtu.edu) phred/phrap/consed (www.phrap.org) Staden (www.mrc-lmb.cam.ac.uk) – GAP4 Pode utilizar o CAP3 ou o phrap LABINFO – LNCC / MCT Agosto / 2004

CAP3 Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads Alinhamento entre reads para identificação de sobreposição Identificação e remoção de falsos alinhamentos LABINFO – LNCC / MCT Agosto / 2004

CAP3 Formação dos contigs através da junção dos reads em ordem decrescente da pontuação dos alinhamentos Correção nos contigs através da validação forward-reverse Alinhamento múltiplo dos reads para a construção da seqüência de consenso Geração dos arquivos de saída (links, ace etc) LABINFO – LNCC / MCT Agosto / 2004

phrap Tratamento das seqüências Conversão de trechos de bases iguais, no início e no fim dos reads em “N” Identificação e exclusão de reads iguais Exclusão de regiões, provavelmente não filtradas, de vetores do alinhamento Determinação dos singlets (reads que não tem alinhamento com nenhum outro read) LABINFO – LNCC / MCT Agosto / 2004

phrap Identificação de sobreposição Formação dos contigs Determinação do consenso Determinação dos links entre contigs e do scaffold Geração dos arquivos de saída (log, ace, contigs etc) LABINFO – LNCC / MCT Agosto / 2004

Pipeline da montagem Entrada: cromatogramas Base-calling (phred) – phd_file Conversão (phd2fasta) phd_files  multifasta e multifasta.qual Montagem (phrap / cap3) Filtragem (cross_match) de vetores e repetições  multifasta.screen Arquivo de * Clones (formcon)  multifasta.screen.con LABINFO – LNCC / MCT Agosto / 2004 * Somente para o CAP3

Análise da montagem LABINFO – LNCC / MCT Agosto / 2004

Análise da montagem Contig 1 Contig 4 Contig 5 b P12 g b P2 g b P4 g b C2 g b C1 g b P6 g b P3 g b P4 g b P5 g b P9 g b P10 g b P11 g b P12 g b C3 g b C4 g b C6 g b C5 g b C7 g LABINFO – LNCC / MCT Agosto / 2004

Análise da montagem LABINFO – LNCC / MCT Agosto / 2004

Análise da montagem LABINFO – LNCC / MCT Agosto / 2004

Identificação de repetições Repetição trechos de DNA ao longo do(s) cromossomo(s) Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada LABINFO – LNCC / MCT Agosto / 2004

Identificação de repetições Repetições ambíguas A B C D LABINFO – LNCC / MCT Agosto / 2004

Identificação de repetições Repetições colapsadas A B C LABINFO – LNCC / MCT Agosto / 2004

Identificação de repetições Como identificar: Regiões de contigs que “empilham” reads Regiõe(s) que têm match com outras regiõe(s) Regiões que apresentam links de pontas de clones inconsistentes Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT Agosto / 2004

Identificação de repeats Regiões que “empilham” reads LABINFO – LNCC / MCT Agosto / 2004

Identificação de repeats Regiõe(s) que têm match com outras regiõe(s) LABINFO – LNCC / MCT Agosto / 2004

Identificação de repeats Regiõe(s) que têm match com outras regiõe(s) LABINFO – LNCC / MCT Agosto / 2004

Identificação de repeats Regiões que apresentam links de pontas de clones inconsistentes LABINFO – LNCC / MCT Agosto / 2004

Identificação de repeats Regiões em que existem mais de um read com bases discrepantes em relação ao consenso LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs Low Consensus Quality (LCQ)  É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade. High Quality Discrepancies (HQD)  São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40. Positions not Confirmed on both Strands (NCBS)  Posições no consenso que não estão confirmadas nas duas fitas. Reads quiméricos LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs - LCQ LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs - HQD LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs - HQD LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs - NCBS LABINFO – LNCC / MCT Agosto / 2004

Problemas nos contigs - Quimera LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma Estratégias para resolver os problemas de montagem dos contigs (LCQ, HQD, NCBS, quimeras) Estratégias para resolver os problemas de repetição  Fechar os gaps gerados pelos filtros Estratégias para fechar os demais gaps. Gaps dentro de scaffolds (virtuais) e entre scaffolds (reais) LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma -- HQD Retirar os reads que contenham HQD, remontar o contig isoladamente e comparar as seqüências Retirar o(s) read(s)s que determina(m) o consenso, remontar o contig isoladamente e comparar as seqüências (muitos reads e muitas bases com HQD) Ressequenciar reads da região LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma – LCQ e NCBS Ressequenciar reads que estejam com baixa qualidade Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente. LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma – Quimeras Retirar os reads quiméricos . Realizar a montagem isolada e comparar os consensos Se houver diferença, ressequenciar reads da região, inclusive o quimérico LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma – fechamento de gaps Ressequenciar reads que estejam com baixa qualidade nas extremidades dos contigs Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente. LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma – fechamento de gaps (filtro) Montar separadamente os dois contigs de cada gap, ou apenas, as duas extremidades. Pode ser necessário montar com diferentes programas (cap3 e phrap) para estabelecermos comparações Garantir que, na medida do possível, os clones estejam com as duas pontas (forward e reverse). Resgatar, para isto, as pontas que se tornaram singlets LABINFO – LNCC / MCT Agosto / 2004

Finalização do genoma – fechamento de gaps (filtro) Realizar experimentos que confirmem que os dois contigs do gap realmente estão juntos e na orientação indicada pelo scaffold (Ex. PCR combinatório) Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e sequenciá-lo completamente. Sequenciar o produto de PCR LABINFO – LNCC / MCT Agosto / 2004

Genomas montados no LABINFO Chromobacterium violaceum e Mycoplasma synoviae (www.brgene.lncc.br) Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br) LABINFO – LNCC / MCT Agosto / 2004

Genomas em andamento no LABINFO Xylella fastidiosa Ann1 e Xylella fastidiosa Dixon (www.xylella.lncc.br) Rhizobium tropici (www.nbf.lncc.br) Leifsonia xyli cynodontis (www.leifsonia.lncc.br) LABINFO – LNCC / MCT Agosto / 2004

EST A montagem de EST, é na verdade, a construção de clusters (grupos) de seqüências de EST que são originadas da expressão de um mesmo gene O pipeline é semelhante a montagem de genomas completos. Com exceção da filtragem de repeats. Tanto o programa CAP3, quanto o phrap podem ser utilizados LABINFO – LNCC / MCT Agosto / 2004

Referências Green, ED – Strategies for the systematic sequencing of comples genomes (Nature Reviews – Genetics, vol 2, agosto 2001, 573-583) (http://www.nature.com/cgi-taf/DynaPage.taf?file=/nrg/journal/v2/n8/full/nrg0801_573a_fs.html) Huang, X e Madan, A – CAP3: A DNA Sequence Assembly Program (Genome Research) www.phrap.org Telles, GP et all - Bioinformatics of the sugarcane EST project (Genetics and Molecular Biology, vol 24, n1-4, 2001) Telles, GP e Silva FR – Trimming and clustering sugarcane ESTs (Genetics and Molecular Biology, vol 24, n1-4, 2001) LABINFO – LNCC / MCT Agosto / 2004