Clusterização de sequências biológicas : PHRAP e CAP3

Slides:



Advertisements
Apresentações semelhantes
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs
Advertisements

Tipos de igualdade X = Y é verdadeiro se X é igual a Y. X is E é verdadeiro se X é a avaliação da expressão E. E1 =:= E2 é verdadeiro se a avaliação da.
Algoritmos de ordenação e estruturas de dados Baseado em progrProlog4.
Universidade Federal de Viçosa
Montagem e análise de genomas
Seqüenciamento parcial de transcritos
Net by Net Routing with a New Path Search Algorithm Marcelo Johann Ricardo Reis SBCCI Manaus.
Genômica e Proteômica Montagem de genomas.
Vetor da rede recíproca.
Genome sequence.
Interações do Algoritmo Phred/Phrap
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu encaro a última cortina. My friend, I'll say it clear.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Disciplina: Bioinformática Aplicada ao Estudo de Doenças Parasitárias
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Análise de genomas e transcriptomas
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Genómica Licenciatura em Ciências Biomédicas
Modelos de Optimização de Redes
Avaliação Constituição dos grupos de trabalho:
Objetivo: Como usar vídeos em suas aulas.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa Understanding Epidemic Quorum Systems INESC-ID Lisbon/Technical.
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Predição computacional de genes
Estratégias de sequenciamento : genoma e transcriptoma
Introdução à Montagem de Genomas
MY WAY Frank Sinatra MARILYNMONROEMARILYNMONROE Ligue o som.
CAP3 (Contig Assembly Program)
Análises de sequências
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression.
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Seqüenciamento e genômica
Criptografia Problema 5. Equipe  Hallan Cosmo - hcs  Phillip César - pcas.
Campos et al. Factors associated with death from dengue in the state of Minas Gerais, Brazil: historical cohort study Objectives: To analyse the clinical.
Fragment Assembly Analyzer Erico Teixeira e Francisco do Nascimento Maio, 2003 FAAz.
Seqüenciamento de DNA via Phred-Phrap-Consed
454 Outline Complexidade… Conceito Metodologia detalhada Aplicações
Especificidade de enzimas de restrição Eletroforese – padrão de digestão.
Melhorando Alinhamentos Locais Katia Guimarães
22/4/20151 / Query By Humming. Ana Alves (apba) Bruno Ribeiro (brcr) Francisco Neto (ffsn) Garsielle Valença (gval) Query by Humming (QBH)
Sequenciamento de Genomas
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
CAP3 (Contig Assembly Program)
RNA-SEQ: CONCEITO E APLICAÇÕES
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Energias renováveis Renewable energy. Americans using most renewable energy since 1930s Connie J. Spinardi | Getty Images Solar farm and wind turbines.
Principais algoritmos de alinhamento de sequências genéticas
Bioinformática Felipe G. Torres.
Alinhamento Global de Seqüências Katia Guimarães.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Limit Equlibrium Method. Limit Equilibrium Method Failure mechanisms are often complex and cannot be modelled by single wedges with plane surfaces. Analysis.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
-A partir do 2º Slide a passagem é automática!
ANÁLISE EM LARGA ESCALA
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Falhas em componentes de sustentação – Cabos de Aço, Correntes e Ganchos.
Estrutura da empresa Síntese SAP Best Practices. ©2014 SAP AG. All rights reserved.2 Estrutura Organizacional Baseline Package Área Contab. Custos 1000.
Metade das crianças fazem de tocas, ficam em pé com as pernas afastadas. A outra metade + 1, são os coelhos que correm à volta da toca. Um aluno é.
Abril 2016 Gabriel Mormilho Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Departamento de Administração EAD5853 Análise.
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 4.
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 3.
Visão geral do Aprendizado de máquina
Subway Network - São Paulo City
Tópicos Avançados em Engenharia de Software
Developing a Hypothesis
Why Moringa Delight? Perfection in Growing and Processing We produce the highest quality Moringa under perfect growing conditions on the largest Moringa.
D ISCUSSÃO DE A RTIGO Fernando Pessuti Médico Residente de Oncologia Clínica da UNICAMP Campinas, 15 de outubro de 2019.
Transcrição da apresentação:

Clusterização de sequências biológicas : PHRAP e CAP3 mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp

Resumo Introdução Processamento de reads (revisão) DNA ESTs Pipeline de montagem Computando os overlaps Formando os contigs e singlets Gerando sequência consensu Analisando a montagem PHRAP x CAP3

Introdução Melhoria da qualidade de sequências de interesse Ordenação dos trechos de DNA sequenciados para a obtenção da sequência original Melhoria da qualidade de sequências de interesse Expressão gênica em biblioteca de cDNA

Processamento de reads (revisão) - O pipeline de um projeto genoma - Após base calling temos : >Unknown sequences #1 5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...

Identificar regiões de baixa qualidade Identificar regiões de vetores Eliminar sequências formadas apenas por vetores Cortar regiões de baixa qualidade e vetor

- Possíveis combinações de regiões com qualidade ruim e vetores Bioinformatics 17 (2001), n. 122001, 1093-1104

- Para cDNA : Ribossomais podem atrapalhar a montagem Mascarando o vetor Corte de poly-A Corte em qualidade Remoção de sequências curtas GMB 24 (2001), 17-23

Pipeline de montagem - Algoritmo Input Consensus Sequences Seeded Clustering Clustering Assembly Assembled Clusters

1. Encontra sobreposições dos reads 2. Alinha os pares de reads formando os contigs 3. Encontra a sequência consensu ..ACGATTACAATAGGTT..

Encontrando os overlaps Sort all k-mers in reads (k ~ 10) Find pairs of reads sharing a k-mer Extend to full alignment TACA TAGT || TAGATTACACAGATTAC T GA TAGA | || ||||||||||||||||| TAGATTACACAGATTAC Para uma montagem um alinhamento é considerado válido se tiver : Overlap >= 40 pb 90% de identidade Bioinformatics 20 (2004), 2973

Formando os contigs e singlets - Cria um alinhamento múltiplo local para alinhar todos os reads TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAGATTACACAGATTACTGA TAG TTACACAGATTATTGA TAGATTACACAGATTACTGA contig

Encontra a sequência consensu TAGATTACACAGATTACTGA TTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAAACTA TAG TTACACAGATTATTGACTTCATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA TAGATTACACAGATTACTGACTTGATGGGGTAA CTA TAGATTACACAGATTACTGACTTGATGGCGTAA CTA No caso de discrepâncias a escolha da base pode depender : Da nota phred das sequências discrepantes Da quantidade de relativa de bases discrepantes

Visualizando a montagem

Erros de montagem devido as regiões repetitivas

Sequência consensu (DNA original) reads Marca de um possível erro de sequenciamento causado por regiões repetitivas

Montagem com vínculos de forward e reverse Assembly WITH forward-reverse constraints Repeat Repeat Assembly WITHOUT forward-reverse constraints Repeat Misassembled fragment… …leaves a singleton

PHRAP x CAP3 - Pipeline CAP3 Genome Research 9 (1999), 868

PHRAP produz contigs maiores - Performance do CAP3 e PHRAP na montagem de DNA genômico (BACs) PHRAP produz contigs maiores CAP3 produz menos erros internos (regiões com sobreposição) CAP3 produz mais erros externos (nas pontas do consensu)

- Para ESTs o CAP3 é melhor que o PHRAP - Performance do CAP3 e PHRAP na montagem de ESTs - Para ESTs o CAP3 é melhor que o PHRAP Nucleic Acid Research 28 (2000), 3657

END

Outline of phrap assembly: 0) Read in sequence & quality data, trim off any near-homopolymer runs at ends of reads, construct read complements. 1) Find pairs of reads with matching words. Eliminate exact duplicate reads. Do swat comparisons of pairs of reads which have matching words, compute (complexity-adjusted) swat score. 2) Find probable vector matches and mark so they aren't used in assembly. 3) Find near duplicate reads.

4) Find reads with self-matches. 5) Find matching read pairs that are "node-rejected" i.e. do not have "solid" matching segments. 6) Use pairwise matches to identify confirmed parts of reads; use these to compute revised quality values. 7) Compute LLR scores for each match (based on qualities of discrepant and matching bases). (Iterate above two steps). 8) Find best alignment for each matching pair of reads that have more than one significant alignment in a given region (highest LLR-scores among several overlapping).

9) Identify probable chimeric and deletion reads (the latter are withheld from assembly). 10) Construct contig layouts, using consistent pairwise matches in decreasing score order (greedy algorithm). Consistency of layout is checked at pairwise comparison level. 11) Construct contig sequence as a mosaic of the highest quality parts of the reads. 12) Align reads to contig; tabulate inconsistencies (read / contig discrepancies) & possible sites of misassembly. Adjust LLR-scores of contig sequence.