Seqüenciamento de DNA via Phred-Phrap-Consed

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Introdução a Algoritmos
Introdução à Ciência da Computação Linguagens de Programação.
Eventos, Variáveis de Sessão e Aplicação
Engenharia de Software
Sistema de Arquivos - PROTEÇÃO DE ARQUIVOS
Prof. João Paulo de Brito Gonçalves Sistema de Arquivos - COMANDOS DE VISUALIZAÇÃO, BUSCA E LOCALIZAÇÃO Campus - Cachoeiro Curso Técnico de Informática.
Montagem e análise de genomas
INTRODUÇÃO A INFORMÁTICA
Modelagem Funcional.
Introdução Automatização dos processos de sequenciamento
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Banco de Dados Oracle AESO.
A FAST APRIORI implementation
Implementação de pipeline de sequenciamento configurável
ESTRUTURA DE COMUNICAÇÃO DE DADOS
Interações do Algoritmo Phred/Phrap
Engenharia de Requisitos Requisito – sistema Caso de uso - usuário
Processadores – Aula 3 Professor: André Luis Meneses Silva
Compilação de programas com make
Gestão de Referências e JabRef
Interpretador Online.
DAC – Departamento de Atendimento ao Cliente
Processos & Sistemas de Sinistros Novo Orçamento Web
Formatação de parágrafo
JAVA: Conceitos Iniciais
Algoritmos em Grafos.
Introdução ao ArcGIS Iana Alexandra A. Rufino
Modelo de referência OSI
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
Universidade Federal do Rio Grande do Sul Biblioteca Central Centro de Processamento de Dados Comissão de Automação Emissão de Relatório de Produção Intelectual.
Nova solução CRM da Riosoft
Universidade Católica de Pelotas Mestrado em Ciência da Computação
Introdução a Linguagens de Programação
MapReduce Conceitos e Aplicações
POWER POWER POINT POINT.
Guia de Abertura de Chamado
Casos de Uso no Engenharia de Software e Sistemas {abab, dtvp, jmmn, mscla, rmb2,
Etapas para Desenvolvimento de Base DevInfo 6.0. OBJETIVOS Orientar a criação de bases de dados para utilização no sistema DevInfo. Antes de iniciar o.
Curso de extensão PROJETO EM LINGUAGEM B.I.M. (Building Information Modeling) COM O AUTODESK REVIT BUILDING Profº Arq. Leo Padovan.
VIEW - VISÕES Professor Esp. Diego André Sant’Ana
Escola de Engenharia de Piracicaba Sistemas de Apoio a Decisão
Geração de Código aula-12-geração-de-código.pdf.
SAD Gestor RT.
CAP3 (Contig Assembly Program)
Análises de sequências
Aula 8. Classificação Não Supervisonada por Regiões
Análise Léxica Prof. Alexandre Monteiro
Prof. Carlos Alberto Kamienski – Avaliação de Desempenho de Redes e Sistemas (INF-103) Santo André, Fevereiro de 2012 Projeto da Disciplina.
Aula01 – Técnicas de Programação II
Nomeação de arquivos – Cap 4.1.1
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Seqüenciamento e genômica
Professor Esp. Diego André Sant’Ana Disciplina: Sistemas Operacionais II Sistemas de Arquivos- Tipo de arquivos – Cap
Fragment Assembly Analyzer Erico Teixeira e Francisco do Nascimento Maio, 2003 FAAz.
Aguilar Figueira Dias Orientador Prof. Dr. João Bosco da Mota Alves
Sequenciamento de Genomas
IEEE Melhores Práticas para Descrições de Projeto de Software (DPS)
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
CAP3 (Contig Assembly Program)
Algoritmos FPT para o Problema da k-Cobertura por Vértices
Expansão dos Casos de Uso
Alinhamentos Múltiplos
Programação Computacional Aula 8: Entrada e Saída pelo Console Prof a. Madeleine Medrano
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Trechos de código que permitem reutilização de uma mesma tarefa. Qualquer código PHP pode estar contido no interior de uma função. Não se pode definir.
1 Fórmula Visual RM. 2 Prática 05 – Criando uma Fórmula Visual de Processo Fórmula Visual RM Prática 05: criar uma fórmula visual que possa ser.
PROF. DR. DIVINO IGNÁCIO RIBEIRO JR DEPARTAMENTO DE BIBLIOTECONOMIA E GESTÃO DA INFORMAÇÃO - FAED EndNote X5 – Gerenciador de Referências Bibliográficas.
Transcrição da apresentação:

Seqüenciamento de DNA via Phred-Phrap-Consed Carlos André C. Pessoa Algoritmos para Processamento de Cadeias CIn - UFPE - Mestrado/2001.1

Roteiro Introdução Problemas Integração Phred-Phrap-Consed Phred Phrap Exemplos Phrap Consed Referências

Introdução O seqüênciamento de DNA possui várias etapas distintas (algumas vezes isoladas), mas com um único objetivo global. Gel Electrophroresis, Chromatograms, Base Calling, Sequence Assembly, etc.

Problemas A realização isolada de atividades gera alguns problemas Perda de informações Duplicação de trabalho Para compensar informações perdidas! Queda de performance Incompatibilidade de dados Lentidão no processo

Desafios Como integrar a cadeia de processos necessária para o seqüenciamento de DNA ? ?

Solução: Phred-Phrap-Consed Coordenado pelo Dr. Phil Green, Universidade de Washington, Seattle desde 1993. Sucesso mundial em projetos acadêmicos e comerciais. Mais de 900 projetos e 36 países utilizam. Abrange desde a análise em laboratório de um organismo até a montagem de seus fragmentos de DNA em computador.

Phred-Phrap-Consed Três ferramentas destinadas a trabalhar em conjunto (pipeline) e explorar os benefícios dessa integração Podem ser usadas isoladamente, mas os resultados são melhores quando usadas em conjunto Exemplo: Phred gera dados extras que podem ser utilizados pelo Phrap como dados opcionais para melhorar seu desempenho. O mesmo ocorre entre Phrap e Consed.

Phred-Phrap-Consed - Pipeline Cromatogramas Visualização dos contigs Phred Seqüências CACATCCCCCTTTCGCCAG Consed Qualidade 40 52 55 47 19 10 34 ... Contigs + Informações úteis Phrap

Phred Realiza a transformação de cromatogramas (traces), provenientes das máquinas de seqüenciamento, em seqüências de DNA. Baseado na análise do cromatograma, também associa um fator de qualidade para cada base da seqüência gerada.

Phred – Iterface via arquivos Cromatograma Formatos: SCF ABI 737/377 MegaBACE ESD Phred Formatos: FASTA XBAP PHD SCF Seqüência Qualidade CACATCCCCCTTT 12 23 20 56 50 53 ...

Phred – Fator de qualidade A qualidade de cada base varia entre 4 e 60. Indica a chance da base estar correta Quanto maior melhor É determinado pela análise do cromatograma Q Pe Segurança 10 1 em 10 90% 20 1 em 100 99% 30 1 em 1.000 99,9% 40 1 em 10.000 99,99% 50 1 em 100.000 99,999% Q = -10 * log10(Pe) Pe = Probabilidade da base estar errada

Phred - Exemplo Entrada: Saída: Arquivo de cromatograma: LCP5AGGEU!LIKAA05.g Formato ABI 377 Saída: Seqüência (formato FASTA): >LCP5AGGEU!LIKAA05.g ... tgagtggnnnnnnntttgaacactgtg... ... cagtggcggggccggggcaacggtgtt... aaaccagctcttcttatatagg Qualidade (formato FASTA): >LCP5AGGEU!LIKAA05.g ... 6 8 8 8 6 6 4 0 0 0 0 0 0 0 4... ... 15 11 9 8 8 8 8 8 9 9 9 9 9 11... 8 7 7 7 7 7

Phred –Exemplo (visualização) Bases: 105-128 Qualidade ótima Visualização via applet TraceViewer

Phred –Exemplo (visualização) Bases: 658-690 Qualidade ruim Definição inferior

Phred – Parâmetros Ao executar o Phred, 50 parâmetros podem ser especificados de acordo com a necessidade do usuário. Exemplos: Diretório dos arquivos de entrada/saída; Tipo do formato de saída; Rejeitar bases cuja qualidade seja inferior a um limite especificado;

Phrap – Phragment Assembly Program Realiza a montagem de seqüências de DNA em contigs. Se as informações sobre a qualidade das seqüências lidas existir, estas são usadas para melhorar o desempenho. Produz diversas informações sobre os contigs gerados Úteis para ajudar na visualização do resultado e no processo de finalização da montagem de fragmentos.

Phrap – Interface via arquivos Seqüências de DNA Qualidade das seqüências Formato: FASTA CCCCTTTCGCCAG 10 12 10 20 30 23 12 ... TCGCCAGACACAC 13 35 23 43 34 33 34 ... TTTTTAAACC 10 23 12 23 34 23 23 ... opcional Phrap Contigs Informações Extras Informações para Consed (.ace) Lista de seqüências em cada contig Qualidade das bases em cada contig ... CCCCTTTCGCCAGACACAC TTTTTAAACC Formato: FASTA

Phrap – Definição de contigs Realiza um pre-processamento da entrada; Determina regiões de overlap entre todos os pares de seqüências; Cria um grafo direcionado baseado no passo 2; Produz contigs baseado no grafo definido em 3; Utiliza o algoritmo guloso para selecionar as arestas em ordem decrescente

Phrap – Pre-processamento Constrói os complementos das seqüências lidas (do arquivo “nome.fasta”) e adiciona ao conjunto de seqüências; Elimina do conjunto as seqüências duplicadas; A similaridade entre todos os pares já é calculada aqui; Faz um vector screening no conjunto; Salva o resultado num arquivo FASTA; Esse novo arquivo (nomeado “nome.fasta.screen”) será o arquivo utilizado pelo phrap; Um novo arquivo de qualidade, nomeado “nome.fasta.screen.qual” é também criado;

Phrap – Vector Screening Encontra no conjunto seqüências de bases que correspondem a vectors. Tais bases são modificadas para ´X´ e não serão utilizadas pelo phrap; Essas bases foram introduzidas em laboratório para a geração dos cromatogramas, portanto não fazem parte do organismo em estudo; Os vectors a serem procurados, que são seqüências normais (acgt...), devem estar em um arquivo no formato FASTA; Caso este arquivo não seja informado, o phrap utiliza um arquivo padrão que contém todos os possíveis vectors usados normalmente;

Phrap – Exemplo Abordagem: Partir de uma seqüência conhecida, dividir em partes, processar e observar a qualidade do resultado; Explorar seqüências com repetições; Não foram utilizados arquivos de qualidade, uma vez que as seqüências foram editadas manualmente;

Phrap – Exemplo Seqüência original: Entrada criada: Resultado: Reconstrução total 1 X 2 X 3 X 4 1 X 2 3 X 4 2 X 3 X X 1 X 2 X 3 X 4

Phrap – Parâmetros Ao executar o Phrap, 53 parâmetros podem ser especificados de acordo com a necessidade do usuário. Exemplos: Qualidade padrão para cada base (caso não haja arquivo de qualidade); Scores usados no alinhamento de seqüências (mismatch, insertion, deletion, etc); Tamanho mínimo de overlap entre seqüências para que haja alinhamento;

Consed – The Contig Editor for Phred-Phrap Ferramenta de visualização do resultado produzido pelo Phrap Permite edição visual dos dados Inserção, remoção e alteração de (blocos de) bases Fortemente integrada com o Phrap Permite que o Phrap perceba as alterações realizadas em seu resultado e automaticamente tome as mesmas decisões em futuras montagens realizadas no mesmo projeto.

Consed – Iterface Consed Contigs Informações Informações para Consed (.ace) Lista de seqüências em cada contig Qualidade das bases em cada contig ... CCCCTTTCGCCAGACAC TTTTTAAACC Formato: FASTA Consed

Considerações Finais Embora os três programas sejam bastante parametrizáveis ... Phred, 50 parâmetros; Phrap, 53 parâmetros ... se eles forem utilizados em conjunto, apenas um comando, PhredPhrap, é necessário para executar os programas e poder visualizar o resultado.

Considerações Finais A utilização separada dos programas só é recomendada se o projeto não possuir os cromatogramas Caso contrário, ou seja, se a entrada tiver origem de máquinas de seqüenciamento, o ideal é utilizar o Phred para gerar as seqüências. Para que os arquivos de qualidade a serem usados pelo Phrap sejam produzidos.

Considerações Finais A visualização do cromatograma pelo TraceViewer mostra que a não utilização dos arquivos de qualidade é uma grande desvantagem e é muito perigosa Pois um fator de qualidade padrão tanto prejudica a montagem de partes boas quanto ruins da seqüência.

Considerações Finais Ao executar o phrap, observar se os vectors utilizados no seqüenciamento em laboratório estão sendo corretamente mascarados nas seqüências. Observando se no arquivo “.fasta.screen” os vectors foram substituídos por seqüências de ‘X’; Se não, definir um novo arquivo com as seqüências para cada vector.

Referências The Phred - Phrap Package: A brief description, http://www.phrap.com/background.htm Phred, http://www.phrap.com/phred/index.htm Consed - The Contig Editor for Phred-Phrap, http://www.phrap.com/consed/index.htm The Phred/Phrap/Consed System Home Page, http://www.phrap.org/ Interpretation of Sequencing Chromatograms, http://seqcore.brcf.med.umich.edu/doc/dnaseq/interp.html Trace Viewer, http://bcf.arl.arizona.edu/tools/TraceViewerApplet/phred-upload.php3