Análise Computacional de Seqüências Nucleotídicas e Protéicas

Slides:

Advertisements

Apresentações semelhantes

Clustal-W Oscar Miranda.

Advertisements

Instituto de Computação

Geração da diversidade de anticorpos

Estruturas de Dados Marcio Gonçalves.

INTELIGÊNGIA COMPUTACIONAL

Engenharia de Software

ARQUITETURA DE COMPUTADORES II

Matrizes para Análise de Similaridade entre Seqüências.

GRASP Greedy Randomized Adaptative Search Procedure

FILOGENIA DAS ANGIOSPERMAS: PRIMEIROS PASSOS

Estrutura e movimento a partir de imagens

Rejane Sobrino Pinheiro Tania Guillén de Torres

Indexação e Hashing Muitas consultas referenciam apenas uma pequena porção dos registros em uma tabela. Portanto necessitamos ser capaz de localizar estes.

Processo Desenvolvimento de Software Tradicional

Dividir-e-Conquistar

O Surgimento dos Sistemas de Bioinformática

Evolução Molecular Metodologias de Análise

Anderson Berg Orientador: Prof. Fernando Buarque

Métodos de distância e modelos de evolução molecular

Diagramas de Sequência e Comunicação

Análise Computacional de Seqüências Nucleotídicas e Protéicas

[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]

Fundamentos da Arquitetura de Computadores

Replicação, transcrição e tradução

Treinamento do Microsoft® Access® 2010

Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.

Tópicos em redes e sistemas distribuídos Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.

Rodrigo Cristiano Silva

Gerenciamento de Dados

Introdução e Busca Cega

Introdução aos Agentes Inteligentes Busca Cega (Exaustiva)

Bioinformática (Alinhamento de Seqüências)

Redes Bayesianas - Aplicação em Risco Operacional

Modelagem de Negócio no RUP

Sobre notas no Moodle Notas são pontuações atribuídas às avaliações de atividades dos participantes em um curso do Moodle, que são postadas no boletim,

ARQUITETURA DE COMPUTADORES II

SISTEMAS OPERACIONAIS I

Criando uma formatação

Alinhamento de sequências

O que é? É o processo de investigação técnica com intuito de identificar a qualidade, a segurança e a exatidão do software desenvolvido. A validação do.

CAP3 (Contig Assembly Program)

Equações algébricas e transcendentais

Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.

RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.

Árvores AVL Balanceadas (Árvore Binária Balanceada)

Definições e tipos de alinhamento. O uso do BLAST

Engenharia de Software

Resolução de Problemas de Busca

LICENCIATURA EM EDUCAÇÃO FÍSICA

Sequenciamento de Genomas

Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.

Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS

Engenharia de Software

Mecanismo de sugestão e processo de caracterização de redes sociais

Domínios, Motivos, Padrões e Perfis

Capítulo 9: SAD orientado a Modelo

Algoritmos e Heurísticas para Seqüenciamento de DNA

Principais algoritmos de alinhamento de sequências genéticas

Alinhamentos Múltiplos

Busca Competitiva Disciplina: Inteligência Artificial

Sistemas de Informação e Pesquisa de Marketing Global

Alinhamento Global de Seqüências Katia Guimarães.

Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Sylvia Campos da Luz e Silva Universidade Federal de Pernambuco Centro de Informática Pós-Graduação em Ciência da Computação.

Gerenciamento de riscos

Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.

Nossos 2 olhos formam imagens ligeiramente diferentes do mundo A diferença entre as posições de objetos nas 2 images é chamada de disparidade O termo disparidade.

Transcrição da apresentação:

Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Um exemplo de um alinhamento múltiplo

Porque precisamos de alinhamentos múltiplos? Um alinhamento múltiplo, seja de sequências de DNA ou de proteína, pode fornecer muito mais informação do que uma única sequência. Quando lidando com uma nova proteína, de função desconhecida, a presença de domínios similares a outros em proteínas conhecidas pode implicar em função ou estrutura semelhante.

Porque precisamos de alinhamentos múltiplos? É sabido que a pressão seletiva resulta da necessidade de se conservar uma função. Em proteínas, a manutenção da função requer uma estrutura 3D específica. Portanto, alinhamentos múltiplos de proteínas podem fornecer alguma informação sobre a estrutura 3D das mesmas.

Estratégia Alinhamento par-a-par Busca nos bancos de dados Alinhamento múltiplo

Estratégia Alinhamento múltiplo Modelagem por homologia Análise filogenética Buscas avançadas em bancos de dados: padrões, motivos, promotores

Porque precisamos de alinhamentos múltiplos? Para revelar os relacionamentos entre um grupo de sequências (homologia). Para caracterizar famílias protéicas – identificar regiões conservadas e determinar as regiões variáveis. Regiões similares podem indicar funções similares (por exemplo, promotores no DNA).

Porque precisamos de alinhamentos múltiplos? Planejar mutações pontuais, desenhar primers e/ou sondas especiais. Construir um perfil da família, o que possibilitará buscas mais avançadas, capazes de localizar membros mais distantes da mesma família.

Porque precisamos de alinhamentos múltiplos? Alinhamentos múltiplos são utilizados por programas de modelagem protéica. Podem ajudar na predição das estruturas secundária e terciária de novas sequências. Alinhamentos múltiplos servem de input para a construção de árvores filogenéticas.

O desafio computacional dos alinhamentos múltiplos Encontrar o alinhamento ótimo de um grupo de sequências incluindo matches, mismatches e gaps é muito difícil. Para alinhamentos par-a-par, métodos de programação dinâmica são utilizados, mas não são práticos para alinhamentos múltiplos (muitos cálculos, muito tempo de CPU).

O desafio computacional dos alinhamentos múltiplos As dificuldades de se alinhar um grupo de sequências variam conforme o grau de similaridade entre as sequências. Um alto grau de variação entre as sequências implica em um grande número de alinhamentos possíveis, o que torna muito difícil encontrar o alinhamento “ótimo”.

O desafio computacional dos alinhamentos múltiplos Métodos aproximados são utilizados ao invés de métodos de programação dinâmica. Outro desafio computacional é a inserção e pontuação de gaps nas sequências alinhadas.

Métodos aproximados Alinhamento global progressivo de todas as sequências. Começa com as sequências mais similares, construindo o alinhamento pela adição do resto das sequências. Métodos iterativos: começa pela construção de um alinhamento múltiplo de um pequeno grupo de sequências, e depois revisa o alinhamento para a obtenção de melhores resultados.

Métodos aproximados Alinhamentos baseados em pequenos domínios (ou padrões) conservados, encontrados na mesma ordem nas sequências alinhadas. Alinhamentos baseados em modelos probabilísticos ou estatísticos das sequências.

Alinhamento múltiplo O método mais prático e utilizado para a construção de alinhamentos múltiplos é o alinhamento global progressivo. Como funciona?

Passos para a construção de um alinhamento múltiplo Comparações par-a-par de todas as sequências. Começa com o par mais relacionado (similar), depois o par seguinte, e assim por diante. Realizar análise de “clusterização” para a obtenção de uma hierarquia para o alinhamento, que pode ser na forma de uma árvore binária.

Dicas na escolha de suas sequências Sequências retiradas diretamente dos bancos de dados podem conter dados irrelevantes (vários genes, fragmentos de diferentes tamanhos). Cheque suas sequências e use somente a parte relevante para o alinhamento. Edite e remova as outras partes antes do alinhamento. Tente usar sequências com aproximadamente o mesmo tamanho para o alinhamento.

Dicas na escolha de suas sequências De forma geral: Quanto mais sequências, melhor. Não inclua sequências muito similares (>80%). Os sub-grupos devem ser alinhados separadamente, e somente um membro de cada sub-grupo deve ser incluído no alinhamento múltiplo final.

O que você necessita saber sobre os programas para a construção de alinhamentos múltiplos Quase todos os programas irão alinhar quaisquer sequências que o usuário fornecer como input. Sempre retornarão um alinhamento, mesmo que as sequências não sejam relacionadas entre si. A maioria dos programas irá inserir gaps. Entretanto, uma vez inseridos, eles estão lá para ficar. Você deve checar como o programa trata com a inclusão de gaps nos finais das sequências.

Métodos de alinhamento múltiplo global Clustalw http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html MSA http://www.ibc.wustl.edu/ibc/msa.html PRALIGN http://mathbio.nimr.mrc.ac.uk/~jhering/pralign

Métodos iterativos de alinhamento múltiplo DIALIGN http://www.gsf.de/biodv/dialign.html MultAlign http://protein.toulouse.inra.fr/multalign.html

Métodos de alinhamento múltiplo local BLOCKS http://blocks.fhcrc.org/blocks/ HMMER http://hmmer.wustl.edu MEME http://meme.sdsc.edu/meme/website SAM http://www.cse.ucsc.edu/research/compbio/sam.html

ClustalW O ClustalW pode criar alinhamentos múltiplos, editar alinhamentos existentes e criar árvores filogenéticas. O alinhamento pode ser feito por dois métodos: Lento e preciso Rápido e aproximado

ClustalW O seu algoritmo consiste em três etapas: 1. Alinhamentos par-a-par são feitos entre todas as sequências no grupo em estudo. Pontuações são utilizadas para se construir uma matriz de distâncias. Ao calcular essa matriz, o programa leva em consideração a divergência entre as sequências.

ClustalW 2. Uma árvore “guia” (filogenética) é construída a partir da matriz de distâncias utilizando o método de neighbour-joining. Essa árvore-guia tem ramos de diferentes tamanhos. Seu tamanho é proporcional ao tempo de divergência estimado ao longo de cada ramo.

ClustalW 3. O alinhamento progressivo das sequências é feito, seguindo a ordem dos ramos na árvore-guia. As sequências são alinhadas das extremidades até a raiz. Este alinhamento é feito de acordo com as relações filogenéticas encontradas na árvore-guia.

ClustalW

ClustalW

ClustalX – uma interface Windows para o ClustalW

Outras opções T-Coffee PileUp (GCG) http://igs-server.cnrs-mrs.fr/Tcoffee/ PileUp (GCG) http://www.accelrys.com/products/gcg_wisconsin_package/

T-Coffee Gera dois conjuntos de alinhamentos, um global (ClustalW) e outro local (lalign). Pesa, compara e combina. Faz pontuação posição-específica. Alinhamento progressivo (as penalidades para os gaps não são necessárias devido a estratégia de ponderação)

T-Coffee

PileUp (GCG) O PileUp cria um alinhamento múltiplo de sequências a partir de um grupo de sequências relacionadas usando alinhamentos par-a-par de forma progressiva. Também pode “plotar” uma árvore mostrando os agrupamentos usados na construção do alinhamento.

PileUp (GCG)

PileUp (GCG)

PileUp (GCG) O PileUp faz alinhamento par-a-par de todas as sequências utilizando o método de Needleman & Wunsch. As pontuações dos alinhamentos são utilizadas para produzir uma árvore pelo método UPGMA (Unweighted Pair-Group Method with Arithmetic mean) de Sneath & Sokal. Esta árvore é usada para guiar o alinhamento de um grupo de sequências relacionadas.

PileUp (GCG) O PileUp faz um alinhamento múltiplo global, e portanto é bom para um grupo de sequências similares. Irá falhar na determinação da região de maior similaridade (como por exemplo um motivo compartilhado) entre sequências relacionadas mas distantes. Sempre alinha todas as sequências que você especificar, mesmo que não sejam relacionadas. O alinhamento pode perder em qualidade caso algumas das sequências sejam relacionadas mas bastante divergentes.