Principais algoritmos de alinhamento de sequências genéticas

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Instituto de Computação
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 8.
Introdução aos Computadores e Programação DI-FCT-UNL-2005/2006 Introdução 1.1 Octave Ficheiros (matrizes e registos)
Matrizes para Análise de Similaridade entre Seqüências.
Uso da bioinformática na análise genômica
Eukaryotic and prokaryotic promoter prediction using hybrid approach Hao Lin Qian-Zhong Li Theory in Biosciences, 2011.
Lógica de Programação Módulo II
Identificação computacional de genes de microRNA
Métodos de distância e modelos de evolução molecular
Aula 4: Matrizes e Operações Matriciais
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Alinhamento Múltiplo de SeqUências Utilizando Algoritmos Genéticos
InferÊncia de Haplótipos
Intr. à Biologia Computacional
Intr. à Biologia Computacional
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
Matemática para Economia III
DIAGNÓSTICO DE DOENÇAS GENÉTICAS: MÉTODOS DE RASTREAMENTO
ESTRUTURAS ALGÉBRICAS
3 - MATRIZ COMPLEMENTAR E CO-FATOR
Modelagem por Homologia
Bioinformática (Alinhamento de Seqüências)
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Bancos de Dados.
Matemática para Economia III
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Uma Visão Geral Sobre Reconstrução Filogenética
Alinhamento de sequências
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Biologia Molecular – Profª Kátia Guimarães e Prof.º Marcos Morais Jr. Motif Regressor Artigo:Integrating regulatory motif discovery and genome-wide expression.
Árvores Filogenéticas
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Distância Mínima de Edição Profa. Sandra de Amo Bacharelado em Ciência da Computação - UFU.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Best Combination of Binarization Methods for License Plate Character Segmentation (2013) - Resumo Vinicius Queiroz e Vinicius M. de Almeida.
Definições e tipos de alinhamento. O uso do BLAST
Melhorando Alinhamentos Locais Katia Guimarães
COEFICIENTE DE VARIAÇÃO
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Intr. à Biologia Computacional ALINHAMENTOS ÓTIMOS GLOBAIS.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Domínios, Motivos, Padrões e Perfis
Solved Exercises 1. Finding the Peak. Let A= a 1,…,a n be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Alinhamentos Múltiplos
CÁLCULO NUMÉRICO Aula 5 – Sistema de Equações lineares.
C. van Loveren M.A. Hoogenkamp D.M. Deng J.M. ten Cate Department of Cariology, Endodontology, Pedodontology, Academic Centre for Dentistry Amsterdam (ACTA),
Bioinformática Felipe G. Torres.
FERRAMENTAS DE ANÁLISE MOLECULAR
Alinhamento Global de Seqüências Katia Guimarães.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Arrays Outline 7.1 Introdução 7.2 Arrays 7.3 Declarando e Criando Arrays 7.4 Exemplos usando arrays 7.5 Ordenando arrays 7.6 Procurando em.
Sistemas de Controle III N8SC3
Transcrição da apresentação:

Principais algoritmos de alinhamento de sequências genéticas Alexandre dos Santos Cristino http://www.ime.usp.br/~alexsc e-mail: alexsc@ime.usp.br

Definição de alinhamento de sequências Comparação de duas ou mais sequências por meio de buscas de uma série de caracteres ou padrões de caracteres que estão na mesma ordem. A L I G N M E N T | | | | | | | - L I G A M E N T

Alinhamento global e local o alinhamento se extende por toda sequência Local o alinhamento localiza fragmentos de sequências que são mais similares

Significado biológico do alinhamento de sequências Definindo 3 termos importantes: identidade -> refere-se à presença do mesmo ac. nucléico (nt) ou aminoácido (aa) na mesma posição em 2 seqs. alinhadas. similaridade -> porcentagem de nt idênticos ou de aa com propriedades químicas semelhantes. homologia -> refere-se a relação evolutiva entre as seqs. Duas sequências homólogas derivam da mesma seq. ancentral. o alinhamento é muito útil na predição de função, estrutura e inferência filogenética.

Relação entre as sequências

Métodos de alinhamento de sequências Alinhamento de pares de seqs. Matriz de pontos (dot matrix). Programação dinâmica. Dicionário de palavras ou k-tuplas (BLAST). Alinhamento de múltiplas seqs.

Matriz de pontos (dot plot) Comparar duas sequências buscando possíveis alinhamentos de caracteres entre as seqs.

Matriz de pontos (dot plot) Comparação de sequências genômicas pareadas

Matriz de pontos (dot plot) Sequências repetitivas e inversões

Programação dinâmica (PD) Método computacional que calcula o melhor alinhamento possível entre sequências Principais variáveis do programa: match mismatch gap

Example de uma Matriz PD Sequence #1: GAATTCAGTTA; M = 11 Sequence #2: GGATCGA; N = 7 Matriz PD: M+1 linhas, N+1 colunas

Descrição do algoritmo de PD Si,j = MAX[ Si-1, j-1 + s(ai,bj) (match/mismatch), Si,j-1 + w (gap seq #1), Si-1,j + w (gap seq #2) ]  Variáveis do programa: ·        s(aibj) = +5 if ai = bj (match score) ·        s(aibj) = -3 if aibj (mismatch score) ·        w = -4 (gap penalty)

Alinhamento global (Needleman-Wunsch) Inicialização da 1a. linha e 1a. coluna: Si,0 = w * i S0,j = w * j

Preenchendo a Matriz PD (alinhamento global) S1,1 = MAX[S0,0 + 5, S1,0 - 4, S0,1 - 4] = MAX[5, -8, -8]

Preenchendo a Matriz PD (alinhamento global) S1,2 = MAX[S0,1 -3, S1,1 - 4, S0,2 - 4] = MAX[-4 - 3, 5 – 4, -8 – 4] = MAX[-7, 1, -12] = 1

Matriz PD preenchida (alinhamento global)

Trace back (alinhamento global)

Trace back (alinhamento global) G A A T T C A G T T A | | | | | | G G A – T C – G - — A

Verificando o score de alinhamento G A A T T C A G T T A | | | | | | G G A – T C – G - — A   + - + - + + - + - - + 5 3 5 4 5 5 4 5 4 4 5 5 – 3 + 5 – 4 + 5 + 5 – 4 + 5 – 4 – 4 + 5 = 11

Alinhamento local (Smith-Waterman) Variação do algoritmo de Needleman-Wunsch. Possui 2 modificações: valor negativo para mismatch valor da matriz de score negativo e trocado por zero (se inicia um novo alinhamento)

Início do alinhamento local

Preenchendo a Matriz PD (alinhamento local) S1,1 = MAX[S0,0 + 5, S1,0 - 4, S0,1 – 4,0] = MAX[5, -4, -4, 0] = 5

Preenchendo a Matriz PD (alinhamento local) S1,2 = MAX[S0,1 -3, S1,1 - 4, S0,2 – 4, 0] = MAX[0 - 3, 5 – 4, 0 – 4, 0] = MAX[-3, 1, -4, 0] = 1

Matriz PD preenchida (alinhamento local)

Trace back (alinhamento global)

Trace back (alinhamento global)

Trace back (alinhamento global)

Melhores alinhamentos locais G A A T T C - A | | | | | G G A T – C G A   + - + + - + - + 5 3 5 5 4 5 4 5 G A A T T C - A | | | | | G G A – T C G A   + - + - + + - + 5 3 5 4 5 5 4 5

K-tuplas (BLAST)

Referências Gibbs, A. J. & McIntyre, G. A. (1970) The diagram method for comparing sequences. its use with amino acid and nucleotide sequences. Eur. J. Biochem. 16, 1-11. Mount, D. (?) Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Lab. Press. Smith, T.F. and Waterman, M.S. (1981) Identification of common molecular subsequences. J. Mol. Biol. 147, 195-197. Needleman S.B. and Wunsch, C.D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol. 48, 443-453. Gibas, C. and Jambeck, P. (2001) Desenvolvendo bioinformática. O’reilly. Sites http://www.ime.usp.br/~durham http://kbrin.kwing.louisville.edu/~rouchka/CECS694/ http://www.lbm.fmvz.usp.br