Matrizes para Análise de Similaridade entre Seqüências.

Slides:



Advertisements
Apresentações semelhantes
Lógica de Predicados e Representação de Conhecimento
Advertisements

Unidade VII Algoritmos Genéticos
Aprendizado de Máquina
UNIVERSIDADE FEDERAL DE UBERLÂNDIA ENGENHARIA CIVIL INTRODUÇÃO À ALGORITMOS Professora: Fabíola Gonçalves.
GENÉTICA DE POPULAÇÕES
Algoritmos para Geração de Variáveis Aleatórias
ANÁLISE DISCRIMINANTE LIG, 18 de novembro de 2008.
ANÁLISE DISCRIMINANTE
ESTIMAÇÃO.
Resolução.
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.
INE Fundamentos Matemáticos da Computação
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
FILOGENIA DAS ANGIOSPERMAS: PRIMEIROS PASSOS
Medida do Tempo de Execução de um Programa
Computação Evolutiva: Programação Genética
Otimização de Funções Contínuas via Algoritmos Genéticos Adaptado do trabalho realizado por: Frederico Heitor Mônica do Amaral.
Reconhecimento de Padrões Teoria da Decisão Bayesiana
Avaliação de Desempenho Planejamento de Experimentos 2 Aula 2 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de.
Inteligência Artificial
AULA – Linguagem C – Vetores, Ponteiros Estruturas
O que você deve saber sobre
Evolução Molecular Metodologias de Análise
1 – Matrizes: Operações e Propriedades
Marco Antonio Montebello Júnior
Estatística Descritiva
Estatística e Probabilidade
J. Landeira-Fernandez Ética e Ciência
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Informática Teórica Engenharia da Computação
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
3 - MATRIZ COMPLEMENTAR E CO-FATOR
GENÉTICA DE POPULAÇÕES.
Estatística – Unidade 2.
Aula T06 – BCC202 Análise de Algoritmos (Parte 4) Túlio Toffolo
Etapa Estatística Planejamento Análise Estatística Efeito de sequência
Instituto de Aplicação Fernando Rodrigues da Silveira (CAp/UERJ)
Sistema de equações lineares
Bioinformática (Alinhamento de Seqüências)
Site: Estatística Prof. Edson Nemer Site:
Site: Estatística Prof. Edson Nemer Site:
Non-Experimental Methods. Objetivo: Isolar o efeito das nossas intervenções sobre os resultados de interesse  Utilizar métodos de avaliação rigorosos.
Microsoft Office Excel 2010
Resolução de sistemas de equações lineares
Análise de Agrupamentos
Alinhamento de sequências
Estatística e Probabilidade
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Definições e tipos de alinhamento. O uso do BLAST
Melhorando Alinhamentos Locais Katia Guimarães
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Modelos de evolução molecular
Domínios, Motivos, Padrões e Perfis
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
PCN DO ENSINO FUNDAMENTAL   CONCEITOS E PROCEDIMENTOS PARA O QUARTO CICLO     ANDRÉIA MORALES DE MELO ALMEIDA    
Alinhamento Global de Seqüências Katia Guimarães.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
DETERMINANTES.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Taís Sineiro Herig Laboratório de Genômica e Expressão / UNICAMP
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.
PC - Semana61 MODELANDO SISTEMAS LTI NO DOMÍNIO DA FREQUÊNCIA.
Transcrição da apresentação:

Matrizes para Análise de Similaridade entre Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Matrizes para Análise de Similaridade entre Seqüências. Samuel Mazzinghy Alvarenga

Introdução As Matrizes de valores são usadas em todas as análises que envolvem comparação de seqüências A escolha da matriz tem uma influência forte no resultado da análise. Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolha Tipos de matrizes de valores: Matriz unitária - usada para dar valores à pares de nucleotídeos Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos.

Matriz Unitária ou Identidade Somente caracteres idênticos recebem valor positivo: • Valor > 0 para pares reais; • Valor ≤ 0 para pares falsos. As matrizes de similaridade usadas em: FASTA BLAST: 1 -1 G C T A 5 -4 G C T A

Matriz Unitária ou Identidade Estas matrizes funcionam (e são usadas) ... ...mas o mundo real é mais complicado. As freqüências de transições (purina-purina; pirimidina-pirimidina) e transverções (purina-pirimidina e vice-versa) não são iguais. - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos cromossomos. Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso uma análise mais sofisticada.

Matrizes de Substituição São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como eles são substituídos durante a evolução. Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um outro de igual tamanho em vez de um aminoácido maior.

Matrizes de Substituição Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve em conta estas probabilidades Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo período de evolução São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos entre seqüências de aminoácidos

Matrizes de Substituição As mais conhecidas são : PAM (Point Accepted Mutation) BLOSUM (BLOcks SUbstitution Matrix)

Matrizes PAM (Dayhoff, 1978) Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas em base de dados biológicas A construção destas matrizes baseou-se na obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito semelhantes Permite obter relações evolutivas para proteínas da mesma família e permite ainda a extrapolação desta informação para outras distâncias evolutivas

Matrizes PAM Passos para a obtenção da matriz Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade. 1 2 3 4 5 6 7 8 9 A C G C T A F K I G C G C T A F K I A C G C T A F K L G C G C T G F K I G C G C T L F K I A S G C T A F K L A C A C T A F K L Exemplo - minimiza ambigüidades no alinhamento maximiza o número de posições com mutações (i.e. evitar introdução de gaps)

Matrizes PAM Passos para a obtenção da matriz 2) Construir um arvore inferindo a seqüência das substituições ACGCTAFKI GCGCTAFKI ACGCTAFKL GCGCTGFKI GCGCTLFKI ASGCTAFKL ACACTAFKL A1G I9L A6G A6L C2S G3A

Matrizes PAM fab = fba fG,A = fA,G = 3 Passos para a obtenção da matriz 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução). fab = fba No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto: fG,A = fA,G = 3

Matrizes PAM Passos para a obtenção da matriz 4) Calcula a mutabilidade relativa (ma) de cada aminoácido a) Probabilidade (freqüência) de a no alinhamento, pa, onde E.g. alanina aparece 10 vezes de um total de 63 aas; pa = 10/63 = 0,1587 b) O número de vezes que a é substituída (fa): E.g. de alanina, A1G, A6G, A6L e G3A: fa= 4 c) O número total de aas envolvidos em mutações (f): no exemplo são 6 mutações, portanto 6 x 2 aas: f = 12 Mutabilidade relativa, ma: Fator de 100 “normaliza” a mutabilidade para a taxa de substituições por 100 aas. E.g. de alanina ma = 4 / (100 x 12 x 0,1587 ) = 0,0209

Matrizes PAM Passos para a obtenção da matriz 5) Mab é a probabilidade que a b: = P (a b) = E.g. para alanina/glicina; fab =3 (passo 3); fa = 4 (passo 4b); ma = 0,0209 (passo 4c) MA,G = ( 3 / 4 ) x 0,0209 = 0,0156 6) Calcular a probabilidade de não ocorrer nenhuma mutação - Maa 7) Finalmente calcula a matriz, Rij, (Relatedness Odds Matrix) normalizando as probabilidades de mutação (Mab) com a probabilidade (freqüência) de cada aa no alinhamento (pb): E.g. RA,G = MA,G / fG = 0,0156 / (10 / 63 ) = 0.0982

Matrizes PAM A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a matriz é chamada PAM1 A manipulação matemática permite que esta matriz possa usada para calcular outras matrizes: Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds):

Matrizes PAM Para k = 250 i.e 2,5 substituições por posição no alinhamento OU: 250 substituições por 100 aa no alinhamento: PAM250

Matrizes PAM Vantagens de matrizes PAM: Desvantagens de matrizes PAM: Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricas - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. busca de parálogos/ortólogos com alto nível de identidade entre as seqüências Desvantagens de matrizes PAM: Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição “padrão” de aas O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatória (conservação de motifs por exemplo)

Matrizes BLOSUM (Henikoff, 1992) Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, de famílias de proteínas As seqüências foram agrupadas sempre que a percentagem de caracteres idênticos excedesse um determinado nível L

Matrizes BLOSUM Passos para a obtenção da matriz Construir um alinhamento sem gaps das regiões conservadas de uma família de proteínas. Regiões chamadas de blocos conservados (conserved blocks) são identificadas, e são analisadas para calcular as matrizes 1 2 3 4 5 1 S A A I F 2 A S A L G 3 Q T A L Y 4 T T A V E 5 L A A L N Blocos conservados de mais de 1500 famílias de proteínas estão disponíveis no banco de dados BLOCKS: http://blocks.fhcrc.org/ Bloco conservado

Matrizes BLOSUM Passos para a obtenção da matriz 2) Eliminação de seqüências com alto grau de identidade. - Este passo evita que os blocos analisados contenham “bias” - As seqüências similares são eliminadas ou substituídas por uma seqüências consenso. O grau de similaridade entre as seqüências no bloco pode ser escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente. 3) Contar pares de aas em cada coluna: 1 A A I 2 S A L 3 T A L 4 T A V 5 A A L 1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A E.g. Análise da 1o coluna: O mesmo par e contado uma vez só

Matrizes BLOSUM Passos para a obtenção da matriz 4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (qij) para formar uma matriz, M, 20x20. qab = Número total de pares Número de um par observado No exemplo: AS: 2 AT: 4 AA: 1 ST: 2 TT: 1 --- 10 TOTAL = qAS: 0,2 qAT: 0,4 qAA: 0,1 qST: 0,2 qTT: 0,1 5) Calcular a freqüência de cada aa (pi): E.g. Treonina e Alanina no exemplo acima: PT = qTT + (qAT + qST)/2 PA = qAA + (qAT)/2 = 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2 = 0,4 = 0,3

para os pares TT e AT no exemplo: Matrizes BLOSUM Passos para a obtenção da matriz 6) a) Calcula a freqüência de cada par de aas (eab): eij = 2pi pj , i = j eij = pi2 , i = j para os pares TT e AT no exemplo: eTT = 0,4 x 0,4 = 0,16 eAT = 2 x 0,3 x 0,4 = 0,24 b) Para cada elemento i e j na matriz M, calcular a probabilidade normalizada: Sij = log2 ( qij / eij ) Esta matriz representa um “logarithm of odds” e está pronta para ser usada por algoritmos computacionais

Matrizes BLOSUM A matriz BLOSUM62 - Sa,b = log2 ( qa,b / pa )

PAM vs. BLOSUM O modelo PAM tem a capacidade de evidenciar a origem evolutiva de proteínas O modelo Blosum tem a capacidade de evidenciar domínios conservados em proteínas Regras práticas • Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada semelhança • Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longos

Defina a pergunta e depois escolha a matriz PAM vs. BLOSUM PAM BLOSUM Calculada a partir de alinhamentos globais Calculada a partir de alinhamentos locais As seqüências de proteínas usadas no alinhamento têm >99% identidade Pode se selecionar o nível de similaridade entre as seqüências usadas na análise As matrizes são extrapolações matemáticas do matriz PAM1 Cada matriz é um resultado de uma análise de um alinhamento de blocos conservados Defina a pergunta e depois escolha a matriz