A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Matrizes para Análise de Similaridade entre Seqüências.

Apresentações semelhantes


Apresentação em tema: "Matrizes para Análise de Similaridade entre Seqüências."— Transcrição da apresentação:

1 Matrizes para Análise de Similaridade entre Seqüências.
Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Matrizes para Análise de Similaridade entre Seqüências. Samuel Mazzinghy Alvarenga

2 Introdução As Matrizes de valores são usadas em todas as análises que envolvem comparação de seqüências A escolha da matriz tem uma influência forte no resultado da análise. Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolha Tipos de matrizes de valores: Matriz unitária - usada para dar valores à pares de nucleotídeos Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos.

3 Matriz Unitária ou Identidade
Somente caracteres idênticos recebem valor positivo: • Valor > 0 para pares reais; • Valor ≤ 0 para pares falsos. As matrizes de similaridade usadas em: FASTA BLAST: 1 -1 G C T A 5 -4 G C T A

4 Matriz Unitária ou Identidade
Estas matrizes funcionam (e são usadas) ... ...mas o mundo real é mais complicado. As freqüências de transições (purina-purina; pirimidina-pirimidina) e transverções (purina-pirimidina e vice-versa) não são iguais. - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos cromossomos. Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso uma análise mais sofisticada.

5 Matrizes de Substituição
São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como eles são substituídos durante a evolução. Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um outro de igual tamanho em vez de um aminoácido maior.

6 Matrizes de Substituição
Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve em conta estas probabilidades Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo período de evolução São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos entre seqüências de aminoácidos

7 Matrizes de Substituição
As mais conhecidas são : PAM (Point Accepted Mutation) BLOSUM (BLOcks SUbstitution Matrix)

8 Matrizes PAM (Dayhoff, 1978)
Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas em base de dados biológicas A construção destas matrizes baseou-se na obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito semelhantes Permite obter relações evolutivas para proteínas da mesma família e permite ainda a extrapolação desta informação para outras distâncias evolutivas

9 Matrizes PAM Passos para a obtenção da matriz
Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade. A C G C T A F K I G C G C T A F K I A C G C T A F K L G C G C T G F K I G C G C T L F K I A S G C T A F K L A C A C T A F K L Exemplo - minimiza ambigüidades no alinhamento maximiza o número de posições com mutações (i.e. evitar introdução de gaps)

10 Matrizes PAM Passos para a obtenção da matriz
2) Construir um arvore inferindo a seqüência das substituições ACGCTAFKI GCGCTAFKI ACGCTAFKL GCGCTGFKI GCGCTLFKI ASGCTAFKL ACACTAFKL A1G I9L A6G A6L C2S G3A

11 Matrizes PAM fab = fba fG,A = fA,G = 3
Passos para a obtenção da matriz 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução). fab = fba No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto: fG,A = fA,G = 3

12 Matrizes PAM Passos para a obtenção da matriz
4) Calcula a mutabilidade relativa (ma) de cada aminoácido a) Probabilidade (freqüência) de a no alinhamento, pa, onde E.g. alanina aparece 10 vezes de um total de 63 aas; pa = 10/63 = 0,1587 b) O número de vezes que a é substituída (fa): E.g. de alanina, A1G, A6G, A6L e G3A: fa= 4 c) O número total de aas envolvidos em mutações (f): no exemplo são 6 mutações, portanto 6 x 2 aas: f = 12 Mutabilidade relativa, ma: Fator de 100 “normaliza” a mutabilidade para a taxa de substituições por 100 aas. E.g. de alanina ma = 4 / (100 x 12 x 0,1587 ) = 0,0209

13 Matrizes PAM Passos para a obtenção da matriz
5) Mab é a probabilidade que a b: = P (a b) = E.g. para alanina/glicina; fab =3 (passo 3); fa = 4 (passo 4b); ma = 0,0209 (passo 4c) MA,G = ( 3 / 4 ) x 0,0209 = 0,0156 6) Calcular a probabilidade de não ocorrer nenhuma mutação - Maa 7) Finalmente calcula a matriz, Rij, (Relatedness Odds Matrix) normalizando as probabilidades de mutação (Mab) com a probabilidade (freqüência) de cada aa no alinhamento (pb): E.g. RA,G = MA,G / fG = 0,0156 / (10 / 63 ) =

14 Matrizes PAM A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a matriz é chamada PAM1 A manipulação matemática permite que esta matriz possa usada para calcular outras matrizes: Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds):

15 Matrizes PAM Para k = 250 i.e 2,5 substituições por posição no alinhamento OU: 250 substituições por 100 aa no alinhamento: PAM250

16 Matrizes PAM Vantagens de matrizes PAM: Desvantagens de matrizes PAM:
Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricas - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. busca de parálogos/ortólogos com alto nível de identidade entre as seqüências Desvantagens de matrizes PAM: Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição “padrão” de aas O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatória (conservação de motifs por exemplo)

17 Matrizes BLOSUM (Henikoff, 1992)
Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, de famílias de proteínas As seqüências foram agrupadas sempre que a percentagem de caracteres idênticos excedesse um determinado nível L

18 Matrizes BLOSUM Passos para a obtenção da matriz
Construir um alinhamento sem gaps das regiões conservadas de uma família de proteínas. Regiões chamadas de blocos conservados (conserved blocks) são identificadas, e são analisadas para calcular as matrizes 1 S A A I F 2 A S A L G 3 Q T A L Y 4 T T A V E 5 L A A L N Blocos conservados de mais de 1500 famílias de proteínas estão disponíveis no banco de dados BLOCKS: Bloco conservado

19 Matrizes BLOSUM Passos para a obtenção da matriz
2) Eliminação de seqüências com alto grau de identidade. - Este passo evita que os blocos analisados contenham “bias” - As seqüências similares são eliminadas ou substituídas por uma seqüências consenso. O grau de similaridade entre as seqüências no bloco pode ser escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente. 3) Contar pares de aas em cada coluna: 1 A A I 2 S A L 3 T A L 4 T A V 5 A A L 1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A E.g. Análise da 1o coluna: O mesmo par e contado uma vez só

20 Matrizes BLOSUM Passos para a obtenção da matriz
4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (qij) para formar uma matriz, M, 20x20. qab = Número total de pares Número de um par observado No exemplo: AS: 2 AT: 4 AA: 1 ST: 2 TT: 1 --- 10 TOTAL = qAS: 0,2 qAT: 0,4 qAA: 0,1 qST: 0,2 qTT: 0,1 5) Calcular a freqüência de cada aa (pi): E.g. Treonina e Alanina no exemplo acima: PT = qTT + (qAT + qST)/ PA = qAA + (qAT)/2 = 0,1 + (0,4+0,2)/ = 0,1 + (0,4)/2 = 0, = 0,3

21 para os pares TT e AT no exemplo:
Matrizes BLOSUM Passos para a obtenção da matriz 6) a) Calcula a freqüência de cada par de aas (eab): eij = 2pi pj , i = j eij = pi2 , i = j para os pares TT e AT no exemplo: eTT = 0,4 x 0,4 = 0,16 eAT = 2 x 0,3 x 0,4 = 0,24 b) Para cada elemento i e j na matriz M, calcular a probabilidade normalizada: Sij = log2 ( qij / eij ) Esta matriz representa um “logarithm of odds” e está pronta para ser usada por algoritmos computacionais

22 Matrizes BLOSUM A matriz BLOSUM62 - Sa,b = log2 ( qa,b / pa )

23 PAM vs. BLOSUM O modelo PAM tem a capacidade de evidenciar a origem evolutiva de proteínas O modelo Blosum tem a capacidade de evidenciar domínios conservados em proteínas Regras práticas • Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada semelhança • Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longos

24 Defina a pergunta e depois escolha a matriz
PAM vs. BLOSUM PAM BLOSUM Calculada a partir de alinhamentos globais Calculada a partir de alinhamentos locais As seqüências de proteínas usadas no alinhamento têm >99% identidade Pode se selecionar o nível de similaridade entre as seqüências usadas na análise As matrizes são extrapolações matemáticas do matriz PAM1 Cada matriz é um resultado de uma análise de um alinhamento de blocos conservados Defina a pergunta e depois escolha a matriz


Carregar ppt "Matrizes para Análise de Similaridade entre Seqüências."

Apresentações semelhantes


Anúncios Google