A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade.

Apresentações semelhantes


Apresentação em tema: "Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade."— Transcrição da apresentação:

1 Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Samuel Mazzinghy Alvarenga

2 Tipos de matrizes de valores: As Matrizes de valores são usadas em todas as análises que envolvem comparação de seqüências IntroduçãoIntrodução Matriz unitária - usada para dar valores à pares de nucleotídeos Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos. A escolha da matriz tem uma influência forte no resultado da análise. Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolha

3 Matriz Unitária ou Identidade Somente caracteres idênticos recebem valor positivo: Valor > 0 para pares reais; Valor > 0 para pares reais; Valor 0 para pares falsos. Valor 0 para pares falsos. Somente caracteres idênticos recebem valor positivo: Valor > 0 para pares reais; Valor > 0 para pares reais; Valor 0 para pares falsos. Valor 0 para pares falsos. As matrizes de similaridade usadas em: FASTA BLAST: FASTA BLAST: As matrizes de similaridade usadas em: FASTA BLAST: FASTA BLAST: G C T A GCTA 1G1C1T1A GCTA

4 Estas matrizes funcionam (e são usadas)......mas o mundo real é mais complicado....mas o mundo real é mais complicado. -As freqüências de transições (purina-purina; pirimidina-pirimidina) e transverções (purina- pirimidina e vice-versa) não são iguais. - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos cromossomos. Estas matrizes funcionam (e são usadas)......mas o mundo real é mais complicado....mas o mundo real é mais complicado. -As freqüências de transições (purina-purina; pirimidina-pirimidina) e transverções (purina- pirimidina e vice-versa) não são iguais. - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos cromossomos. Matriz Unitária ou Identidade Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso uma análise mais sofisticada.

5 Matrizes de Substituição São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como eles são substituídos durante a evolução. Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um outro de igual tamanho em vez de um aminoácido maior. Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como eles são substituídos durante a evolução. Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um outro de igual tamanho em vez de um aminoácido maior.

6 Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve em conta estas probabilidades Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo período de evolução Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve em conta estas probabilidades Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo período de evolução Matrizes de Substituição Matrizes de Substituição São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos entre seqüências de aminoácidos

7 Matrizes de Substituição Matrizes de Substituição PAM (Point Accepted Mutation) BLOSUM (BLOcks SUbstitution Matrix) As mais conhecidas são :

8 Matrizes PAM (Dayhoff, 1978) Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas em base de dados biológicas A construção destas matrizes baseou-se na obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito semelhantes Permite obter relações evolutivas para proteínas da mesma família e permite ainda a extrapolação desta informação para outras distâncias evolutivas A construção destas matrizes baseou-se na obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito semelhantes Permite obter relações evolutivas para proteínas da mesma família e permite ainda a extrapolação desta informação para outras distâncias evolutivas

9 1)Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade A C G C T A F K I G C G C T A F K I A C G C T A F K L G C G C T G F K I G C G C T L F K I A S G C T A F K L A C A C T A F K L A C G C T A F K I G C G C T A F K I A C G C T A F K L G C G C T G F K I G C G C T L F K I A S G C T A F K L A C A C T A F K L - minimiza ambigüidades no alinhamento - maximiza o número de posições com mutações (i.e. evitar introdução de gaps) gaps) - minimiza ambigüidades no alinhamento - maximiza o número de posições com mutações (i.e. evitar introdução de gaps) gaps) Matrizes PAM Passos para a obtenção da matriz ExemploExemplo

10 Matrizes PAM Passos para a obtenção da matriz 2) Construir um arvore inferindo a seqüência das substituições ACGCTAFKI GCGCTAFKI ACGCTAFKL GCGCTGFKI GCGCTLFKI ASGCTAFKL ACACTAFKL A1GA1G I9LI9L A6GA6GA6LA6L C2SC2S G3AG3A

11 f G,A = f A,G = 3 f ab = f ba 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução). Matrizes PAM Passos para a obtenção da matriz No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto:

12 4) Calcula a mutabilidade relativa (m a ) de cada aminoácido b) O número de vezes que a é substituída (f a ): E.g. de alanina, A1G, A6G, A6L e G3A: f a = 4 b) O número de vezes que a é substituída (f a ): E.g. de alanina, A1G, A6G, A6L e G3A: f a = 4 c) O número total de aas envolvidos em mutações (f): no exemplo são 6 mutações, portanto 6 x 2 aas: f = 12 c) O número total de aas envolvidos em mutações (f): no exemplo são 6 mutações, portanto 6 x 2 aas: f = 12 a) Probabilidade (freqüência) de a no alinhamento, p a, onde E.g. alanina aparece 10 vezes de um total de 63 aas; p a = 10/63 = 0,1587 a) Probabilidade (freqüência) de a no alinhamento, p a, onde E.g. alanina aparece 10 vezes de um total de 63 aas; p a = 10/63 = 0,1587 Mutabilidade relativa, m a : Fator de 100 normaliza a mutabilidade para a taxa de substituições por 100 aas.E.g. de alanina m a = 4 / (100 x 12 x 0,1587 ) = 0,0209 por 100 aas. E.g. de alanina m a = 4 / (100 x 12 x 0,1587 ) = 0,0209 Fator de 100 normaliza a mutabilidade para a taxa de substituições por 100 aas.E.g. de alanina m a = 4 / (100 x 12 x 0,1587 ) = 0,0209 por 100 aas. E.g. de alanina m a = 4 / (100 x 12 x 0,1587 ) = 0,0209 Matrizes PAM Passos para a obtenção da matriz

13 5) M ab é a probabilidade que a b: = P (a b) = 5) M ab é a probabilidade que a b: = P (a b) = E.g. para alanina/glicina; f ab =3 (passo 3); f a = 4 (passo 4b); m a = 0,0209 (passo 4c) M A,G = ( 3 / 4 ) x 0,0209 = 0,0156 M A,G = ( 3 / 4 ) x 0,0209 = 0,0156 E.g. para alanina/glicina; f ab =3 (passo 3); f a = 4 (passo 4b); m a = 0,0209 (passo 4c) M A,G = ( 3 / 4 ) x 0,0209 = 0,0156 M A,G = ( 3 / 4 ) x 0,0209 = 0,0156 6) Calcular a probabilidade de não ocorrer nenhuma mutação - Maa 7) Finalmente calcula a matriz, R ij, (Relatedness Odds Matrix) normalizando as probabilidades de mutação (M ab ) com a probabilidade (freqüência) de cada aa no alinhamento (p b ): E.g. R A,G = M A,G / f G = 0,0156 / (10 / 63 ) = Matrizes PAM Passos para a obtenção da matriz

14 A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a matriz é chamada PAM1 A manipulação matemática permite que esta matriz possa usada para calcular outras matrizes: A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a matriz é chamada PAM1 A manipulação matemática permite que esta matriz possa usada para calcular outras matrizes: Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds): Matrizes PAM

15 Para k = 250 i.e 2,5 substituições por posição no alinhamento OU: 250 substituições por 100 aa no alinhamento: PAM250 Para k = 250 i.e 2,5 substituições por posição no alinhamento OU: 250 substituições por 100 aa no alinhamento: PAM250 Matrizes PAM

16 Vantagens de matrizes PAM: -Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricas - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. busca de parálogos/ortólogos com alto nível de identidade entre as seqüências Vantagens de matrizes PAM: -Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricas - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. busca de parálogos/ortólogos com alto nível de identidade entre as seqüências Desvantagens de matrizes PAM: Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição padrão de aas - Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição padrão de aas - O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatória (conservação de motifs por exemplo) Desvantagens de matrizes PAM: Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição padrão de aas - Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição padrão de aas - O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatória (conservação de motifs por exemplo) Matrizes PAM

17 Matrizes BLOSUM (Henikoff, 1992) Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, de famílias de proteínas As seqüências foram agrupadas sempre que a percentagem de caracteres idênticos excedesse um determinado nível L Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, de famílias de proteínas As seqüências foram agrupadas sempre que a percentagem de caracteres idênticos excedesse um determinado nível L

18 Matrizes BLOSUM Passos para a obtenção da matriz 1)Construir um alinhamento sem gaps das regiões conservadas de uma família de proteínas. Regiões chamadas de blocos conservados (conserved blocks) são identificadas, e são analisadas para calcular as matrizes Blocos conservados de mais de 1500 famílias de proteínas estão disponíveis no banco de dados BLOCKS: Blocos conservados de mais de 1500 famílias de proteínas estão disponíveis no banco de dados BLOCKS: Bloco conservado S A A I F 2 A S A L G 3 Q T A L Y 4 T T A V E 5 L A A L N S A A I F 2 A S A L G 3 Q T A L Y 4 T T A V E 5 L A A L N

19 Matrizes BLOSUM Passos para a obtenção da matriz 2) Eliminação de seqüências com alto grau de identidade. - Este passo evita que os blocos analisados contenham bias - As seqüências similares são eliminadas ou substituídas por uma seqüências consenso. -O grau de similaridade entre as seqüências no bloco pode ser escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente. 2) Eliminação de seqüências com alto grau de identidade. - Este passo evita que os blocos analisados contenham bias - As seqüências similares são eliminadas ou substituídas por uma seqüências consenso. -O grau de similaridade entre as seqüências no bloco pode ser escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente. 3) Contar pares de aas em cada coluna: 1 A A I 2 S A L 3 T A L 4 T A V 5 A A L 1 A A I 2 S A L 3 T A L 4 T A V 5 A A L 1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A 1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A E.g. Análise da 1 o coluna: O mesmo par e contado uma vez só

20 Matrizes BLOSUM Passos para a obtenção da matriz 4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (q ij ) para formar uma matriz, M, 20x20. q ab = Número total de pares Número de um par observado No exemplo: AS: 2 AT: 4 AA: 1 ST: 2 TT: TOTAL = q AS : 0,2 q AT : 0,4 q AA : 0,1 q ST : 0,2 q TT : 0,1 5) Calcular a freqüência de cada aa (p i ): E.g. Treonina e Alanina no exemplo acima: P T = q TT + (q AT + q ST )/2 P A = q AA + (q AT )/2 P T = q TT + (q AT + q ST )/2 P A = q AA + (q AT )/2 = 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2 = 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2 = 0,4 = 0,3 = 0,4 = 0,3

21 b) Para cada elemento i e j na matriz M, calcular a probabilidade normalizada: S ij = log 2 ( q ij / e ij ) Esta matriz representa um logarithm of odds e está pronta para ser usada por algoritmos computacionais b) Para cada elemento i e j na matriz M, calcular a probabilidade normalizada: S ij = log 2 ( q ij / e ij ) Esta matriz representa um logarithm of odds e está pronta para ser usada por algoritmos computacionais 6) a) Calcula a freqüência de cada par de aas (e ab ): e ij = 2p i p j, i = j e ij = p i 2, i = j e ij = 2p i p j, i = j e ij = p i 2, i = j para os pares TT e AT no exemplo: e TT = 0,4 x 0,4 = 0,16 e AT = 2 x 0,3 x 0,4 = 0,24 para os pares TT e AT no exemplo: e TT = 0,4 x 0,4 = 0,16 e AT = 2 x 0,3 x 0,4 = 0,24 Matrizes BLOSUM Passos para a obtenção da matriz

22 A matriz BLOSUM62 - S a,b = log 2 ( q a,b / p a ) Matrizes BLOSUM

23 O modelo PAM tem a capacidade de evidenciar a origem evolutiva de proteínas O modelo Blosum tem a capacidade de evidenciar domínios conservados em proteínas Regras práticas Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada semelhança Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada semelhança Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longos Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longos PAM vs. BLOSUM

24 PAMBLOSUM Calculada a partir de alinhamentos globais Calculada a partir de alinhamentos locais As seqüências de proteínas usadas no alinhamento têm >99% identidade Pode se selecionar o nível de similaridade entre as seqüências usadas na análise As matrizes são extrapolações matemáticas do matriz PAM1 Cada matriz é um resultado de uma análise de um alinhamento de blocos conservados Defina a pergunta e depois escolha a matriz PAM vs. BLOSUM


Carregar ppt "Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade."

Apresentações semelhantes


Anúncios Google