A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.

Apresentações semelhantes


Apresentação em tema: "Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias."— Transcrição da apresentação:

1 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias Construir as árvoresVerificar a confiabilidade das árvores Testar hipóteses evolutivas O problema

2 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 2 Objetivos Gerais Reconstruir as relações de parentesco entre seqüências. Reconstruir as relações de parentesco entre espécies. Organizar a diversidade biológica. Específicos Representar as relações evolutivas entre seqüências ou organismos por meio de uma árvore filogenética. O problema

3 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 3 Princípios e pressupostos Existe uma ancestralidade comum entre quaisquer duas seqüências homólogas. Existe uma ancestralidade comum entre quaisquer duas espécies. A evolução das seqüências se dá por divergência. A evolução das espécies se dá por divergência. Os padrões evolutivos não são observáveis, devido principalmente as escalas de tempo nas quais os processos evolutivos operam. Em conseqüência, o processo de reconstrução filogenética é, necessariamente, um processo de inferência. O problema

4 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 4 Evolução e especiação TempoTempo Espécie 1Espécie 2Espécie 3 O problema

5 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 5 Evolução e especiação TempoTempo Seqüência 1Seqüência 2Seqüência 3 O problema

6 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 6 Evolução e especiação Seqüência 1Seqüência 2 O problema Seqüência 3

7 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 7 Evolução e especiação O processo de especiação independe do processo de evolução do gene em estudo e vice-versa. O processo de especiação é modelado pela topologia da árvore. Topologia é o padrão de ramificação da árvore. A topologia revela as relações de ancestralidade e descendência entre os nós. O processo de evolução do gene é modelado pelos comprimentos dos ramos. O comprimento de um ramo é, em geral, função do número de substituições ocorridas naquele ramo ou do tempo decorrido desde o ancestral. O problema

8 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 8 Evolução de caracteres Dependendo da história evolutiva do caráter ele pode ser: Pleisomórfico: caráter, ou estado do caráter, ancestral. Apomórfico: caráter, ou estado do caráter, derivado. Apomorfias existentes em uma única OTU são chamadas de autoapomorfias. Apomorfias compartilhadas por duas ou mais OTUs são chamadas de sinapomorfias. Dois caracteres idênticos são homólogos quando a semelhança entre eles se deve a uma ancestralidade comum. Identidades entre caracteres que não resultam de uma ancestralidade comum são chamadas de homoplasias. Homoplasias podem resultar de: Evolução paralela: os dois caracteres evoluíram independentemente do da mesma condição ancestral. Evolução convergente: os dois caracteres evoluíram independentemente de condições ancestrais diferentes. Reversão à condição ancestral. O problema

9 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 9 Evolução de caracteres Autoapomorfia Plesiomorfias Sinapomorfia O problema

10 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 10 Evolução de caracteres ReversãoEvolução convergente Evolução paralela O problema

11 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 11 Ancestralidade Em geral todas as seqüências ou espécies em estudo existem no presente. E se uma delas for ancestral de outras? Se acontecer, a árvore filogenética e a árvore evolutiva não são iguais, pois algumas OTUs estão localizadas em nós internos da árvore evolutiva. A chance desta ocorrência é pequena se os tempos médios de coalescência dos alelos são pequenos comparados com o tempo médio de especiação. Em geral não se espera que as espécies presentes na árvore sejam ancestrais umas das outras. Uma exceção a esta expectativa são árvores nas quais as linhagens evoluem muito rapidamente, como é o caso de alguns vírus. O problema

12 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 12 Árvores de genes e árvores de espécies A suposição de que a filogenia de um conjunto de seqüências corresponde a filogenia das espécies das quais elas foram obtidas pode não ser correta. Topologias incorretas podem ser produzidas nas seguintes situações: Genes parálogos são incluídos na análise sem serem reconhecidos como tais. O tempo de coalescência dos alelos é maior que o tempo de especiação. Bons genes para filogenias de espécies devem: Obedecer ao relógio molecular. A taxa de evolução deve ser constante entre linhagens e ao longo do tempo. Se não for, existem modelos que corrigem a distorção, mas a qualidade da árvore será menor. O tempo médio de coalescência entre alelos deve ser menor que o tempo médio de especiação. O problema

13 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 13 Árvores de genes e árvores de espécies O problema dos genes parálogos 1 1’ 2 2’ 3 3’ O problema 1’ 3’ 2

14 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 14 Árvores de genes e árvores de espécies O problema do tempo de coalescência 1 2 3 O problema 1 2 3

15 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 15 Nós e ramos Nós são os pontos de ligação entre os ramos. Nós externos representam as seqüências ou espécies em estudo (= nós terminais ou OTUs ou táxons terminais). Nós externos estão ligados a apenas um ramo e a um nó interno. Nós internos representam os estados ancestrais hipotéticos e são ligados a pelo menos três ramos (e três nós): Um ligando o nó ao seu nó ancestral Dois ou mais ligando o nó aos seus nós descendentes Ramos são as ligações entre os nós. Ramos externos são aqueles que ligam os nós externos aos nós internos. Ramos internos são aqueles que ligam dois nós internos. As árvores

16 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 16 Nós e ramos Nós Externos Nós Internos Ramos Internos Ramos Externos As árvores

17 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 17 Raízes e topologias não enraizadas Raiz é o nó mais ancestral na árvore. A raiz confere direcionamento a filogenia obtida. Só a partir dela podemos falar em nós ancestrais e derivados. Uma árvore não precisa ter raiz. Árvores não enraizadas não mostram relações de ancestralidade e descendência. Uma topologia não enraizada com “N” ramos pode dar origem a “N” topologias enraizadas, cada uma delas formada pela inserção de um nó extra num dos ramos. Raízes podem ser obtidas usando-se um grupo sabidamente externo ou um gene parálogo. A BC A B CA C BB C A As árvores

18 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 18 Tipos de árvores Existem três tipos básicos de árvores filogenéticas, dependendo da informação contida nos comprimentos de ramo (“eixo vertical”). Árvores aditivas (= filogramas): os comprimentos de ramos indicam a quantidade de mudança evolutiva ocorrida entre os nós. Árvores ultramétricas (= dendogramas): os comprimentos de ramos indicam o tempo decorrido entre os nós. Todas as OTUs aparecem no presente. Cladogramas: os comprimentos de ramo não indicam nada. Cladogramas indicam apenas as relações de parentesco entre os nós. A distância entre as OTUs (eixo horizontal) não significa nada. Os ramos podem ser rotacionados livremente ao desenhar a árvore, sem alterar nenhuma informação contida nela Árvores podem ser desenhadas tanto na horizontal quanto na vertical, com ramos inclinados, perpendiculares ou arredondados. Estas características do desenho da árvores não significam nada. As árvores

19 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 19 Tipos de árvores Árvore aditiva 5 1 2 3 4 Nº mut / sítio Árvore ultramétrica 1 2 3 4 5 Nº anos Cladograma 1 2 3 4 5 NADA As árvores

20 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 20 Tipos de árvores 1 2 3 4 52 1 5 4 31 2 4 3 5 5 3 4 1 24 3 5 2 13 4 5 1 2 As árvores == ==

21 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 21 Tipos de árvores As árvores Sem raiz

22 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 22 Politomias Nós politômicos, ou politomias, são os nós internos que possuem mais de três ramos ligados a ele (um ancestral e três ou mais derivados, se a árvore for enraizada). Existem dois tipos de politomias. Politomias “hard” são aquelas que representam a emergência simultânea de três ou mais linhagens a partir de um só ancestral. Politomias realmente “hard” são muito improváveis. Duas linhagens surgidas proximamente uma a outra num tempo remoto podem ser encaradas como uma politomia “hard”. Politomias “soft” representam nós que não foram completamente resolvidos pelos dados e métodos de reconstrução filogenética disponíveis. Topologias sem politomias são chamadas de completamente dicotômicas. Politomias podem surgir ao se criar uma árvore consenso. As árvores

23 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 23 Politomias 1 2 3 4 5 Hard As árvores 1 2 3 4 5 Soft ??

24 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 24 Árvores consenso Árvores consenso sumarizam a informação contida em várias árvores alternativas segundo algum critério. Consensos estritos incluem apenas os grupos presentes em todas as árvores alternativas. Os demais são mostrados como politomias Consensos majoritários incluem os grupos que aparecem na maioria dos das árvores alternativas 1 2 3 4 5 + = + = 70% 1 2 3 4 5 30% 1 2 3 4 5 As árvores

25 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 25 Número de topologias dicotômicas O número de topologias possíveis cresce muito rapidamente a medida que cresce o número de OTUs em análise. O número excessivo de possíveis topologias é um dos maiores desafios computacionais da análise filogenética. 8.200.794.532.637.891.559.375 2.027.02510 4,9518 x 10 38 8.200.794.532.637.891.5 59.375 20 1,00985 x 10 57 4,9518 x 10 38 30 77 x 1,00985 x 10 57 1,00985 x 10 57 40 2.027.025135.1359 10.3958 9457 1056 155 34 313 112 Nº topologias enraizadasNº topologias não enraizadas Nº de OTUs As árvores

26 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 26 Número de topologias dicotômicas sem raiz 12 3 3 OTUs1=1 Topologia 4 OTUs 1 2 3 4 2 1 3 4 2 4 3 1 3=3 Topologias 5 OTUs5=15 Topologias6 OTUs7=105 Topologias7 OTUs9=945 Topologias 12 2 OTUS11 Topologia= X X X As árvores XX

27 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 27 Número de topologias dicotômicas Para topologias completamente dicotômicas não enraizadas temos as seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x... x (2N - 5) = (2N - 5)! 2 N-1 (N - 1)! N OTUs: N ramos externos + N - 3 ramos internos = 2N - 3 ramos N OTUs: N nós terminais + N - 2 nós internos = 2N - 2 nós Para topologias completamente dicotômicas enraizadas temos as seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x... x (2N - 3) = (2N - 3)! 2 N-1 (N - 1)! N OTUs: N ramos externos + N - 2 ramos internos = 2N - 2 ramos N OTUs: N nós terminais + N - 1 nós internos = 2N - 1 nós As árvores

28 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 28 Alinhamento Encontrando homologias ALINHE CORRETAMENTE SUAS SEQÜÊNCIAS.

29 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 29 Como seqüências evoluem Para construir uma hipótese sobre a filogenia de um conjunto de seqüências precisamos de um modelo de como elas evoluíram. Modelos são, eles próprios, hipóteses e podem (devem na verdade) ser alvo de testes. O processo de evolução de uma seqüência é estocástico e portanto os modelos de evolução de seqüências são necessariamente probabilísticos. Existem muitos modelos de evolução de seqüência disponíveis, mas a maioria deles só descreve as mudanças devidas a substituições, sem levar em conta recombinações. São portanto modelos de substituição. Os modelos de substituição podem focar na substituição de nucleotídeos ou na substituição de aminoácidos. Modelos de substituição de aminoácidos só são aplicáveis a seqüências codantes. A escolha do modelo de substituição mais adequado ao problema em análise depende tanto dos dados disponíveis quanto de considerações teóricas sobre estes. Modelos evolutivos

30 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 30 Como uma seqüência muda no tempo A T C* C A G T A T A T G C T C A T A C A G T* A T A T G C T C tt A T* A C A G A T A A* T G C T C tt tt AGA*CAGGAATAC*TGCTCAGA*CAGGAATAC*TGCTC AGCCAGGAATAGTGCTCAGCCAGGAATAGTGCTC tt Tempo ---- Diferenças em relação a ancestral ---- Mutações realmente ocorridas Modelos evolutivos

31 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 31 Como duas seqüências divergem entre si no tempo ATCCAGGTATAATGCTCATCCAGGTATAATGCTC ATGCACCAGGTAATAACGTGCTCATGCACCAGGTAATAACGTGCTC tt AGTCACAGGCTATAGATCAGCTCAGTCACAGGCTATAGATCAGCTC tt Tempo ---- Diferenças observadas entre as seqüências ---- Mutações ocorridas ? Modelos evolutivos Mutação Paralela Mutação Reversa Mutação Convergente Modelo Matemático

32 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 32 Como a evolução de seqüências pode ser modelada O acúmulo de mutações “ocultas” e a impossibilidade de se contar mais de 100% de diferença entre duas seqüências resulta no fenômeno de saturação. Simplesmente contar o número de diferenças entre duas seqüências não é o suficiente, pois este valor subestima a quantidade real de mudanças ocorridas desde a divergência. No entanto não há outra métrica disponível para avaliar a divergência entre duas seqüências. Assim os processos “ocultos” de evolução devem ser acrescentados ao modelo, para que se possa inferir com mais precisão a distância evolutiva. Por se tratar de um processos estocásticos não é possível inferir exatamente quais ou quantas mutações ocorreram, mas sim: A chance de uma dada mutação ter ocorrido num dado sítio. A proporção esperada de mutações que ocorreram na seqüência. O fato dos modelos serem probabilísticos, por si só, não impede a reconstrução da filogenia. O excesso de saturação, por outro lado, pode impedir a reconstrução da filogenia. Modelos evolutivos

33 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 33 Como a evolução de seqüências pode ser modelada A forma mais simples de se modelar a evolução de seqüências por substituição é pela distribuição de Poisson A probabilidade de ocorrerem “n” mutações numa seqüência num intervalo de tempo t pode ser modelada pela distribuição de Poisson como: P n (t) = [(  t) n exp(-  t)]/n! Para isso: A taxa de mutação por sítio por unidade de tempo (  ) não pode mudar. As mutações devem ser independentes entre si (a ocorrência de uma mutação em um sítio não pode afetar a probabilidade da ocorrência de outras mutações naquele ou em outros sítios). O parâmetro  t (número médio de mutações por sítio durante o tempo t) em geral é o único que pode ser estimado pois, em geral, não se conhece o tempo t desde a divergência da seqüência para que se possa estimar . O processo de evolução de seqüências por substituição também pode ser modelado também como um processo de Markov, que usa uma matriz de transição no lugar do parâmetro único , de modo a tornar o modelo de substituição mais completo. Modelos evolutivos

34 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 34 Matrizes de transição Os parâmetros  A,  T,  C e  G são as freqüências dos nucleotídeos A, T, C e G, que são supostas em equilíbrio. Os parâmetros de “a” até “i” representam as taxas instantâneas de mudança entre os nucleotídeos. A matriz de transição é construída de forma que a transição de um nucleotídeos para si mesmo seja descrita por 1 menos a soma da linha referente ao nucleotídeo. Com a matriz de transição (Q), podemos obter a matriz de substituição (P). Aplicando a matriz de substituição P às duas seqüências divergentes podemos estimar uma distância evolutiva entre elas que mede o número real de mutações ocorridas nas duas desde a sua divergência em função do número de diferenças observadas entre ambas. Modelos evolutivos TGCA 1-  linha iGiG kCkC jAjA fTfT iCiC hAhA eTeT dGdG gAgA Q=Q= cTcT bGbG aCaC

35 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 35 Modelo Jukes & Cantor (JC69) Modelo de substituição mais simples mais simples. Supõem que as taxas de mutação são as mesmas para todas as seis mutações possíveis (  ) e que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%). Modelos evolutivos TGCA    P=P=  d = -3/4ln(1-4p/3)

36 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 36 Modelo Kimura 2 parâmetros (K2P) Diferencia a taxa de transição (  ) da taxa de transversão (  ). Baseia-se na observação de que transições são mais comuns que transversões, pois ocorrem entre nucleotídeos mais similares quimicamente. Supõem que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%). Modelos evolutivos TGCA    P=P=  d = 1/2ln[1/1-2P-Q)]1/4+ln[1/(1-2Q)] P = diferença no número de transições Q = diferença no número de transversões

37 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 37 TGCA  G  C  A  T  C  A  T  G  A P=P=  T  G  C Modelo Felsenstein (F81) Supõe que todos os tipos de mutações ocorrem com a mesma taxa. Diferencia a freqüência de equilíbrio dos nucleotídeos. Modelos evolutivos d = ?

38 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 38 TGCA  G  C  A  T  C  A  T  G  A P=P=  T  G  C Modelo Hasegawa, Kishino & Yano (HKY85) Diferencia a taxa de transição (  ) da taxa de transversão (  ). Diferencia também a freqüência de equilíbrio dos nucleotídeos. Modelos evolutivos d = ?

39 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 39 Modelo geral reversível (REV) Diferencia os seis tipos de mutação. Diferencia também a freqüência de equilíbrio dos nucleotídeos. Supõe apenas que a taxa de mutação de um nucleotídeo do tipo i para um nucleotídeo do tipo j é igual a taxa de mutação de j para i. Modelos evolutivos TGCA fGfG eCeC cAcA fTfT dCdC bAbA eTeT dGdG aAaA P=P= cTcT bGbG aCaC d = ?

40 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 40 Relações entre modelos de evolução de DNA Modelos evolutivos Modelo geral reversível (REV) Hasegawa, Kishino & Yano (HKY85) Diferencie apenas as transições das transversões Kimura 2 parâmetros (K2P) Fixe as freqüências de equilíbrio em 1/4 Felsenstein (F81) Suponha que todas as mutações tem a mesma taxa Suponha que todas as mutação tem a mesma taxa Jukes & Cantor (JC69) Fixe as freqüências de equilíbrio em 1/4

41 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 41 Modelos de evolução de proteínas Os modelos de evolução de proteínas, a semelhança dos modelos de evolução de DNA, envolvem matrizes de substituição de aminoácidos. Matrizes de substituição de aminoácidos refletem o fato de que certas substituições entre estes são mais comuns que outras. Os pesos de cada tipo de substituição podem se basear em: Dados empíricos de alinhamentos de seqüências de proteínas. Contagem dos tipos de mudança de nucleotídeos que provocam cada tipo de mudança de AA Considerações teóricas sobre as características físico-químicas de cada AA. A maioria dos modelos de evolução de proteína usados atualmente são produzidos a partir da análise de alinhamentos de seqüências. Matrizes de substituição de aminoácidos são muito usadas também para alinhamento de seqüências de proteínas, e muitas delas foram derivados com esta finalidade. Modelos evolutivos

42 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 42 Tipos de matrizes de transição de AAs Existem três tipos principais de matrizes de substituição de AAs. As matrizes PAM (Point Accepted Mutation) são baseadas em alinhamentos globais de proteínas a partir de um modelo filogenético. Existem várias matrizes PAM, algumas baseadas em alinhamentos de proteínas com mais mutações e outras em alinhamentos com menos mutações. A matriz PAM 250, por exemplo, é adequada para alinhamentos que divirjam por 250 mutações a cada 100 AAs. Devido as mutações reversas, convergentes e paralelas isso equivale a cerca de 20% de divergência entre seqüências. As matrizes BLOSSUM (Blocks Substitution Matrix) foram derivadas de modo semelhante as de PAM, usando apenas alinhamentos altamente conservados e sem gaps e sem levar em conta um modelo filogenético. Existem várias matrizes BLOSSUM, cada uma delas adequada a uma certa porcentagem de similaridade enter AAs As matrizes de Gonnet foram derivadas usando apenas alinhamentos pareados, de forma recursiva. Cada alinhamento foi usado para gerar uma nova matriz, que foi então usada para corrigir o próprio alinhamento, até se atingir um equilíbrio. Modelos evolutivos

43 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 43 Comparação matrizes de transição de AAs Existe muita correspondência entre os modelos de substituição de AAs, especialmente entre as matrizes PAM e BLOSSUM. Assim podem ser estabelecidas as seqüentes relações: PAM100 Blosum90 (Seqüências menos divergentes) PAM120 Blosum80 PAM160 Blosum60 PAM200 Blosum52 PAM250 Blosum45 (Seqüências mais divergentes) Modelos evolutivos

44 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 44 Modelos de evolução de proteínas Modelos evolutivos Matriz PAM 250

45 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 45 Suposições dos modelos Todos os modelos de substituição mostrados se baseiam em quatro suposições: Substituições em um sítio são independentes das mutações nos demais. A taxa de substituição é a mesma para todos os nucleotídeos. A taxa de substituição é constante no tempo e entre as seqüências. A composição de bases das seqüências está em equilíbrio. Estas suposições são importantes para viabilizar a criação dos modelos mas, em muitos casos, são irreais. Certos refinamentos dos modelos básicos de substituição permitem seu uso quando algumas das suposições acima são violadas. Modelos evolutivos

46 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 46 Modelo LogDet É comum que as freqüências das bases não sejam constantes entre as seqüências analisadas. Variações na composição de bases entre seqüências podem levar os modelos tradicionais a agruparem seqüências com base na similaridade de bases entre elas, e não em relações filogenéticas verdadeiras. O modelo LogDet pode ser usado para obter umas distância entre seqüências mesmo quando a composição de bases varia entre elas. O modelo constrói uma matriz F xy 4x4 em que cada célula é a freqüência de sítios com aquela combinação de bases. A distância d xy é definida como d xy = -ln [detF xy ]. Modelos evolutivos t g c a tgca Seqüência X 1758195 4230524 1611493 SeqYSeqY 8245224 d xy = 6,216 F xy = 0,1940,0090,0210,006 0,0040,2560,0060,027 0,0180,0010,1660,003 0,0090,0270,0060,249

47 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 47 Correção gama É muito comum que as taxas de mutação sejam diferentes entre os sítios. Os modelos de substituição podem ser corrigidos para taxas diferentes de mutação usando a distribuição . Quando o parâmetro  da distribuição  se aproxima de zero a distribuição retrata uma grande heterogeneidade entre as taxas de mutação dos vários sítios. Quanto maior o parâmetro, menor a heterogeneidade entre as taxas de mutação dos sítios. Modelos evolutivos  pequeno (<1)  grande (>1) Região flanqueadora 5’ Pseudogenes Região não transcrita 5’Sítios não degenerados Sítios “2” degeneradosSítios “4” degenerados Íntrons Região não transcrita 3’ Região flanqueadora 3’ Substituições por sítio por 10 9 anos 0 1 2 3 4 5 6 7 8

48 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 48 Como escolher modelos A escolha de um modelo começa pela análise das freqüência de cada nucleotídeo e de cada tipo de mutação. Embora modelos mais complexos permitam uma descrição mais real do processo, eles também acrescentam mais parâmetros, o que aumenta a variância das estimativas Por esta razão deve-se usar apenas os parâmetros realmente necessários. Alguns programas já permitem usar mais de um modelo por conjunto de seqüência, especificando que cada parte do alinhamento evolui de acordo com um deles. Novamente, esta prática aumenta o número de parâmetros e a variância das distâncias estimadas. Modelos evolutivos

49 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 49 Tipos de métodos de reconstrução filogenética Existem duas categorias principais de métodos de construção de árvores filogenéticas: Os métodos de busca definem algum critério para escolha da “melhor” árvore e então seguir procuram pela árvore que melhor se adeque a este critério entre todas as que podem ser construídas com aquelas OTUs. Devido ao grande número de árvores que podem ser construídas quando o número de OTUs é grande, a maioria dos métodos de busca não consegue realmente procurar entre todas as árvores possíveis. Existem várias técnicas computacionais para otimizar o processo de busca da “melhor árvore”. Os métodos de solução única reconstroem uma única árvore filogenética, acrescentando em cada passo do processamento uma nova OTU na árvore em construção. Construindo árvores

50 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 50 Tipos de métodos de reconstrução filogenética Construindo árvores Solução únicaBusca 1,0 1,5 1,3 1,8 0,9 1,5 1,6 1,9 1,1 1,8 1,2 1,7

51 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 51 Tipos de métodos de reconstrução filogenética Outro critério para classificar os métodos de reconstrução filogenética é quanto ao tipo de informação usada para construir a árvore. Os métodos que se valem das distâncias evolutivas calculadas a partir das seqüências originais usando algum dos modelos evolutivos são chamados de métodos de distância, ou métodos geométricos. Os métodos de solução única são sempre métodos geométricos, ou seja, produzem uma única árvore a partir das distâncias entre as seqüências. Nem todo método de distância, por outro lado, é necessariamente de solução única. Os métodos que se valem das seqüências em si, chamados de métodos de análise de caráter, são de dois subtipos: Métodos probabilísticos, como o de máxima verossimilhança ou bayesianos. Método de máxima parcimônia. Os métodos de análise de caráter são necessariamente métodos de busca. Construindo árvores

52 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 52 UPGMA Método de solução única. Enraíza cada cluster pré formado no ponto médio dos dois últimos ramos acrescentados. Baseia-se (implicitamente) na suposição de que as taxas evolutivas são constantes para todas as linhagens. Bom quando o relógio molecular é obedecido. Computacionalmente simples e rápido. Único método de reconstrução a produzir árvores enraizadas. Construindo árvores OTUs mais próximas OTUs mais próximas OTUs mais próximas OTUs mais próximas

53 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 53 Evolução mínima Método de busca baseado em distâncias. Procura pela árvore com a menor soma dos ramos. Computacionalmente lento. Único método com uma “justificativa” teórica. Sob certas condições, a árvore mais curta é a árvore verdadeira. Se as estimativas de distância evolutivas não tiverem nenhum viés, A soma dos ramos (“S”) será menor para a árvore verdadeira do que para qualquer outra. Isso não significa que a topologia com a menor soma de ramos seja a correta. Construindo árvores S=1,1 S=1,0 S=1,5 S=1,9 S=0,8 S=1,8 S=1,3 S=1,6 S=1,7 S=1,2 S=1,3 S=1,2

54 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 54 Neighbor Joining Método de solução única. Produz resultados em geral muito próximos aos do método de evolução mínima, minimizando, em cada passo, a soma dos ramos da árvore formada pelas OTUs já acrescentadas. Computacionalmente eficiente. Construindo árvores Menor soma de ramos Menor soma de ramos Menor soma de ramos Menor soma de ramos Menor soma de ramos

55 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 55 Máxima parcimônia Método de busca. Avalia todas as árvores em busca da mais parcimoniosa. A árvore mais parcimoniosa é aquela que exige o menor número de mutações nas seqüências observadas para ser produzida. Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela. Para tornar o modelo mais realista as diferentes mutações podem receber pesos diferentes. Construindo árvores N=11 N=10 N=15 N=19 N=8 N=18 N=13 N=16 N=17 N=12 N=13 N=12

56 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 56 Máxima verossimilhança Método probabilístico e de busca. Calcula, para cada topologia, a probabilidade da topologia produzir aquelas seqüências observadas se o modelo evolutivo escolhido for verdadeiro. Considera como a “melhor árvore’ aquela que tiver maior probabilidade de produzir os dados observados. Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela. É o método mais usado atualmente, não apenas para a reconstrução da filogenia mas também para testar hipóteses sobre ela. Construindo árvores P=0,10 P=0,15 P=0,2 P=0,11 P=0,16 P=0,18 P=0,20 P=0,21 P=0,17 P=0,14 P=0,02 P=0,16

57 Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 57 Bootstrap A consistência da árvore construída em relação aos dados usados para a construção pode ser testada por meio de procedimentos de replicação dos dados. O método de replicação mais usado é o bootstrap. O método de bootstrap re-amostra dos dados originais, com repetição, o mesmo número de nucleotídeos. Esta re-amostragem é usada para reconstruir uma nova árvore, que é comparada com a árvore original. Se os dados forem consistentes, no sentido de apontarem todos para uma mesma filogenia, os ramos da nova árvore serão aproximadamente os mesmo da árvore original. O número de vezes que cada ramo aparece em N repetições é contado. Ramos que não se repetem são considerados pouco sustentados pelos dados. Os ramos externos tem, por definição, 100% de bootstrap. Os testes de replicação não dizem se os ramos estão certos ou errados e sim se eles são consistentes ou não com os dados. Validando árvores

58 Construindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 58 Bootstrap Seq1 AATGCGTATTGCTACAGC Seq2 CAGGCGAATTGCTACGCC... SeqN AATGCGAATTGCTATAAC Seq1 AATGCCTATTGCTACAGC Seq2 CAGGCCAATTGCTACGCC... SeqN AATGCCAATTGCTATAAC Seq1 AATGCGTATTGCTTCAGC Seq2 CCGGCGAATTGCTTCGCC... SeqN AATGCGAATTGCTTTAAC 10090 60 Validando árvores


Carregar ppt "Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias."

Apresentações semelhantes


Anúncios Google