Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Intervalos de Confiança
Amintas engenharia.
ANÁLISE DISCRIMINANTE
Karla Yotoko – DBG Universidade Federal de Viçosa
Evolução e Sistemática
ESTIMAÇÃO.
Mineração de Dados Avaliação de Classificadores
Capítulo 3 - Aplicações das Derivadas
A Teoria da Medida Profª. Ms. Juliany Gonçalves Guimarães
Matrizes para Análise de Similaridade entre Seqüências.
Métodos geométricos (baseados em distância)
Máxima Parcimônia.
Aldilene Silva Célia Regina Daniela Alencar Maria do Socorro
SISTEMÁTICA FILOGENÉTICA
FILOGENIA DAS ANGIOSPERMAS: PRIMEIROS PASSOS
Inteligência Artificial
ANÁLISE DE SÉRIES DE TEMPO
Evolução e Sistemática
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Evolução Molecular Metodologias de Análise
SISTEMÁTICA E CLASSIFICAÇÃO BIOLÓGICA
DIALÉTICA EVOLUTIVA E EVIDÊNCIAS DA EVOLUÇÃO
UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA
A Contribuição da Econometria para a Análise Econômica
Métodos de distância e modelos de evolução molecular
Seleção de modelos e miscelânea
Teoria da Produção Em cada momento no tempo existe um conjunto de técnicas produtivas, ou tecnologias, que permite produzir determinado produto, a partir.
Prof. Roberto Cristóvão
C OMPARAÇÃO DO COMPORTAMENTO DO BIC EM ALGUNS MODELOS PROBABILÍSTICOS Diogo Taurinho Prado Orientadora: Denise Duarte.
Evolução Molecular O uso de macromoléculas como documentos históricos.
Professor Antônio Ruas
GENÉTICA DE POPULAÇÕES.
GEOMETRIA AXIOMÁTICA, SEGMENTOS DE RETA
Etapa Estatística Planejamento Análise Estatística Efeito de sequência
Evolução e Sistemática
Sistema de equações lineares
Aula 6 - Método não-experimental ou de seleção não-aleatória
Tópicos Avançados em Inteligência Artificial
Evolução e Sistemática
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
Uma Visão Geral Sobre Reconstrução Filogenética
SISTEMÁTICA MODERNA PROF: DAVIS POSSO.
Alinhamento de sequências
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Ferramentas apresentadas
2.3 Experimentos Fatoriais 22 Efeitos das Interações
Definições e tipos de alinhamento. O uso do BLAST
Evolução e Sistemática
Sistemática Filogenética ou Cladística Distingue-se de outros sistemas taxonômicos(de classificação) porque seu foco está na evolução, e não na simples.
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Regressão e Previsão Numérica.
Modelos de evolução molecular
Alinhamentos Múltiplos
Modelos Teóricos Contínuos de Probabilidade
DISTRIBUIÇÕES DE PROBABILIDADE
CONTROLE ESTATÍSTICO DO PROCESSO (CEP)
Ligação, Recombinação e Mapas Genéticos
Metodologia da Pesquisa em Ensino de Ciências I
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Revisão de conceitos relacionados à inferência filogenética
Estimação: Estimativa Pontual Estimativa Intervalar
CIÊNCIA E ENG MATERIAIS
GESTÃO E GARANTIA DA QUALIDADE
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
SISTEMAS DE CLASSIFICAÇÃO
Autor : Lênin Charqueiro. Pelotas,8 de março de
Comportamento Assintótico
Transcrição da apresentação:

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias Construir as árvoresVerificar a confiabilidade das árvores Testar hipóteses evolutivas O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 2 Objetivos Gerais Reconstruir as relações de parentesco entre seqüências. Reconstruir as relações de parentesco entre espécies. Organizar a diversidade biológica. Específicos Representar as relações evolutivas entre seqüências ou organismos por meio de uma árvore filogenética. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 3 Princípios e pressupostos Existe uma ancestralidade comum entre quaisquer duas seqüências homólogas. Existe uma ancestralidade comum entre quaisquer duas espécies. A evolução das seqüências se dá por divergência. A evolução das espécies se dá por divergência. Os padrões evolutivos não são observáveis, devido principalmente as escalas de tempo nas quais os processos evolutivos operam. Em conseqüência, o processo de reconstrução filogenética é, necessariamente, um processo de inferência. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 4 Evolução e especiação TempoTempo Espécie 1Espécie 2Espécie 3 O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 5 Evolução e especiação TempoTempo Seqüência 1Seqüência 2Seqüência 3 O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 6 Evolução e especiação Seqüência 1Seqüência 2 O problema Seqüência 3

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 7 Evolução e especiação O processo de especiação independe do processo de evolução do gene em estudo e vice-versa. O processo de especiação é modelado pela topologia da árvore. Topologia é o padrão de ramificação da árvore. A topologia revela as relações de ancestralidade e descendência entre os nós. O processo de evolução do gene é modelado pelos comprimentos dos ramos. O comprimento de um ramo é, em geral, função do número de substituições ocorridas naquele ramo ou do tempo decorrido desde o ancestral. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 8 Evolução de caracteres Dependendo da história evolutiva do caráter ele pode ser: Pleisomórfico: caráter, ou estado do caráter, ancestral. Apomórfico: caráter, ou estado do caráter, derivado. Apomorfias existentes em uma única OTU são chamadas de autoapomorfias. Apomorfias compartilhadas por duas ou mais OTUs são chamadas de sinapomorfias. Dois caracteres idênticos são homólogos quando a semelhança entre eles se deve a uma ancestralidade comum. Identidades entre caracteres que não resultam de uma ancestralidade comum são chamadas de homoplasias. Homoplasias podem resultar de: Evolução paralela: os dois caracteres evoluíram independentemente do da mesma condição ancestral. Evolução convergente: os dois caracteres evoluíram independentemente de condições ancestrais diferentes. Reversão à condição ancestral. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 9 Evolução de caracteres Autoapomorfia Plesiomorfias Sinapomorfia O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 10 Evolução de caracteres ReversãoEvolução convergente Evolução paralela O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 11 Ancestralidade Em geral todas as seqüências ou espécies em estudo existem no presente. E se uma delas for ancestral de outras? Se acontecer, a árvore filogenética e a árvore evolutiva não são iguais, pois algumas OTUs estão localizadas em nós internos da árvore evolutiva. A chance desta ocorrência é pequena se os tempos médios de coalescência dos alelos são pequenos comparados com o tempo médio de especiação. Em geral não se espera que as espécies presentes na árvore sejam ancestrais umas das outras. Uma exceção a esta expectativa são árvores nas quais as linhagens evoluem muito rapidamente, como é o caso de alguns vírus. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 12 Árvores de genes e árvores de espécies A suposição de que a filogenia de um conjunto de seqüências corresponde a filogenia das espécies das quais elas foram obtidas pode não ser correta. Topologias incorretas podem ser produzidas nas seguintes situações: Genes parálogos são incluídos na análise sem serem reconhecidos como tais. O tempo de coalescência dos alelos é maior que o tempo de especiação. Bons genes para filogenias de espécies devem: Obedecer ao relógio molecular. A taxa de evolução deve ser constante entre linhagens e ao longo do tempo. Se não for, existem modelos que corrigem a distorção, mas a qualidade da árvore será menor. O tempo médio de coalescência entre alelos deve ser menor que o tempo médio de especiação. O problema

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 13 Árvores de genes e árvores de espécies O problema dos genes parálogos 1 1’ 2 2’ 3 3’ O problema 1’ 3’ 2

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 14 Árvores de genes e árvores de espécies O problema do tempo de coalescência O problema 1 2 3

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 15 Nós e ramos Nós são os pontos de ligação entre os ramos. Nós externos representam as seqüências ou espécies em estudo (= nós terminais ou OTUs ou táxons terminais). Nós externos estão ligados a apenas um ramo e a um nó interno. Nós internos representam os estados ancestrais hipotéticos e são ligados a pelo menos três ramos (e três nós): Um ligando o nó ao seu nó ancestral Dois ou mais ligando o nó aos seus nós descendentes Ramos são as ligações entre os nós. Ramos externos são aqueles que ligam os nós externos aos nós internos. Ramos internos são aqueles que ligam dois nós internos. As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 16 Nós e ramos Nós Externos Nós Internos Ramos Internos Ramos Externos As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 17 Raízes e topologias não enraizadas Raiz é o nó mais ancestral na árvore. A raiz confere direcionamento a filogenia obtida. Só a partir dela podemos falar em nós ancestrais e derivados. Uma árvore não precisa ter raiz. Árvores não enraizadas não mostram relações de ancestralidade e descendência. Uma topologia não enraizada com “N” ramos pode dar origem a “N” topologias enraizadas, cada uma delas formada pela inserção de um nó extra num dos ramos. Raízes podem ser obtidas usando-se um grupo sabidamente externo ou um gene parálogo. A BC A B CA C BB C A As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 18 Tipos de árvores Existem três tipos básicos de árvores filogenéticas, dependendo da informação contida nos comprimentos de ramo (“eixo vertical”). Árvores aditivas (= filogramas): os comprimentos de ramos indicam a quantidade de mudança evolutiva ocorrida entre os nós. Árvores ultramétricas (= dendogramas): os comprimentos de ramos indicam o tempo decorrido entre os nós. Todas as OTUs aparecem no presente. Cladogramas: os comprimentos de ramo não indicam nada. Cladogramas indicam apenas as relações de parentesco entre os nós. A distância entre as OTUs (eixo horizontal) não significa nada. Os ramos podem ser rotacionados livremente ao desenhar a árvore, sem alterar nenhuma informação contida nela Árvores podem ser desenhadas tanto na horizontal quanto na vertical, com ramos inclinados, perpendiculares ou arredondados. Estas características do desenho da árvores não significam nada. As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 19 Tipos de árvores Árvore aditiva Nº mut / sítio Árvore ultramétrica Nº anos Cladograma NADA As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 20 Tipos de árvores As árvores == ==

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 21 Tipos de árvores As árvores Sem raiz

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 22 Politomias Nós politômicos, ou politomias, são os nós internos que possuem mais de três ramos ligados a ele (um ancestral e três ou mais derivados, se a árvore for enraizada). Existem dois tipos de politomias. Politomias “hard” são aquelas que representam a emergência simultânea de três ou mais linhagens a partir de um só ancestral. Politomias realmente “hard” são muito improváveis. Duas linhagens surgidas proximamente uma a outra num tempo remoto podem ser encaradas como uma politomia “hard”. Politomias “soft” representam nós que não foram completamente resolvidos pelos dados e métodos de reconstrução filogenética disponíveis. Topologias sem politomias são chamadas de completamente dicotômicas. Politomias podem surgir ao se criar uma árvore consenso. As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 23 Politomias Hard As árvores Soft ??

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 24 Árvores consenso Árvores consenso sumarizam a informação contida em várias árvores alternativas segundo algum critério. Consensos estritos incluem apenas os grupos presentes em todas as árvores alternativas. Os demais são mostrados como politomias Consensos majoritários incluem os grupos que aparecem na maioria dos das árvores alternativas = + = 70% % As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 25 Número de topologias dicotômicas O número de topologias possíveis cresce muito rapidamente a medida que cresce o número de OTUs em análise. O número excessivo de possíveis topologias é um dos maiores desafios computacionais da análise filogenética ,9518 x ,00985 x ,9518 x x 1,00985 x ,00985 x Nº topologias enraizadasNº topologias não enraizadas Nº de OTUs As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 26 Número de topologias dicotômicas sem raiz OTUs1=1 Topologia 4 OTUs =3 Topologias 5 OTUs5=15 Topologias6 OTUs7=105 Topologias7 OTUs9=945 Topologias 12 2 OTUS11 Topologia= X X X As árvores XX

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 27 Número de topologias dicotômicas Para topologias completamente dicotômicas não enraizadas temos as seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x... x (2N - 5) = (2N - 5)! 2 N-1 (N - 1)! N OTUs: N ramos externos + N - 3 ramos internos = 2N - 3 ramos N OTUs: N nós terminais + N - 2 nós internos = 2N - 2 nós Para topologias completamente dicotômicas enraizadas temos as seguintes relações: Número de topologias = 1 x 3 x 5 x 7 x... x (2N - 3) = (2N - 3)! 2 N-1 (N - 1)! N OTUs: N ramos externos + N - 2 ramos internos = 2N - 2 ramos N OTUs: N nós terminais + N - 1 nós internos = 2N - 1 nós As árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 28 Alinhamento Encontrando homologias ALINHE CORRETAMENTE SUAS SEQÜÊNCIAS.

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 29 Como seqüências evoluem Para construir uma hipótese sobre a filogenia de um conjunto de seqüências precisamos de um modelo de como elas evoluíram. Modelos são, eles próprios, hipóteses e podem (devem na verdade) ser alvo de testes. O processo de evolução de uma seqüência é estocástico e portanto os modelos de evolução de seqüências são necessariamente probabilísticos. Existem muitos modelos de evolução de seqüência disponíveis, mas a maioria deles só descreve as mudanças devidas a substituições, sem levar em conta recombinações. São portanto modelos de substituição. Os modelos de substituição podem focar na substituição de nucleotídeos ou na substituição de aminoácidos. Modelos de substituição de aminoácidos só são aplicáveis a seqüências codantes. A escolha do modelo de substituição mais adequado ao problema em análise depende tanto dos dados disponíveis quanto de considerações teóricas sobre estes. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 30 Como uma seqüência muda no tempo A T C* C A G T A T A T G C T C A T A C A G T* A T A T G C T C tt A T* A C A G A T A A* T G C T C tt tt AGA*CAGGAATAC*TGCTCAGA*CAGGAATAC*TGCTC AGCCAGGAATAGTGCTCAGCCAGGAATAGTGCTC tt Tempo ---- Diferenças em relação a ancestral ---- Mutações realmente ocorridas Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 31 Como duas seqüências divergem entre si no tempo ATCCAGGTATAATGCTCATCCAGGTATAATGCTC ATGCACCAGGTAATAACGTGCTCATGCACCAGGTAATAACGTGCTC tt AGTCACAGGCTATAGATCAGCTCAGTCACAGGCTATAGATCAGCTC tt Tempo ---- Diferenças observadas entre as seqüências ---- Mutações ocorridas ? Modelos evolutivos Mutação Paralela Mutação Reversa Mutação Convergente Modelo Matemático

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 32 Como a evolução de seqüências pode ser modelada O acúmulo de mutações “ocultas” e a impossibilidade de se contar mais de 100% de diferença entre duas seqüências resulta no fenômeno de saturação. Simplesmente contar o número de diferenças entre duas seqüências não é o suficiente, pois este valor subestima a quantidade real de mudanças ocorridas desde a divergência. No entanto não há outra métrica disponível para avaliar a divergência entre duas seqüências. Assim os processos “ocultos” de evolução devem ser acrescentados ao modelo, para que se possa inferir com mais precisão a distância evolutiva. Por se tratar de um processos estocásticos não é possível inferir exatamente quais ou quantas mutações ocorreram, mas sim: A chance de uma dada mutação ter ocorrido num dado sítio. A proporção esperada de mutações que ocorreram na seqüência. O fato dos modelos serem probabilísticos, por si só, não impede a reconstrução da filogenia. O excesso de saturação, por outro lado, pode impedir a reconstrução da filogenia. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 33 Como a evolução de seqüências pode ser modelada A forma mais simples de se modelar a evolução de seqüências por substituição é pela distribuição de Poisson A probabilidade de ocorrerem “n” mutações numa seqüência num intervalo de tempo t pode ser modelada pela distribuição de Poisson como: P n (t) = [(  t) n exp(-  t)]/n! Para isso: A taxa de mutação por sítio por unidade de tempo (  ) não pode mudar. As mutações devem ser independentes entre si (a ocorrência de uma mutação em um sítio não pode afetar a probabilidade da ocorrência de outras mutações naquele ou em outros sítios). O parâmetro  t (número médio de mutações por sítio durante o tempo t) em geral é o único que pode ser estimado pois, em geral, não se conhece o tempo t desde a divergência da seqüência para que se possa estimar . O processo de evolução de seqüências por substituição também pode ser modelado também como um processo de Markov, que usa uma matriz de transição no lugar do parâmetro único , de modo a tornar o modelo de substituição mais completo. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 34 Matrizes de transição Os parâmetros  A,  T,  C e  G são as freqüências dos nucleotídeos A, T, C e G, que são supostas em equilíbrio. Os parâmetros de “a” até “i” representam as taxas instantâneas de mudança entre os nucleotídeos. A matriz de transição é construída de forma que a transição de um nucleotídeos para si mesmo seja descrita por 1 menos a soma da linha referente ao nucleotídeo. Com a matriz de transição (Q), podemos obter a matriz de substituição (P). Aplicando a matriz de substituição P às duas seqüências divergentes podemos estimar uma distância evolutiva entre elas que mede o número real de mutações ocorridas nas duas desde a sua divergência em função do número de diferenças observadas entre ambas. Modelos evolutivos TGCA 1-  linha iGiG kCkC jAjA fTfT iCiC hAhA eTeT dGdG gAgA Q=Q= cTcT bGbG aCaC

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 35 Modelo Jukes & Cantor (JC69) Modelo de substituição mais simples mais simples. Supõem que as taxas de mutação são as mesmas para todas as seis mutações possíveis (  ) e que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%). Modelos evolutivos TGCA    P=P=  d = -3/4ln(1-4p/3)

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 36 Modelo Kimura 2 parâmetros (K2P) Diferencia a taxa de transição (  ) da taxa de transversão (  ). Baseia-se na observação de que transições são mais comuns que transversões, pois ocorrem entre nucleotídeos mais similares quimicamente. Supõem que a freqüência de equilíbrio de cada nucleotídeo é de ¼ (25%). Modelos evolutivos TGCA    P=P=  d = 1/2ln[1/1-2P-Q)]1/4+ln[1/(1-2Q)] P = diferença no número de transições Q = diferença no número de transversões

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 37 TGCA  G  C  A  T  C  A  T  G  A P=P=  T  G  C Modelo Felsenstein (F81) Supõe que todos os tipos de mutações ocorrem com a mesma taxa. Diferencia a freqüência de equilíbrio dos nucleotídeos. Modelos evolutivos d = ?

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 38 TGCA  G  C  A  T  C  A  T  G  A P=P=  T  G  C Modelo Hasegawa, Kishino & Yano (HKY85) Diferencia a taxa de transição (  ) da taxa de transversão (  ). Diferencia também a freqüência de equilíbrio dos nucleotídeos. Modelos evolutivos d = ?

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 39 Modelo geral reversível (REV) Diferencia os seis tipos de mutação. Diferencia também a freqüência de equilíbrio dos nucleotídeos. Supõe apenas que a taxa de mutação de um nucleotídeo do tipo i para um nucleotídeo do tipo j é igual a taxa de mutação de j para i. Modelos evolutivos TGCA fGfG eCeC cAcA fTfT dCdC bAbA eTeT dGdG aAaA P=P= cTcT bGbG aCaC d = ?

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 40 Relações entre modelos de evolução de DNA Modelos evolutivos Modelo geral reversível (REV) Hasegawa, Kishino & Yano (HKY85) Diferencie apenas as transições das transversões Kimura 2 parâmetros (K2P) Fixe as freqüências de equilíbrio em 1/4 Felsenstein (F81) Suponha que todas as mutações tem a mesma taxa Suponha que todas as mutação tem a mesma taxa Jukes & Cantor (JC69) Fixe as freqüências de equilíbrio em 1/4

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 41 Modelos de evolução de proteínas Os modelos de evolução de proteínas, a semelhança dos modelos de evolução de DNA, envolvem matrizes de substituição de aminoácidos. Matrizes de substituição de aminoácidos refletem o fato de que certas substituições entre estes são mais comuns que outras. Os pesos de cada tipo de substituição podem se basear em: Dados empíricos de alinhamentos de seqüências de proteínas. Contagem dos tipos de mudança de nucleotídeos que provocam cada tipo de mudança de AA Considerações teóricas sobre as características físico-químicas de cada AA. A maioria dos modelos de evolução de proteína usados atualmente são produzidos a partir da análise de alinhamentos de seqüências. Matrizes de substituição de aminoácidos são muito usadas também para alinhamento de seqüências de proteínas, e muitas delas foram derivados com esta finalidade. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 42 Tipos de matrizes de transição de AAs Existem três tipos principais de matrizes de substituição de AAs. As matrizes PAM (Point Accepted Mutation) são baseadas em alinhamentos globais de proteínas a partir de um modelo filogenético. Existem várias matrizes PAM, algumas baseadas em alinhamentos de proteínas com mais mutações e outras em alinhamentos com menos mutações. A matriz PAM 250, por exemplo, é adequada para alinhamentos que divirjam por 250 mutações a cada 100 AAs. Devido as mutações reversas, convergentes e paralelas isso equivale a cerca de 20% de divergência entre seqüências. As matrizes BLOSSUM (Blocks Substitution Matrix) foram derivadas de modo semelhante as de PAM, usando apenas alinhamentos altamente conservados e sem gaps e sem levar em conta um modelo filogenético. Existem várias matrizes BLOSSUM, cada uma delas adequada a uma certa porcentagem de similaridade enter AAs As matrizes de Gonnet foram derivadas usando apenas alinhamentos pareados, de forma recursiva. Cada alinhamento foi usado para gerar uma nova matriz, que foi então usada para corrigir o próprio alinhamento, até se atingir um equilíbrio. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 43 Comparação matrizes de transição de AAs Existe muita correspondência entre os modelos de substituição de AAs, especialmente entre as matrizes PAM e BLOSSUM. Assim podem ser estabelecidas as seqüentes relações: PAM100 Blosum90 (Seqüências menos divergentes) PAM120 Blosum80 PAM160 Blosum60 PAM200 Blosum52 PAM250 Blosum45 (Seqüências mais divergentes) Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 44 Modelos de evolução de proteínas Modelos evolutivos Matriz PAM 250

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 45 Suposições dos modelos Todos os modelos de substituição mostrados se baseiam em quatro suposições: Substituições em um sítio são independentes das mutações nos demais. A taxa de substituição é a mesma para todos os nucleotídeos. A taxa de substituição é constante no tempo e entre as seqüências. A composição de bases das seqüências está em equilíbrio. Estas suposições são importantes para viabilizar a criação dos modelos mas, em muitos casos, são irreais. Certos refinamentos dos modelos básicos de substituição permitem seu uso quando algumas das suposições acima são violadas. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 46 Modelo LogDet É comum que as freqüências das bases não sejam constantes entre as seqüências analisadas. Variações na composição de bases entre seqüências podem levar os modelos tradicionais a agruparem seqüências com base na similaridade de bases entre elas, e não em relações filogenéticas verdadeiras. O modelo LogDet pode ser usado para obter umas distância entre seqüências mesmo quando a composição de bases varia entre elas. O modelo constrói uma matriz F xy 4x4 em que cada célula é a freqüência de sítios com aquela combinação de bases. A distância d xy é definida como d xy = -ln [detF xy ]. Modelos evolutivos t g c a tgca Seqüência X SeqYSeqY d xy = 6,216 F xy = 0,1940,0090,0210,006 0,0040,2560,0060,027 0,0180,0010,1660,003 0,0090,0270,0060,249

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 47 Correção gama É muito comum que as taxas de mutação sejam diferentes entre os sítios. Os modelos de substituição podem ser corrigidos para taxas diferentes de mutação usando a distribuição . Quando o parâmetro  da distribuição  se aproxima de zero a distribuição retrata uma grande heterogeneidade entre as taxas de mutação dos vários sítios. Quanto maior o parâmetro, menor a heterogeneidade entre as taxas de mutação dos sítios. Modelos evolutivos  pequeno (<1)  grande (>1) Região flanqueadora 5’ Pseudogenes Região não transcrita 5’Sítios não degenerados Sítios “2” degeneradosSítios “4” degenerados Íntrons Região não transcrita 3’ Região flanqueadora 3’ Substituições por sítio por 10 9 anos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 48 Como escolher modelos A escolha de um modelo começa pela análise das freqüência de cada nucleotídeo e de cada tipo de mutação. Embora modelos mais complexos permitam uma descrição mais real do processo, eles também acrescentam mais parâmetros, o que aumenta a variância das estimativas Por esta razão deve-se usar apenas os parâmetros realmente necessários. Alguns programas já permitem usar mais de um modelo por conjunto de seqüência, especificando que cada parte do alinhamento evolui de acordo com um deles. Novamente, esta prática aumenta o número de parâmetros e a variância das distâncias estimadas. Modelos evolutivos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 49 Tipos de métodos de reconstrução filogenética Existem duas categorias principais de métodos de construção de árvores filogenéticas: Os métodos de busca definem algum critério para escolha da “melhor” árvore e então seguir procuram pela árvore que melhor se adeque a este critério entre todas as que podem ser construídas com aquelas OTUs. Devido ao grande número de árvores que podem ser construídas quando o número de OTUs é grande, a maioria dos métodos de busca não consegue realmente procurar entre todas as árvores possíveis. Existem várias técnicas computacionais para otimizar o processo de busca da “melhor árvore”. Os métodos de solução única reconstroem uma única árvore filogenética, acrescentando em cada passo do processamento uma nova OTU na árvore em construção. Construindo árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 50 Tipos de métodos de reconstrução filogenética Construindo árvores Solução únicaBusca 1,0 1,5 1,3 1,8 0,9 1,5 1,6 1,9 1,1 1,8 1,2 1,7

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 51 Tipos de métodos de reconstrução filogenética Outro critério para classificar os métodos de reconstrução filogenética é quanto ao tipo de informação usada para construir a árvore. Os métodos que se valem das distâncias evolutivas calculadas a partir das seqüências originais usando algum dos modelos evolutivos são chamados de métodos de distância, ou métodos geométricos. Os métodos de solução única são sempre métodos geométricos, ou seja, produzem uma única árvore a partir das distâncias entre as seqüências. Nem todo método de distância, por outro lado, é necessariamente de solução única. Os métodos que se valem das seqüências em si, chamados de métodos de análise de caráter, são de dois subtipos: Métodos probabilísticos, como o de máxima verossimilhança ou bayesianos. Método de máxima parcimônia. Os métodos de análise de caráter são necessariamente métodos de busca. Construindo árvores

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 52 UPGMA Método de solução única. Enraíza cada cluster pré formado no ponto médio dos dois últimos ramos acrescentados. Baseia-se (implicitamente) na suposição de que as taxas evolutivas são constantes para todas as linhagens. Bom quando o relógio molecular é obedecido. Computacionalmente simples e rápido. Único método de reconstrução a produzir árvores enraizadas. Construindo árvores OTUs mais próximas OTUs mais próximas OTUs mais próximas OTUs mais próximas

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 53 Evolução mínima Método de busca baseado em distâncias. Procura pela árvore com a menor soma dos ramos. Computacionalmente lento. Único método com uma “justificativa” teórica. Sob certas condições, a árvore mais curta é a árvore verdadeira. Se as estimativas de distância evolutivas não tiverem nenhum viés, A soma dos ramos (“S”) será menor para a árvore verdadeira do que para qualquer outra. Isso não significa que a topologia com a menor soma de ramos seja a correta. Construindo árvores S=1,1 S=1,0 S=1,5 S=1,9 S=0,8 S=1,8 S=1,3 S=1,6 S=1,7 S=1,2 S=1,3 S=1,2

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 54 Neighbor Joining Método de solução única. Produz resultados em geral muito próximos aos do método de evolução mínima, minimizando, em cada passo, a soma dos ramos da árvore formada pelas OTUs já acrescentadas. Computacionalmente eficiente. Construindo árvores Menor soma de ramos Menor soma de ramos Menor soma de ramos Menor soma de ramos Menor soma de ramos

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 55 Máxima parcimônia Método de busca. Avalia todas as árvores em busca da mais parcimoniosa. A árvore mais parcimoniosa é aquela que exige o menor número de mutações nas seqüências observadas para ser produzida. Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela. Para tornar o modelo mais realista as diferentes mutações podem receber pesos diferentes. Construindo árvores N=11 N=10 N=15 N=19 N=8 N=18 N=13 N=16 N=17 N=12 N=13 N=12

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 56 Máxima verossimilhança Método probabilístico e de busca. Calcula, para cada topologia, a probabilidade da topologia produzir aquelas seqüências observadas se o modelo evolutivo escolhido for verdadeiro. Considera como a “melhor árvore’ aquela que tiver maior probabilidade de produzir os dados observados. Método computacionalmente muito custoso. Em geral utiliza uma árvore produzida por algum método geométrico como ponto de partida e avalia apenas as árvores “próximas” (semelhantes) a ela. É o método mais usado atualmente, não apenas para a reconstrução da filogenia mas também para testar hipóteses sobre ela. Construindo árvores P=0,10 P=0,15 P=0,2 P=0,11 P=0,16 P=0,18 P=0,20 P=0,21 P=0,17 P=0,14 P=0,02 P=0,16

Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 57 Bootstrap A consistência da árvore construída em relação aos dados usados para a construção pode ser testada por meio de procedimentos de replicação dos dados. O método de replicação mais usado é o bootstrap. O método de bootstrap re-amostra dos dados originais, com repetição, o mesmo número de nucleotídeos. Esta re-amostragem é usada para reconstruir uma nova árvore, que é comparada com a árvore original. Se os dados forem consistentes, no sentido de apontarem todos para uma mesma filogenia, os ramos da nova árvore serão aproximadamente os mesmo da árvore original. O número de vezes que cada ramo aparece em N repetições é contado. Ramos que não se repetem são considerados pouco sustentados pelos dados. Os ramos externos tem, por definição, 100% de bootstrap. Os testes de replicação não dizem se os ramos estão certos ou errados e sim se eles são consistentes ou não com os dados. Validando árvores

Construindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 58 Bootstrap Seq1 AATGCGTATTGCTACAGC Seq2 CAGGCGAATTGCTACGCC... SeqN AATGCGAATTGCTATAAC Seq1 AATGCCTATTGCTACAGC Seq2 CAGGCCAATTGCTACGCC... SeqN AATGCCAATTGCTATAAC Seq1 AATGCGTATTGCTTCAGC Seq2 CCGGCGAATTGCTTCGCC... SeqN AATGCGAATTGCTTTAAC Validando árvores