Métodos geométricos (baseados em distância)
Cálculo de Distâncias As distâncias evolutivas são calculadas para todos os pares de taxa (ou OTUs) e a árvore é construída considerando as relações entre estes valores
www.megasofware.net
Estatísticas das Seqüências Conteúdo de bases Distância das sequências par a par transiçoes/transversões (0,5) Ou 2x trans/transv (1,0) Todas estas estatísticas são levadas em conta na escolha do modelo de substituição a ser utilizado
Cálculo de Distâncias Distância p
Distância p Se as seqüências forem muito distintas, p pode ser subestimado por homoplasias Com isso, algumas correções são necessárias Como regra geral: se p > 0,3 a distância calculada por p é uma subestimativa Se p > 0,5 – metade dos aa são diferentes... Se p > 0,15 – utilizar algum modelo de substituição para corrigir a estimativa
Jukes-Cantor (d) - JC Correção que leva em conta a possibilidade de substituições de bases A T C G A - α α α T α - α α C α α - α G α α α -
Jukes-Cantor (d) - JC Substituições ocorrem com igual frequência em todos os nn, e que cada nn muda para qualquer outro com uma probabilidade α por ano (r = 3 α) r é a taxa de substituição por sítio e por ano. Considere duas sequencias, X e Y que divergiram de um ancestral há t anos Seja qt a proporção de sítios idênticos e pt a proporção de sítios diferentes (1 – qt)
Jukes-Cantor (d) - JC Proporção de sítios idênticos em t+1: Probabilidade de que um sítio idêntico em t continue idêntico em t+1: (1 – r)2 = 1 – 2r + r2 1 – 2r probabilidade de que um sítio diferente em t se torne idêntico em t+1 2r/3
Seja Xi e Yj em t: Para que sejam idênticos em t+1: Xi Xj e Yj Yj ; α (1 – r) ou Xi Xi e Yj Yi ; (1 – r) α 2 . α (1 – r) = 2 . r/3 (1-r) = 2r/3 – 2r2/3 2r/3
Jukes-Cantor (d) - JC Então: Ou:
Sítio idêntico em t que continua idêntico Jukes-Cantor (d) - JC Então: Ou: Sítio idêntico em t que continua idêntico
Jukes-Cantor (d) - JC Então: Ou: Sítio idêntico em t que continua idêntico Sítio não idêntico em t que passou a ser idêntico
Jukes-Cantor (d) - JC Representando qt+1 – qt por dq/dt: Em condições iniciais q = 1 em t = 0:
Jukes-Cantor (d) - JC Se p = (1 - q) Sendo d a proporção de nn que se modificaram com o tempo: d = 2r . t
Jukes-Cantor (d) - JC
Kimura 2 parâmetros – K80 Correção que leva em conta probabilidades diferentes de transições e transversões A T C G A - β β α T β - α β C β α - β G α β β -
Kimura 2 parâmetros – K80 r = α + 2β Transições As transversões
Tamura Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de CG. A T C G A - βθ2 βθ1 αθ1 T βθ2 - αθ1 βθ1 C βθ2 αθ2 - βθ1 G αθ2 βθ2 βθ1 - θ1 = frequência de CG θ2 = freqüência de AT
Tamura-Nei (TrN) Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de bases (g). A T C G A - βgT βgC α1gG T βgA - α2gC βgG C βgA α2gT - βgG G α1gA βgT βgC - gA, gT, gC, gG = frequência de cada uma das bases
Tajima-Nei (F81) Leva em conta apenas as diferentes freqüências das bases: A T C G A - αgT αgC α1gG T αgA - αgC α1gG C αgA αgT - α1gG G αgA αgT αgC - gA, gT, gC, gG = frequência de cada uma das bases
General Time Reversible (GTR) Leva em conta diferentes freqüências de bases e de substituições A T C G A - agT bgC cgG T agA - dgC egG C bgA dgT - fgG G cgA egT fgC - gA, gT, gC, gG = frequência de cada uma das bases a, b, c, d, e, f = probabilidade de substituição
Distâncias Gamma Nas distâncias consideradas anteriormente, assume-se que a taxa de substituições nucleotídicas é a mesma para todos os sítios... Na verdade, isso dificilmente é assim, e esta taxa varia de sítio para sítio.
Distâncias Gamma Parâmetro a ser ajustado = α α=0,2 α=5 α=1 α=2 α=10
UPGMA (Unweighted Pair-Group Method with Arithmetic Mean) B D E F G H I C Tempo É o mais simples e intuitivo dos métodos Se baseia nas médias das distâncias entre as OTUs Parte do princípio de que o relógio molecular está “funcionando”
Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8
Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8
Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8
Calcular médias A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4 2 3 5
A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 2 3 5
A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 2 3 5
A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 9 2 3 5
A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 9 2 7,5 3 5
AB C D E F X 4,5 4 9 2 7,5 3 5
AB C D E F X 4,5 4 9 2 7,5 3 5
AB C D E F X 4,5 4 9 2 7,5 3 5
A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 5
(dAC+dAE+dBC=dBE)/4 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 5
(dAC+dAE+dBC=dBE)/4 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 5
Repetindo a matriz anterior B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 7,5 5
(dCD+dED)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 7,5 5
(dCD+dED)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 4 7,5
(dCF+dEF)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 4 7,5
AB CE D F X 6,75 4,5 4 7,5 3 5
Calcular as médias (dAC+dAE+dAF+dBC+dBE+dBF)/6; (dCD+dED+dFD)/3 AB CEF X 7 4,5 4,3
Calcular a média (dAC+dAD+dAE+dAF+dBC+dBD+dBE+dBF)/8 AB CEFD X 6.3
Matriz cofenética A B C D E F X 1 6,3 4,3 2 3
Comparação entre matrizes... Original Cofenética A B C D E F X 1 6,3 4,3 2 3 A B C D E F X 1 4 5 6 3 9 2 7 8
UPGMA - Limitações Quando a taxa de substituição de nucleotídeos varia de uma linhagem para a outra, o UPGMA fornece a topologia incorreta Nestes casos é necessário utilizar métodos que permitam taxas evolutivas diferentes entre os organismos
Evolução Mínima Método que busca, dentre todas as árvores possíveis, aquela cuja soma dos tamanhos de ramos é a menor (parte do princípio que a árvore verdadeira seria a que contém os menores tamanhos de ramos) Limitações: como o número de topologias possíveis é muito grande, a busca pode tornar-se lenta
Neighbor Joining (NJ) Saitou & Nei (1987) Método baseado no princípio da evolução mínima Não examina todas as topologias, mas requer o princípio da EM em todos os estágios (é uma simplificação da EM)
Neighbor Joining (NJ) Conceito de “vizinhos” – dois taxa conectados por um único nó numa árvore não enraizada (1,2 e 5,6)
Neighbor Joining (NJ)
Neighbor Joining (NJ) Algoritmo: Início com uma topologia em estrela Somar todos os tamanhos de ramos da árvore inicial (S0) Tomar um par de vizinhos, estabelecer a distância entre este par e todos os outros Estimar Si,j Repetir o procedimento para todos os pares de vizinhos até encontrar o menor S.
Neighbor Joining (NJ)
Neighbor Joining (NJ)
Neighbor-Joining
Testes Estatísticos Bootstrap: é o mais utilizado, faz uma reamostragem dos sítios com reposição: G A C T N e b o k e f e h c j k f m n i G A C T N a b c d e f g h i j k l m n o a b c d c f g h d j o l m n o G A C T N
Bibliografia Li W-H. 1997. Molecular Evolution. Sinauer Ass. Publish. Matioli, S.R. 2001. Biologia Molecular e Evolução. Editora Holos, São Paulo. Nei, M. & Kumar, S. 2000. Molecular Evolution and Phylogenetics. Oxford University Press.