A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Máxima Verossimilhança ou Maximum Likelihood

Apresentações semelhantes


Apresentação em tema: "Máxima Verossimilhança ou Maximum Likelihood"— Transcrição da apresentação:

1 Máxima Verossimilhança ou Maximum Likelihood

2 Máxima Verossimilhança
Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza em 1964 Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...

3 Descrição da MV Verossimilhança é a probabilidade dos DADOS sob um determinado modelo. Por que não chamar simplesmente de probabilidade? Na verdade é uma probabilidade, só que estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)

4 Moedas... No lançamento de uma moeda você obteve uma cara. Este é o dado. Se você achar que a moeda é uma moeda comum (modelo), o dado tem probabilidade de ½. Porém se você achar que a moeda tem duas caras (modelo), o dado tem probabilidade de 1.

5 Evolução Molecular Dados = alinhamento
Modelo = árvore + mecanismos de modificações moleculares Normalmente chamamos os mecanismos de modelo e a árvore de árvore.

6 Modelos Moleculares (ou de DNA)
Um modelo tem duas partes: Composição Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam Processo Em que taxa um nucleotídeo muda para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)

7 A verossimilhança de uma sequência composta por uma base - A
Não precisamos da parte do modelo envolvida no processo; Modelos de composição: 1) Todas as bases são A . L=1 2) Todas as bases são C. L=0 3) A ocorre numa frequência de 33%. L=0.33 Likelihood (L)=verossimilhança)

8 A verossimilhança de uma sequência de duas bases - AC
Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625 Composição: 40% A e 10% C L = 0.4 x 0.1 = 0.04

9 Regra Geral A soma das verossimilhanças (assim como acontece com as probabilidades) deve ser igual a 1 Se há 16 possibilidades de di-nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1

10 O Processo... Esta parte do modelo é necessária quando duas ou mais sequências estão conectadas por uma árvore. Pode ser descrito por Sentenças Equações Matrizes de números

11 MV de duas sequências com quatro bases cada
P = (Processo) π = (Conteúdo)

12 Observação Importante...
Para: A C G T =1 A DE C P = T G (Processo)

13 MV de duas sequências com quatro bases cada
P = (Processo) π = (Conteúdo)

14 Dados Seja o alinhamento: C C A T C C G T
A verossimilhança de sair da primeira para a segunda sequência é: L = πC PCC πC PCC πA PAG πT PTT= =0.4 x x 0.4 x x 0.1 x x 0.3 x 0.979 =

15 Diferentes tamanhos de ramos
O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos... Ramo curto – pequena probabilidade de modificações, grande probabilidade de permanência no mesmo estado Ramo longo – grande probabilidade de modificações

16 Diferentes tamanhos de ramos
Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde) Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = , qual será a verossimilhança com 2 ou 3 cdes?

17 Diferentes tamanhos de ramos
P = 1 cde L= P3= P2= 3 cdes L = 2 cdes L =

18 Diferentes tamanhos de ramos

19 Diferentes tamanhos de ramos
Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...) P10 = 6

20 Matrizes de Taxas O problema de P é que os tamanhos de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes... O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio Mais importante que isso é extrair a matriz de taxas separadas de π.

21 Matrizes de Taxas Com um pouco de álgebra, obtém-se a matriz de taxas independente do conteúdo com isso não é necessária a inclusão da probabilidade de não-modificação:

22 No PAUP... Use o comando Lset para expressar a matriz de taxas da seguinte maneira: gt = 1.0 (default que não entra na matriz) a c, ag, at, cg, ct (em valores referentes a um. Neste caso, com a matriz anterior temos: Lset rmat=(1.0, , 1.0, 1.0, )

23 Como escolher o melhor modelo para MV?
Programa ModelTest Trata-se de um script do PAUP, que toma como base o alinhamento e uma árvore feita rapidamente com NJ. Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados. A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)

24 JC JC+I JC+G JC+I+G Tajima – Nei ou Felsenstein 81

25 Jukes-Cantor (d) - JC Correção que leva em conta a possibilidade de substituições de bases A T C G A α α α T α α α C α α α G α α α -

26 Tajima-Nei (F81) Leva em conta apenas as diferentes frequências das bases: A T C G A αgT αgC α1gG T αgA αgC α1gG C αgA αgT α1gG G αgA αgT αgC gA, gT, gC, gG = frequência de bases

27 Distâncias Gamma Parâmetro a ser ajustado = α α=0,2 α=5 α=1 α=2 α=10

28 Kimura 2P Tamura-Nei

29 Kimura 2 parâmetros – K80 Correção que leva em conta probabilidades diferentes de transições e transversões A T C G A β β α T β α β C β α β G α β β -

30 Tamura-Nei (TrN) Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de bases (g). A T C G A βgT βgC α1gG T βgA α2gC βgG C βgA α2gT βgG G α1gA βgT βgC gA, gT, gC, gG = frequência de bases

31 GTR

32 General Time Reversible (GTR)
Leva em conta diferentes frequências de bases e de substituições A T C G A agT bgC c1gG T agA dgC e1gG C bgA dgT f1gG G cgA egT fgC gA, gT, gC, gG = frequência de bases

33 Resultados do ModelTest Likelihood Ratio Test
hLRTs = 2(lnL1 – lnL0) dist. como qui-quadrado, com graus de liberdade igual à diferença do número de parâmetros

34 Resultados do ModelTest Likelihood Ratio Test
hLRTs = 2(lnL1 – lnL0) dist. como qui-quadrado, com graus de liberdade igual à diferença do número de parâmetros 1 1 parâmetro 1 JC: nst=1 base=equal rates=equal Pinv=0 F81: nst=1 base=est rates=equal 2 4 parâmetros 2 F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro

35 Resultados do ModelTest Akaike Information Criterion
AIC = -2LnL + 2K

36 O que fazer com tantos números?
Colar a linha Lset do resultado do teste de AIC:

37 Comandos do PAUP Set criterion=Likelihood Lset (colado do modeltest)
Hsearch ? Hsearch swap=TBR start=NJ Bootstrap ? Search=heuristic/swap=NNI start=NJ

38 BIC (Bayesian Information Criterion)
BIC = -2LnL + K ln (n) Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0


Carregar ppt "Máxima Verossimilhança ou Maximum Likelihood"

Apresentações semelhantes


Anúncios Google