A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza.

Apresentações semelhantes


Apresentação em tema: "Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza."— Transcrição da apresentação:

1 Máxima Verossimilhança ou Maximum Likelihood

2 Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza em 1964 Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...

3 Descrição da MV Verossimilhança é a probabilidade dos DADOS sob um determinado modelo. Por que não chamar simplesmente de probabilidade? Na verdade é uma probabilidade, só que estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)

4 Moedas... dado No lançamento de uma moeda você obteve uma cara. Este é o dado. dado ½ Se você achar que a moeda é uma moeda comum (modelo), o dado tem probabilidade de ½. dado 1 Porém se você achar que a moeda tem duas caras (modelo), o dado tem probabilidade de 1.

5 Evolução Molecular Dados = alinhamento Modelo = árvore + mecanismos de modificações moleculares modeloárvore Normalmente chamamos os mecanismos de modelo e a árvore de árvore.

6 Modelos Moleculares (ou de DNA) Um modelo tem duas partes: Composição Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam Processo Em que taxa um nucleotídeo muda para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)

7 sequência uma base A A verossimilhança de uma sequência composta por uma base - A processo Não precisamos da parte do modelo envolvida no processo; Modelos de composição: 1) Todas as bases são A. L=1 2) Todas as bases são C. L=0 3) A ocorre numa frequência de 33%. L=0.33 Likelihood (L)=verossimilhança)

8 Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625 Composição: 40% A e 10% C L = 0.4 x 0.1 = 0.04 A verossimilhança de uma sequência de duas bases - AC

9 Regra Geral A soma das verossimilhanças (assim como acontece com as probabilidades) deve ser igual a 1 Se há 16 possibilidades de di-nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1

10 O Processo... Esta parte do modelo é necessária quando duas ou mais sequências estão conectadas por uma árvore. Pode ser descrito por Sentenças Equações Matrizes de números

11 P = (Processo) π = (Conteúdo) MV de duas sequências com quatro bases cada

12 P = (Processo) = ACGT A C T G DE Para: Observação Importante...

13 P = (Processo) π = (Conteúdo) MV de duas sequências com quatro bases cada

14 Dados Seja o alinhamento: CCAT CCGT A verossimilhança de sair da primeira para a segunda sequência é: L = π C P C C π C P C C π A P A G π T P T T= =0.4 x x 0.4 x x 0.1 x x 0.3 x =

15 Diferentes tamanhos de ramos O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos... Ramo curto – pequena probabilidade de modificações, grande probabilidade de permanência no mesmo estado Ramo longo – grande probabilidade de modificações

16 Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde) Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = , qual será a verossimilhança com 2 ou 3 cdes? Diferentes tamanhos de ramos

17 P = P2=P2= P3=P3= 1 cde L= cdes L = cdes L =

18 Diferentes tamanhos de ramos

19 Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...) P 10 = 6 Diferentes tamanhos de ramos

20 Matrizes de Taxas O problema de P é que os tamanhos de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes... O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio Mais importante que isso é extrair a matriz de taxas separadas de π.

21 Matrizes de Taxas Com um pouco de álgebra, obtém-se a matriz de taxas independente do conteúdo com isso não é necessária a inclusão da probabilidade de não-modificação:

22 No PAUP... Use o comando Lset para expressar a matriz de taxas da seguinte maneira: g t = 1.0 (default que não entra na matriz) a c, a g, a t, c g, c t (em valores referentes a um. Neste caso, com a matriz anterior temos: Lset rmat=(1.0, , 1.0, 1.0, )

23 Como escolher o melhor modelo para MV? Programa ModelTest Trata-se de um script do PAUP, que toma como base o alinhamento e uma árvore feita rapidamente com NJ. Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados. A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)

24 JC+I JC+G JC+I+G JC Tajima – Nei ou Felsenstein 81

25 Jukes-Cantor (d) - JC Correção que leva em conta a possibilidade de substituições de bases A T C G A - α α α T α - α α C α α - α G α α α -

26 Tajima-Nei (F81) Leva em conta apenas as diferentes frequências das bases: A T C G A - αg T αg C α 1 g G T αg A - αg C α 1 g G C αg A αg T - α 1 g G G αg A αg T αg C - g A, g T, g C, g G = frequência de bases

27 Parâmetro a ser ajustado = α Distâncias Gamma α=0,2 α=1 α=2 α=5 α=10

28 Kimura 2P Tamura-Nei

29 Kimura 2 parâmetros – K80 Correção que leva em conta probabilidades diferentes de transições e transversões A T C G A - β β α T β - α β C β α - β G α β β -

30 Tamura-Nei (TrN) Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de bases (g). A T C G α 1 g G A - βg T βg C α 1 g G α 2 g C T βg A - α 2 g C βg G α 2 g T C βg A α 2 g T - βg G α 1 g A G α 1 g A βg T βg C - g A, g T, g C, g G = frequência de bases

31 GTR

32 General Time Reversible (GTR) Leva em conta diferentes frequências de bases e de substituições A T C G A - ag T bg C c 1 g G T ag A - dg C e 1 g G C bg A dg T - f 1 g G G cg A eg T fg C - g A, g T, g C, g G = frequência de bases

33 Resultados do ModelTest Likelihood Ratio Test hLRTs = 2(lnL1 – lnL0) dist. como qui-quadrado, com graus de liberdade igual à diferença do número de parâmetros

34 Resultados do ModelTest Likelihood Ratio Test 1 1 JC: nst=1 base=equal rates=equal Pinv=0 F81: nst=1 base=est rates=equal Pinv=0 1 parâmetro 4 parâmetros 2 2 F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro hLRTs = 2(lnL1 – lnL0) dist. como qui-quadrado, com graus de liberdade igual à diferença do número de parâmetros

35 Resultados do ModelTest Akaike Information Criterion AIC = -2LnL + 2K

36 O que fazer com tantos números? Colar a linha Lset do resultado do teste de AIC:

37 Comandos do PAUP Set criterion=Likelihood Lset (colado do modeltest) Hsearch ? Hsearch swap=TBR start=NJ Bootstrap ? Search=heuristic/swap=NNI start=NJ

38 BIC (Bayesian Information Criterion) BIC = -2LnL + K ln (n) Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0


Carregar ppt "Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza."

Apresentações semelhantes


Anúncios Google