A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O teorema de Bayes em Filogenias...

Apresentações semelhantes


Apresentação em tema: "O teorema de Bayes em Filogenias..."— Transcrição da apresentação:

1 O teorema de Bayes em Filogenias...
Análise Bayesiana O teorema de Bayes em Filogenias...

2 Exemplo I – câncer de mama
Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados: Incidência do câncer em mulheres na faixa dos 40 anos: 1% 80% das mulheres que têm câncer fazem mamografia e o resultado é positivo 9,6% das mulheres que não têm câncer fazem mamografia e o resultado é negativo O QUE VOCÊ DIZ À SUA TIA?

3 câncer de mama Se apenas 1% das mulheres na faixa dos 40 anos têm câncer, então 99% delas não têm. Se sua tia tem um resultado positivo na mamografia, ela tanto pode ter câncer e ter o resultado positivo (probabilidade 0.01 x 0,8) ou não ter câncer e ter o resultado positivo (probabilidade 0.99 x 0.096)

4 câncer de mama Com isso, Prob. a priori (x) Resultado positivo (y)
Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) câncer (A) Não câncer (B) Total 0.1 0.8 0.08 0.457 0.99 0.096 0.543

5 câncer de mama Neste caso, sua tia, que antes do exame tinha apenas 1% de chance de ter câncer, passou a ter uma chance de 46% de ter câncer No entanto, a chance é muito menor que os 80% do resultado positivo do exame.

6 Exemplo II – paternidade
Fulaninho é o pai de Júnior? Dados: um lócus de microssatelite apresentou o seguinte resultado: Júnior pode ter herdado o alelo 13 de Fulaninho Mãe Pai 10 13 13 A paternidade de Fulaninho não foi excluída!!! 14 17 17 Júnior herdou o alelo 17 de sua mãe

7 paternidade Dá para afirmar que Fulaninho é pai de Júnior?
Ainda não. Assim como Fulaninho tem o lócus 13, outros homens na população também têm este lócus. E agora? É preciso levar em conta a frequência do alelo 13 na população como um todo, no caso é de 0,075

8 paternidade Prob. a priori (x) Passa o alelo 13 a Júnior (y)
Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) Pai - Fulaninho Pai - outro Total 0.5 0.5 0.25 0.87 0.13 0.5 0.075 0.0375 0.2875

9 paternidade Apesar do teste com um locus não ter excluído a paternidade de Fulaninho, a frequência do alelo 13 nos diz que a probabilidade de que ele seja mesmo o pai de Júnior é de apenas 87%.

10 Exemplo III – vitamina C
A vitamina C cura o câncer? Experimento com dois grupos de 100 pessoas, o primeiro grupo tratado com vitamina C e o segundo com placebo

11 vitamina C Protegidos do câncer Esperado por acaso χ2 Grupo 1 (Vit C) 65 50 4,5 Grupo 2 (Placebo) Χ2 com 1g.l. (0,05) = 3,84 O resultado do teste diz que o resultado foi significativo a 5% de confiança.

12 vitamina C No entanto, outras pesquisas mostram que a probabilidade da vitamina C ter algum efeito sobre o câncer é mínima... Com isso, a probabilidade a priori é muito pequena. Se fizermos o gráfico, a probabilidade posterior fica minúscula...

13 vitamina C Prob. a priori (x) Protegidos contra o câncer (y)
Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) Vit C funciona Vit C não funciona Total 0.01 0.65 0.0065 0.013 0.99 0.50 0.495 0.987 0.5015

14 Teorema de Bayes

15 Teorema de Bayes Probabilidade a priori de se ter câncer de mama aos 40 Probabilidade dos dados, dada a probabilidade a priori Probabilidade do exame dar positivo se a mulher tiver o câncer Prob da sua tia ter câncer, dado que o resultado foi positivo Probabilidade a priori Probabilidade Posterior 0,46 0,01 0,8 0,01 x 0,8 +0,99 x 0,096 Probabilidade do exame dar positivo em qualquer situação Somatório das probabilidades, considerando cada uma das hipóteses a priori

16 Exemplo IV – dados justos?
Qual a probabilidade de que um dado sorteado ao acaso seja “biased” (tendencioso)? P(biased) = 10/10+90=0,1 Essa é a probabilidade a priori, ou “prior”

17 dados justos? Agora, vou pegar o dado tomado ao acaso e jogar duas vezes (produção de dados, para ter uma observação que me permita avaliar melhor se o dado é tendencioso ou não).

18 dados justos? Joguei o dado e obtive um 6 e um 4.
Cálculo da Verossimilhança em cada caso: Conclusão: O dado é tendencioso!

19 dados justos? 0,179 O que diz a análise Bayesiana sobre isso?
Probabilidade dos dados, segundo a hipótese (verossimilhança) Probabilidade da hipótese (H=dado tendencioso) dados os dados Probabilidade da hipótese a priori 0,1 24/411 (1/36 x 0.9) + (24/411 x 0,1)= 0,03 0,179 Somatório das verossimilhanças de todas as possibilidades de dar 4 e 6 (tendencioso ou justo)

20 dados justos? Quando tínhamos só a informação de quantos dados justos e quantos tendenciosos há na caixa, a probabilidade de ter sorteado um dado tendencioso era de 10%. Depois que jogamos o dado duas vezes, passamos a ter uma probabilidade posterior, ou seja, uma probabilidade obtida com a observação, que nos permite julgar com mais clareza o que aconteceu. Depois disso, a probabilidade de ter sorteado um dado tendencioso passou a ser de 17,9%

21 Assim... A análise Bayesiana permite o cálculo da probabilidade posterior, ou seja a probabilidade de uma hipótese depois que os dados forem obtidos A probabilidade posterior permite que uma análise baseada numa visão de mundo e na observação.

22 Nos exemplos No exemplo 1, sua tia pode ficar menos desesperada, já que 0.46 é muito menor que 0.8! Isso tudo porque utilizamos a probabilidade a priori, de 0.1. No exemplo 2, fulaninho tem a probabilidade de 87% de ser o pai de Júnior, não 100%, já que foi levada em conta a probabilidade do alelo na população como um todo!

23 Nos exemplos No exemplo 3, da vitamina C, a probabilidade a priori de ter algum efeito é tão pequena que os dados obtidos podem ser desprezados, apesar da estatística convencional ter indicado que os resultados são significativos...

24 E Agora??? Teorema de Bayes
Probabilidade do modelo (H=árvore + modelo de substituição) dado o alinhamento Probabilidade do alinhamento, dado o modelo (verossimilhança) Probabilidade do modelo a priori E Agora??? Somatório das verossimilhanças de todos os modelos possíveis

25 Como calculo as probabilidades a priori (priors)?
Probabilidade do modelo a priori

26 Priors ou modelos a priori...
Em geral não temos hipóteses a priori, o que fazer? Considerar uma hipótese “flat” (plana) ou vaga.

27 Coisas que precisam de priors...
Topologias 2n-3 tamanhos de ramos Frequências dos nucleotídeos Parâmetros das taxas de substituição Transições/transversões GTR (taxas individuais, A→T, A →C, A →G etc.) Parâmetros sobre a heterogeneidade de sítios Gamma Proporção de sítios invariáveis

28 Como estabelecer os priors?
Primeira opção: “flat”, ou seja, um valor qualquer, aleatório, fixo. Deixe para o programa avaliar a probabilidade posterior No exemplo da paternidade utilizamos um prior “flat” ao dizer que a probabilidade de Fulaninho ser o pai de júnior era de 50%. Na verdade poderíamos ter utilizado testemunhas que conheçam o casal e o comportamento da esposa de Fulaninho e começar com uma probabilidade a priori um pouco maior ou um pouco menor.

29 Como estabelecer os priors?
Segunda opção: Você pode utilizar o MrModelTest apenas para saber quais parâmetros devem ser inferidos pelo MrBayes, o que economiza tempo e melhora muito as estimativas.

30 Como estabelecer os priors?
Terceira opção: utilize o MrModelTest, e ele poderá fornecer muitos dos parâmetros que precisam de priors, exceto pela topologia e os tamanhos dos ramos. Tamanhos de ramos e topologia, bom, começamos de qualquer ponto aleatório – “flat”

31 Ok, tenho os priors, e o denominador?
Somatório das verossimilhanças de todos os modelos possíveis

32 denominador... Este foi o único empecilho para utilizar a análise Bayesiana em filogenias, que era tão promissora, mas ao mesmo tempo tão complicada e impossível computacionalmente. O problema foi resolvido com o uso da CADEIA de MARKOV aliada ao método de Monte Carlo e ao algoritmo de Metrópolis– Markov Chain Monte Carlo Methods - MCMC

33 O que é uma Cadeia de Markov?
É uma sequência de passos, cuja principal característica é que o estado do passo n só depende do estado do passo n-1.

34 E daí? Na cadeia de Markov, você pode comparar o “estado” do passo 1 com o “estado” do passo 2. Basicamente se o passo 2 for “melhor” que o 1, o 2 passa a ser a referência para o passo 3, se não, você deve voltar para o passo 1 e tentar outra alternativa para o 2, até poder sair dele...

35 O que são os passos? São as verossimilhanças de cada passo (qual a verossimilhança do alinhamento num determinado modelo?) Cada passo da cadeia de Markov corresponde à verossimilhança de hipótese diferente testada com o alinhamento que temos (H1, H2, H3...)

36 Cadeia de Markov e o denominador...
Somatório das verossimilhanças de todos os modelos possíveis

37 Cadeia de Markov e o denominador...
Comparando os dois “passos” Então não precisamos calcular o denominador... Como Prob(H1) e Prob (H2) são os “priors”, então são iguais! Como Prob (D) também é a mesma... Então podemos considerar que estamos comparando as probabilidades posteriores dos passos adjascentes.

38 Cadeia de Markov Comece com uma árvore qualquer, Ti
Procure uma árvore vizinha (próximo passo), Tj Calcule a razão entre as duas: Aceite a nova árvore como a árvore atual R = Tj/Ti Rejeite a nova árvore e volte à anterior

39 A cadeia em funcionamento

40 Monte Carlo??? Cassino??? Os cassinos, por mais que eventualmente paguem prêmios milionários, SEMPRE saem ganhando. Garantem isso na quantidade, já que o número de perdedores pagantes num cassino é imensamente superior ao número de ganhadores. Com a Bayesiana em filogenias, é preciso apostar num enorme número de passos, para garantir que os modelos encontrados sejam de fato os melhores...

41 O que faço eu com o MCMC? Depois que o mcmc rodar por muiiiitttooosss passos, ou gerações (em geral mais de 1 milhão), chegaremos num ponto de poucas melhoras. Agora toma-se apenas o conjunto de melhores árvores e avalia-se as topologias. Se um determinado nó (humanos + chimpanzés, por exemplo) aparece em mais de 95% delas, então temos a confiabilidade deste ramo, pela probabilidade posterior.

42 Algoritmo de Metropolis
O algoritmo de Metropolis é uma cadeia de Markov com distribuição de equilíbrio πTi (pequena modificação na cadeia de Markov): A nova árvore deve ser aceita como a árvore atual com probabilidade igual a 1 R = Tj/Ti cupinzeiro A nova árvore deve ser aceita como a árvore atual com probabilidade igual R

43 MCMCMC Metropolis Coupled Markov Chains Monte Carlo

44 A cadeia em funcionamento

45 E daí? Daí você coloca o cego para tentar achar o topo mais alto da Serra da Mantiqueira. Ele certamente encontrará um topo, mas jamais saberá se chegou no mais alto de todos (é cego!).

46 Ótimo, tenho um ótimo local...
Não, porque coloco ao invés de 1, 4 cegos. Faço ainda com que caminhem em passos diferentes. Um deles caminha a passos curtos (cadeia fria) e os outros a passos bem longos (cadeias quentes) Os três cegos da cadeia quente são capazes de vasculhar toda a Serra, porque dão pulos de vez em quando

47 e,... O cego da cadeia fria é sempre aquele que está no ponto mais alto.

48 Ok, faço isso eternamente com os 4 cegos? Quando parar?
Bom, na verdade não serão 4, mas 8 cegos encarregados da tarefa. 2 deles de cadeia fria 6 deles de cadeia quente. Quando os dois de cadeia fria chegarem no mesmo lugar, admito que cheguei em um ótimo global Faço mais algumas milhares de análises e utilizo as últimas posições (o topo mais alto) para avaliar minhas árvores.

49 Como avaliar as árvores?
Dentre as árvores do melhor lugar, vejo qual a proporção que contém os nós da minha árvore de interesse. Sempre que um nó aparecer em mais de 90 ou 95% delas, é um nó bem sustentado.

50 A vida sem Bootstrap!

51 Verossimilhança X Bayesiana
Curva de verossimilhança - Azul Curva da Bayesiana - laranja A área sob a curva bayesiana é sempre maior. A ML procura por um pico, que corresponderia à melhor árvore, enquanto a bayesiana procura por um conjunto de melhores árvores.

52 Exemplo de Árvore

53 MrBayes Primeiro passo: rodar o MrModelTest
Serve para inferir quais parâmetros devem ser calculados pelo MrBayes além da topologia e dos tamanhos de ramos Frequência das bases? (se for diferente de 25% para cada uma) Transição/transversão? (se a frequência de transversões for maior que a de transições) Frequências de modificação de uma base para a outra Gamma % de invariáveis

54 MrBayes Depois que o MrBayes sabe o que calcular, é só rodar.
O default é fazer duas corridas, cada uma com 4 cadeias, três quentes e 1 fria Isso pode variar, se você tiver um super computador, pode fazer 3 ou 4 corridas e esperar que todas convirjam. Deixe as cadeias rodar por 1 milhão de passos (ou gerações)

55 MrBayes Amostre em que ponto as cadeias estão a cada 100 ou 1000 gerações. Se optar por amostrar a cada 1000 gerações, faça 10 milhões de gerações ao invés de 1 milhão. Monitore as corridas e não termine o programa antes que as cadeias tenham convergido (desvio padrão > 0.01) Elimine pelo menos 25% das árvores iniciais, certamente elas têm baixa verossimilhança e não é isso que você quer.


Carregar ppt "O teorema de Bayes em Filogenias..."

Apresentações semelhantes


Anúncios Google