A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Apresentações semelhantes


Apresentação em tema: "O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:"— Transcrição da apresentação:

1 O teorema de Bayes em Filogenias...

2 Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados: Incidência do câncer em mulheres na faixa dos 40 anos: 1% 80% das mulheres que têm câncer fazem mamografia e o resultado é positivo 9,6% das mulheres que não têm câncer fazem mamografia e o resultado é negativo O QUE VOCÊ DIZ À SUA TIA?

3 Se apenas 1% das mulheres na faixa dos 40 anos têm câncer, então 99% delas não têm. Se sua tia tem um resultado positivo na mamografia, ela tanto pode ter câncer e ter o resultado positivo (probabilidade 0.01 x 0,8) ou não ter câncer e ter o resultado positivo (probabilidade 0.99 x 0.096)

4 Com isso, Prob. a priori (x) Resultado positivo (y) Prob. conjunta (xy) Prob. a posteriori (x A y A ) / (x A y A ) + (x B y B ) câncer (A) Não câncer (B) Total

5 Neste caso, sua tia, que antes do exame tinha apenas 1% de chance de ter câncer, passou a ter uma chance de 46% de ter câncer No entanto, a chance é muito menor que os 80% do resultado positivo do exame.

6 Fulaninho é o pai de Júnior? Dados: um lócus de microssatelite apresentou o seguinte resultado: MãePai Júnior herdou o alelo 17 de sua mãe Júnior pode ter herdado o alelo 13 de Fulaninho A paternidade de Fulaninho não foi excluída!!!

7 Dá para afirmar que Fulaninho é pai de Júnior? Ainda não. Assim como Fulaninho tem o lócus 13, outros homens na população também têm este lócus. E agora? É preciso levar em conta a frequência do alelo 13 na população como um todo, no caso é de 0,075

8 Prob. a priori (x) Passa o alelo 13 a Júnior (y) Prob. conjunta (xy) Prob. a posteriori (x A y A ) / (x A y A ) + (x B y B ) Pai - Fulaninho Pai - outro Total

9 Apesar do teste com um locus não ter excluído a paternidade de Fulaninho, a frequência do alelo 13 nos diz que a probabilidade de que ele seja mesmo o pai de Júnior é de apenas 87%.

10 A vitamina C cura o câncer? Experimento com dois grupos de 100 pessoas, o primeiro grupo tratado com vitamina C e o segundo com placebo

11 Protegidos do câncer Esperado por acaso χ2χ2 Grupo 1 (Vit C)65504,5 Grupo 2 (Placebo) 50 0 Χ 2 com 1g.l. (0,05) = 3,84 O resultado do teste diz que o resultado foi significativo a 5% de confiança.

12 No entanto, outras pesquisas mostram que a probabilidade da vitamina C ter algum efeito sobre o câncer é mínima... Com isso, a probabilidade a priori é muito pequena. Se fizermos o gráfico, a probabilidade posterior fica minúscula...

13 Prob. a priori (x) Protegidos contra o câncer (y) Prob. conjunta (xy) Prob. a posteriori (x A y A ) / (x A y A ) + (x B y B ) Vit C funciona Vit C não funciona Total

14

15 Prob da sua tia ter câncer, dado que o resultado foi positivo Probabilidad e a priori de se ter câncer de mama aos 40 Probabilidade do exame dar positivo se a mulher tiver o câncer Probabilidade do exame dar positivo em qualquer situação 0,01 0,8 0,01 x 0,8 +0,99 x 0,096 0,46 Probabilidade Posterior Probabilidad e a priori Probabilidade dos dados, dada a probabilidade a priori Somatório das probabilidades, considerando cada uma das hipóteses a priori

16 Qual a probabilidade de que um dado sorteado ao acaso seja biased (tendencioso)? P(biased) = 10/10+90=0,1 Essa é a probabilidade a priori, ou prior

17 Agora, vou pegar o dado tomado ao acaso e jogar duas vezes (produção de dados, para ter uma observação que me permita avaliar melhor se o dado é tendencioso ou não).

18 Joguei o dado e obtive um 6 e um 4. Conclusão: O dado é tendencioso! Cálculo da Verossimilhança em cada caso:

19 O que diz a análise Bayesiana sobre isso? Probabilidade da hipótese (H=dado tendencioso) dados os dados Probabilidade da hipótese a priori Probabilidade dos dados, segundo a hipótese (verossimilhança) Somatório das verossimilhanças de todas as possibilidades de dar 4 e 6 (tendencioso ou justo) 0,124/411 (1/36 x 0.9) + (24/411 x 0,1)= 0,03 0,179

20 Quando tínhamos só a informação de quantos dados justos e quantos tendenciosos há na caixa, a probabilidade de ter sorteado um dado tendencioso era de 10%. Depois que jogamos o dado duas vezes, passamos a ter uma probabilidade posterior, ou seja, uma probabilidade obtida com a observação, que nos permite julgar com mais clareza o que aconteceu. Depois disso, a probabilidade de ter sorteado um dado tendencioso passou a ser de 17,9%

21 A análise Bayesiana permite o cálculo da probabilidade posterior, ou seja a probabilidade de uma hipótese depois que os dados forem obtidos A probabilidade posterior permite que uma análise baseada numa visão de mundo e na observação.

22 No exemplo 1, sua tia pode ficar menos desesperada, já que 0.46 é muito menor que 0.8! Isso tudo porque utilizamos a probabilidade a priori, de 0.1. No exemplo 2, fulaninho tem a probabilidade de 87% de ser o pai de Júnior, não 100%, já que foi levada em conta a probabilidade do alelo na população como um todo!

23 No exemplo 3, da vitamina C, a probabilidade a priori de ter algum efeito é tão pequena que os dados obtidos podem ser desprezados, apesar da estatística convencional ter indicado que os resultados são significativos...

24 Probabilidade do modelo (H=árvore + modelo de substituição) dado o alinhamento Probabilidade do modelo a priori Probabilidade do alinhamento, dado o modelo (verossimilhança) Somatório das verossimilhanças de todos os modelos possíveis E Agora???

25 Probabilidade do modelo a priori

26 Em geral não temos hipóteses a priori, o que fazer? Considerar uma hipótese flat (plana) ou vaga.

27 Topologias 2n-3 tamanhos de ramos Frequências dos nucleotídeos Parâmetros das taxas de substituição Transições/transversões GTR (taxas individuais, A T, A C, A G etc.) Parâmetros sobre a heterogeneidade de sítios Gamma Proporção de sítios invariáveis

28 Primeira opção: flat, ou seja, um valor qualquer, aleatório, fixo. Deixe para o programa avaliar a probabilidade posterior No exemplo da paternidade utilizamos um prior flat ao dizer que a probabilidade de Fulaninho ser o pai de júnior era de 50%. Na verdade poderíamos ter utilizado testemunhas que conheçam o casal e o comportamento da esposa de Fulaninho e começar com uma probabilidade a priori um pouco maior ou um pouco menor.

29 Segunda opção: Você pode utilizar o MrModelTest apenas para saber quais parâmetros devem ser inferidos pelo MrBayes, o que economiza tempo e melhora muito as estimativas.

30 Terceira opção: utilize o MrModelTest, e ele poderá fornecer muitos dos parâmetros que precisam de priors, exceto pela topologia e os tamanhos dos ramos. Tamanhos de ramos e topologia, bom, começamos de qualquer ponto aleatório – flat

31 Somatório das verossimilhanças de todos os modelos possíveis

32 Este foi o único empecilho para utilizar a análise Bayesiana em filogenias, que era tão promissora, mas ao mesmo tempo tão complicada e impossível computacionalmente. O problema foi resolvido com o uso da CADEIA de MARKOV aliada ao método de Monte Carlo e ao algoritmo de Metrópolis– Markov Chain Monte Carlo Methods - MCMC

33 É uma sequência de passos, cuja principal característica é que o estado do passo n só depende do estado do passo n-1.

34 Na cadeia de Markov, você pode comparar o estado do passo 1 com o estado do passo 2. Basicamente se o passo 2 for melhor que o 1, o 2 passa a ser a referência para o passo 3, se não, você deve voltar para o passo 1 e tentar outra alternativa para o 2, até poder sair dele...

35 São as verossimilhanças de cada passo (qual a verossimilhança do alinhamento num determinado modelo?) Cada passo da cadeia de Markov corresponde à verossimilhança de hipótese diferente testada com o alinhamento que temos (H1, H2, H3...)

36 Somatório das verossimilhanças de todos os modelos possíveis

37 Como Prob(H1) e Prob (H2) são os priors, então são iguais! Comparando os dois passos Como Prob (D) também é a mesma... Então podemos considerar que estamos comparando as probabilidades posteriores dos passos adjascentes. Então não precisamos calcular o denominador...

38 Comece com uma árvore qualquer, T i Procure uma árvore vizinha (próximo passo), T j Calcule a razão entre as duas: Aceite a nova árvore como a árvore atual Rejeite a nova árvore e volte à anterior R = T j /T i

39

40 Os cassinos, por mais que eventualmente paguem prêmios milionários, SEMPRE saem ganhando. Garantem isso na quantidade, já que o número de perdedores pagantes num cassino é imensamente superior ao número de ganhadores. Com a Bayesiana em filogenias, é preciso apostar num enorme número de passos, para garantir que os modelos encontrados sejam de fato os melhores...

41 Depois que o mcmc rodar por muiiiitttooosss passos, ou gerações (em geral mais de 1 milhão), chegaremos num ponto de poucas melhoras. Agora toma-se apenas o conjunto de melhores árvores e avalia-se as topologias. Se um determinado nó (humanos + chimpanzés, por exemplo) aparece em mais de 95% delas, então temos a confiabilidade deste ramo, pela probabilidade posterior.

42 O algoritmo de Metropolis é uma cadeia de Markov com distribuição de equilíbrio π Ti (pequena modificação na cadeia de Markov): A nova árvore deve ser aceita como a árvore atual com probabilidade igual a 1 A nova árvore deve ser aceita como a árvore atual com probabilidade igual R cupinzeiro R = T j /T i

43 Metropolis Coupled Markov Chains Monte Carlo

44

45 Daí você coloca o cego para tentar achar o topo mais alto da Serra da Mantiqueira. Ele certamente encontrará um topo, mas jamais saberá se chegou no mais alto de todos (é cego!).

46 Não, porque coloco ao invés de 1, 4 cegos. Faço ainda com que caminhem em passos diferentes. Um deles caminha a passos curtos (cadeia fria) e os outros a passos bem longos (cadeias quentes) Os três cegos da cadeia quente são capazes de vasculhar toda a Serra, porque dão pulos de vez em quando

47 O cego da cadeia fria é sempre aquele que está no ponto mais alto.

48 Bom, na verdade não serão 4, mas 8 cegos encarregados da tarefa. 2 deles de cadeia fria 6 deles de cadeia quente. Quando os dois de cadeia fria chegarem no mesmo lugar, admito que cheguei em um ótimo global Faço mais algumas milhares de análises e utilizo as últimas posições (o topo mais alto) para avaliar minhas árvores.

49 Dentre as árvores do melhor lugar, vejo qual a proporção que contém os nós da minha árvore de interesse. Sempre que um nó aparecer em mais de 90 ou 95% delas, é um nó bem sustentado.

50

51 Curva de verossimilhança - Azul Curva da Bayesiana - laranja A área sob a curva bayesiana é sempre maior. A ML procura por um pico, que corresponderia à melhor árvore, enquanto a bayesiana procura por um conjunto de melhores árvores.

52

53 Primeiro passo: rodar o MrModelTest Serve para inferir quais parâmetros devem ser calculados pelo MrBayes além da topologia e dos tamanhos de ramos Frequência das bases? (se for diferente de 25% para cada uma) Transição/transversão? (se a frequência de transversões for maior que a de transições) Frequências de modificação de uma base para a outra Gamma % de invariáveis

54 Depois que o MrBayes sabe o que calcular, é só rodar. O default é fazer duas corridas, cada uma com 4 cadeias, três quentes e 1 fria Isso pode variar, se você tiver um super computador, pode fazer 3 ou 4 corridas e esperar que todas convirjam. Deixe as cadeias rodar por 1 milhão de passos (ou gerações)

55 Amostre em que ponto as cadeias estão a cada 100 ou 1000 gerações. Se optar por amostrar a cada 1000 gerações, faça 10 milhões de gerações ao invés de 1 milhão. Monitore as corridas e não termine o programa antes que as cadeias tenham convergido (desvio padrão > 0.01) Elimine pelo menos 25% das árvores iniciais, certamente elas têm baixa verossimilhança e não é isso que você quer.


Carregar ppt "O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:"

Apresentações semelhantes


Anúncios Google