O teorema de Bayes em Filogenias...

Slides:



Advertisements
Apresentações semelhantes
Aprendizado de Máquina
Advertisements

CAPÍTULO 7 TESTE DE HIPÓTESE
ESTATÍSTICA INFERÊNCIA ESTATÍSTICA
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
Cássio Luís Fernandes de Oliveira
Cássio Luís Fernandes de Oliveira
CAPÍTULO 7 TESTE DE HIPÓTESE
ESTIMAÇÃO.
Prof. Esp. Mick Lennon Machado
Gestão e Tecnologia da Informação Extensão Continuada – FA7
Estatística Aula 19 Prof. Marllus Gustavo Ferreira Passos das Neves
Capítulo 6 Estimativas e Tamanho de Amostras
MB751 – Modelos de previsão
Estatística: Aplicação ao Sensoriamento Remoto ANO 2010
Testes de Hipóteses Forma mais clássica de inferência estatística
Estatística Aplicada (Aula 4)
Distribuição de probabilidade
Distribuição de probabilidade
TESTE SEU Q.I. (É RÁPIDO): Serão feitas 10 perguntas bem objetivas;
Marco Antonio Montebello Júnior
Máxima Verossimilhança
ESTATÍSTICA.
Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia
Testes de Hipótese Dr Hermano Alexandre Doutorando em Saúde Coletiva
ESTATÍSTICA.
J. Landeira-Fernandez Ética e Ciência
Site: Estatística Prof. Edson Nemer Site:
ESTATÍSTICA.
ME623 Planejamento e Pesquisa
ME623A Planejamento e Pesquisa
Otimização por Colônia de Formigas (ACO)
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Estatística e Probabilidade
Estatística Para um dado conjunto de dados, podemos calcular as seguintes grandezas: 1) Medidas de posição 2) Medidas de dispersão 3) Parâmetros de simetria.
Erros e variáveis aleatórias
Modelagem Estatística
ESTATÍSTICA.
PROBABILIDADE.
Inferência Estatística
Teste de Hipótese.
NOÇÕES DE PROBABILIDADE
Aula 5 - Método experimental ou de seleção aleatória
Comparação de Sistemas Usando Amostragem de Dados por: Tiago A. E. Ferreira.
Introdução à Teoria das Probabilidades
Matemática e suas Tecnologias - Matemática PROBABILIDADE CONDICIONAL
Aula 11 - Teste de hipóteses, teste de uma proporção
COMPARAÇÃO DE DUAS POPULAÇÕES
ANÁLISE ESTATÍSTICA II
TESTE DE HIPÓTESES TESTE t STUDENT
Professor Antonio Carlos Coelho
Planejamento Experimental
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
Modelos de evolução molecular
Calculando o número de observações (tamanho da amostra) Após a comparação de duas médias duas e somente duas afirmativas podem ser feitas: – 1. Rejeitamos.
Calculando o número de observações (tamanho da amostra)
Disciplina Engenharia da Qualidade II
Aula 4 – Estatística- Conceitos básicos
Metodologia da Pesquisa em Ensino de Ciências I
Módulo 18 – Frente 4 – Apostila 2.  “...Shelly disse que a perspectiva ‘negativa’ para a nota, adotada em abril, indica que a probabilidade de rebaixamento.
Testes de Hipóteses.
Cálculo de Probabilidades Parte 2
INTERVALOS DE CONFIANÇA
PROBABILIDADE Profa. Ana Clara Guedes.
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Estatística Inferencial. É um processo de tomada de decisão baseado em probabilidades e pode ser de dois tipos: - Estimação de parâmetros – usando a informação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
PRECIPITADO ou SEM NOÇÃO
Transcrição da apresentação:

O teorema de Bayes em Filogenias... Análise Bayesiana O teorema de Bayes em Filogenias...

Exemplo I – câncer de mama Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados: Incidência do câncer em mulheres na faixa dos 40 anos: 1% 80% das mulheres que têm câncer fazem mamografia e o resultado é positivo 9,6% das mulheres que não têm câncer fazem mamografia e o resultado é negativo O QUE VOCÊ DIZ À SUA TIA?

câncer de mama Se apenas 1% das mulheres na faixa dos 40 anos têm câncer, então 99% delas não têm. Se sua tia tem um resultado positivo na mamografia, ela tanto pode ter câncer e ter o resultado positivo (probabilidade 0.01 x 0,8) ou não ter câncer e ter o resultado positivo (probabilidade 0.99 x 0.096)

câncer de mama Com isso, Prob. a priori (x) Resultado positivo (y) Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) câncer (A) Não câncer (B) Total 0.1 0.8 0.08 0.457 0.99 0.096 0.09504 0.543 0.17504

câncer de mama Neste caso, sua tia, que antes do exame tinha apenas 1% de chance de ter câncer, passou a ter uma chance de 46% de ter câncer No entanto, a chance é muito menor que os 80% do resultado positivo do exame.

Exemplo II – paternidade Fulaninho é o pai de Júnior? Dados: um lócus de microssatelite apresentou o seguinte resultado: Júnior pode ter herdado o alelo 13 de Fulaninho Mãe Pai 10 13 13 A paternidade de Fulaninho não foi excluída!!! 14 17 17 Júnior herdou o alelo 17 de sua mãe

paternidade Dá para afirmar que Fulaninho é pai de Júnior? Ainda não. Assim como Fulaninho tem o lócus 13, outros homens na população também têm este lócus. E agora? É preciso levar em conta a frequência do alelo 13 na população como um todo, no caso é de 0,075

paternidade Prob. a priori (x) Passa o alelo 13 a Júnior (y) Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) Pai - Fulaninho Pai - outro Total 0.5 0.5 0.25 0.87 0.13 0.5 0.075 0.0375 0.2875

paternidade Apesar do teste com um locus não ter excluído a paternidade de Fulaninho, a frequência do alelo 13 nos diz que a probabilidade de que ele seja mesmo o pai de Júnior é de apenas 87%.

Exemplo III – vitamina C A vitamina C cura o câncer? Experimento com dois grupos de 100 pessoas, o primeiro grupo tratado com vitamina C e o segundo com placebo

vitamina C Protegidos do câncer Esperado por acaso χ2 Grupo 1 (Vit C) 65 50 4,5 Grupo 2 (Placebo) Χ2 com 1g.l. (0,05) = 3,84 O resultado do teste diz que o resultado foi significativo a 5% de confiança.

vitamina C No entanto, outras pesquisas mostram que a probabilidade da vitamina C ter algum efeito sobre o câncer é mínima... Com isso, a probabilidade a priori é muito pequena. Se fizermos o gráfico, a probabilidade posterior fica minúscula...

vitamina C Prob. a priori (x) Protegidos contra o câncer (y) Prob. conjunta (xy) Prob. a posteriori (xAyA) / (xAyA) + (xByB) Vit C funciona Vit C não funciona Total 0.01 0.65 0.0065 0.013 0.99 0.50 0.495 0.987 0.5015

Teorema de Bayes

Teorema de Bayes Probabilidade a priori de se ter câncer de mama aos 40 Probabilidade dos dados, dada a probabilidade a priori Probabilidade do exame dar positivo se a mulher tiver o câncer Prob da sua tia ter câncer, dado que o resultado foi positivo Probabilidade a priori Probabilidade Posterior ‘ 0,46 0,01 0,8 0,01 x 0,8 +0,99 x 0,096 Probabilidade do exame dar positivo em qualquer situação Somatório das probabilidades, considerando cada uma das hipóteses a priori

Exemplo IV – dados justos? Qual a probabilidade de que um dado sorteado ao acaso seja “biased” (tendencioso)? P(biased) = 10/10+90=0,1 Essa é a probabilidade a priori, ou “prior”

dados justos? Agora, vou pegar o dado tomado ao acaso e jogar duas vezes (produção de dados, para ter uma observação que me permita avaliar melhor se o dado é tendencioso ou não).

dados justos? Joguei o dado e obtive um 6 e um 4. Cálculo da Verossimilhança em cada caso: Conclusão: O dado é tendencioso!

dados justos? 0,179 O que diz a análise Bayesiana sobre isso? Probabilidade dos dados, segundo a hipótese (verossimilhança) Probabilidade da hipótese (H=dado tendencioso) dados os dados Probabilidade da hipótese a priori 0,1 24/411 (1/36 x 0.9) + (24/411 x 0,1)= 0,03 0,179 Somatório das verossimilhanças de todas as possibilidades de dar 4 e 6 (tendencioso ou justo)

dados justos? Quando tínhamos só a informação de quantos dados justos e quantos tendenciosos há na caixa, a probabilidade de ter sorteado um dado tendencioso era de 10%. Depois que jogamos o dado duas vezes, passamos a ter uma probabilidade posterior, ou seja, uma probabilidade obtida com a observação, que nos permite julgar com mais clareza o que aconteceu. Depois disso, a probabilidade de ter sorteado um dado tendencioso passou a ser de 17,9%

Assim... A análise Bayesiana permite o cálculo da probabilidade posterior, ou seja a probabilidade de uma hipótese depois que os dados forem obtidos A probabilidade posterior permite que uma análise baseada numa visão de mundo e na observação.

Nos exemplos No exemplo 1, sua tia pode ficar menos desesperada, já que 0.46 é muito menor que 0.8! Isso tudo porque utilizamos a probabilidade a priori, de 0.1. No exemplo 2, fulaninho tem a probabilidade de 87% de ser o pai de Júnior, não 100%, já que foi levada em conta a probabilidade do alelo na população como um todo!

Nos exemplos No exemplo 3, da vitamina C, a probabilidade a priori de ter algum efeito é tão pequena que os dados obtidos podem ser desprezados, apesar da estatística convencional ter indicado que os resultados são significativos...

E Agora??? Teorema de Bayes Probabilidade do modelo (H=árvore + modelo de substituição) dado o alinhamento Probabilidade do alinhamento, dado o modelo (verossimilhança) Probabilidade do modelo a priori E Agora??? Somatório das verossimilhanças de todos os modelos possíveis

Como calculo as probabilidades a priori (priors)? Probabilidade do modelo a priori

Priors ou modelos a priori... Em geral não temos hipóteses a priori, o que fazer? Considerar uma hipótese “flat” (plana) ou vaga.

Coisas que precisam de priors... Topologias 2n-3 tamanhos de ramos Frequências dos nucleotídeos Parâmetros das taxas de substituição Transições/transversões GTR (taxas individuais, A→T, A →C, A →G etc.) Parâmetros sobre a heterogeneidade de sítios Gamma Proporção de sítios invariáveis

Como estabelecer os priors? Primeira opção: “flat”, ou seja, um valor qualquer, aleatório, fixo. Deixe para o programa avaliar a probabilidade posterior No exemplo da paternidade utilizamos um prior “flat” ao dizer que a probabilidade de Fulaninho ser o pai de júnior era de 50%. Na verdade poderíamos ter utilizado testemunhas que conheçam o casal e o comportamento da esposa de Fulaninho e começar com uma probabilidade a priori um pouco maior ou um pouco menor.

Como estabelecer os priors? Segunda opção: Você pode utilizar o MrModelTest apenas para saber quais parâmetros devem ser inferidos pelo MrBayes, o que economiza tempo e melhora muito as estimativas.

Como estabelecer os priors? Terceira opção: utilize o MrModelTest, e ele poderá fornecer muitos dos parâmetros que precisam de priors, exceto pela topologia e os tamanhos dos ramos. Tamanhos de ramos e topologia, bom, começamos de qualquer ponto aleatório – “flat”

Ok, tenho os priors, e o denominador? Somatório das verossimilhanças de todos os modelos possíveis

denominador... Este foi o único empecilho para utilizar a análise Bayesiana em filogenias, que era tão promissora, mas ao mesmo tempo tão complicada e impossível computacionalmente. O problema foi resolvido com o uso da CADEIA de MARKOV aliada ao método de Monte Carlo e ao algoritmo de Metrópolis– Markov Chain Monte Carlo Methods - MCMC

O que é uma Cadeia de Markov? É uma sequência de passos, cuja principal característica é que o estado do passo n só depende do estado do passo n-1.

E daí? Na cadeia de Markov, você pode comparar o “estado” do passo 1 com o “estado” do passo 2. Basicamente se o passo 2 for “melhor” que o 1, o 2 passa a ser a referência para o passo 3, se não, você deve voltar para o passo 1 e tentar outra alternativa para o 2, até poder sair dele...

O que são os passos? São as verossimilhanças de cada passo (qual a verossimilhança do alinhamento num determinado modelo?) Cada passo da cadeia de Markov corresponde à verossimilhança de hipótese diferente testada com o alinhamento que temos (H1, H2, H3...)

Cadeia de Markov e o denominador... Somatório das verossimilhanças de todos os modelos possíveis

Cadeia de Markov e o denominador... Comparando os dois “passos” Então não precisamos calcular o denominador... Como Prob(H1) e Prob (H2) são os “priors”, então são iguais! Como Prob (D) também é a mesma... Então podemos considerar que estamos comparando as probabilidades posteriores dos passos adjascentes.

Cadeia de Markov Comece com uma árvore qualquer, Ti Procure uma árvore vizinha (próximo passo), Tj Calcule a razão entre as duas: Aceite a nova árvore como a árvore atual R = Tj/Ti Rejeite a nova árvore e volte à anterior

A cadeia em funcionamento

Monte Carlo??? Cassino??? Os cassinos, por mais que eventualmente paguem prêmios milionários, SEMPRE saem ganhando. Garantem isso na quantidade, já que o número de perdedores pagantes num cassino é imensamente superior ao número de ganhadores. Com a Bayesiana em filogenias, é preciso apostar num enorme número de passos, para garantir que os modelos encontrados sejam de fato os melhores...

O que faço eu com o MCMC? Depois que o mcmc rodar por muiiiitttooosss passos, ou gerações (em geral mais de 1 milhão), chegaremos num ponto de poucas melhoras. Agora toma-se apenas o conjunto de melhores árvores e avalia-se as topologias. Se um determinado nó (humanos + chimpanzés, por exemplo) aparece em mais de 95% delas, então temos a confiabilidade deste ramo, pela probabilidade posterior.

Algoritmo de Metropolis O algoritmo de Metropolis é uma cadeia de Markov com distribuição de equilíbrio πTi (pequena modificação na cadeia de Markov): A nova árvore deve ser aceita como a árvore atual com probabilidade igual a 1 R = Tj/Ti cupinzeiro A nova árvore deve ser aceita como a árvore atual com probabilidade igual R

MCMCMC Metropolis Coupled Markov Chains Monte Carlo

A cadeia em funcionamento

E daí? Daí você coloca o cego para tentar achar o topo mais alto da Serra da Mantiqueira. Ele certamente encontrará um topo, mas jamais saberá se chegou no mais alto de todos (é cego!).

Ótimo, tenho um ótimo local... Não, porque coloco ao invés de 1, 4 cegos. Faço ainda com que caminhem em passos diferentes. Um deles caminha a passos curtos (cadeia fria) e os outros a passos bem longos (cadeias quentes) Os três cegos da cadeia quente são capazes de vasculhar toda a Serra, porque dão pulos de vez em quando

e,... O cego da cadeia fria é sempre aquele que está no ponto mais alto.

Ok, faço isso eternamente com os 4 cegos? Quando parar? Bom, na verdade não serão 4, mas 8 cegos encarregados da tarefa. 2 deles de cadeia fria 6 deles de cadeia quente. Quando os dois de cadeia fria chegarem no mesmo lugar, admito que cheguei em um ótimo global Faço mais algumas milhares de análises e utilizo as últimas posições (o topo mais alto) para avaliar minhas árvores.

Como avaliar as árvores? Dentre as árvores do melhor lugar, vejo qual a proporção que contém os nós da minha árvore de interesse. Sempre que um nó aparecer em mais de 90 ou 95% delas, é um nó bem sustentado.

A vida sem Bootstrap!

Verossimilhança X Bayesiana Curva de verossimilhança - Azul Curva da Bayesiana - laranja A área sob a curva bayesiana é sempre maior. A ML procura por um pico, que corresponderia à melhor árvore, enquanto a bayesiana procura por um conjunto de melhores árvores.

Exemplo de Árvore

MrBayes Primeiro passo: rodar o MrModelTest Serve para inferir quais parâmetros devem ser calculados pelo MrBayes além da topologia e dos tamanhos de ramos Frequência das bases? (se for diferente de 25% para cada uma) Transição/transversão? (se a frequência de transversões for maior que a de transições) Frequências de modificação de uma base para a outra Gamma % de invariáveis

MrBayes Depois que o MrBayes sabe o que calcular, é só rodar. O default é fazer duas corridas, cada uma com 4 cadeias, três quentes e 1 fria Isso pode variar, se você tiver um super computador, pode fazer 3 ou 4 corridas e esperar que todas convirjam. Deixe as cadeias rodar por 1 milhão de passos (ou gerações)

MrBayes Amostre em que ponto as cadeias estão a cada 100 ou 1000 gerações. Se optar por amostrar a cada 1000 gerações, faça 10 milhões de gerações ao invés de 1 milhão. Monitore as corridas e não termine o programa antes que as cadeias tenham convergido (desvio padrão > 0.01) Elimine pelo menos 25% das árvores iniciais, certamente elas têm baixa verossimilhança e não é isso que você quer.