Seleção de modelos e miscelânea

Slides:



Advertisements
Apresentações semelhantes
DISTRIBUIÇÕES AMOSTRAIS
Advertisements

Amostragem em Pesquisas Sócio-Econômicas
Prof. André Laurindo Maitelli DCA-UFRN
Analise de Regressão Parte 2.
CAPÍTULO 7 TESTE DE HIPÓTESE
Intervalos de Confiança
2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
CAPÍTULO 7 TESTE DE HIPÓTESE
ESTIMAÇÃO.
Máxima Verossimilhança ou Maximum Likelihood
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.
Inteligência Artificial
Rejane Sobrino Pinheiro Tania Guillén de Torres
Delineando estudos de testes médicos
Erros no Teste de Hipóteses
Evolução Molecular Metodologias de Análise
Máxima Verossimilhança
Métodos de distância e modelos de evolução molecular
Controle de parâmetros em algoritmos evolucionários
Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia
Mensuração de Poder de Mercado
J. Landeira-Fernandez Ética e Ciência
Análise da Regressão múltipla: Inferência Revisão da graduação
ME623A Planejamento e Pesquisa. Não Interação no Modelo de 2 Fatores A presença de interação tem um impacto na interpretação dos dados No entanto, se.
ME623A Planejamento e Pesquisa
C OMPARAÇÃO DO COMPORTAMENTO DO BIC EM ALGUNS MODELOS PROBABILÍSTICOS Diogo Taurinho Prado Orientadora: Denise Duarte.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Inferência Estatística Camilo Daleles Rennó
Teste de Hipóteses de uma amostra Prof. Helcio Rocha
Estatística e Probabilidade
DISTRIBUIÇÕES AMOSTRAIS
Modelagem Estatística
Etapa Estatística Planejamento Análise Estatística Efeito de sequência
Quadrados Mínimos.
Aula 6 - Método não-experimental ou de seleção não-aleatória
Aula 5 - Método experimental ou de seleção aleatória
Introdução à Estatística
Disciplina de Epidemiologia I Faculdade de Saúde Pública da USP
Noções de Inferência Estatística
Aula 11 - Teste de hipóteses, teste de uma proporção
Uma Visão Geral Sobre Reconstrução Filogenética
Alinhamento de sequências
Estatística e Probabilidade
ANÁLISE ESTATÍSTICA II
2.3 Experimentos Fatoriais 22 Efeitos das Interações
UFSC.PósMCI.FME.Inferências Envolvendo Variâncias. (8.1) 6 Inferências Envolvendo Variâncias.
Professor Antonio Carlos Coelho
T- Teste: A distribuição t de Student
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Regressão e Previsão Numérica.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Inferência Estatística Camilo Daleles Rennó
Modelos de evolução molecular
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Alinhamentos Múltiplos
1 Universidade de Brasília (UnB) Departamento de Engenharia Elétrica (ENE) Laboratório de Processamento de Sinais em Arranjos Caixa Postal 4386 CEP ,
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Probabilidade Teste de hipóteses para uma média populacional:
Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -
Probabilidade Teste de hipóteses para duas médias:
Estimação: Estimativa Pontual Estimativa Intervalar
Média e valor médio No estudo da estatística descritiva, para além das tabelas de frequências e gráficos, estudam-se outros métodos para resumir a informação.
GESTÃO E GARANTIA DA QUALIDADE
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Estatística Aplicada - Componente Prática Ensaio de hipóteses estatísticas Ensaio para µ com  2 conhecido e desconhecido.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
Métodos Probabilísticos
INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.
Transcrição da apresentação:

Seleção de modelos e miscelânea Almir R. Pepato

Modelos de substitição da família GTR Jukes-Cantor b b b b C T a Felsenstein K2P HKY GTR

Duas estratégias Verossimilhança: Bayesiana: Obtêm-se a probabilidade marginal dos dados dado apenas o modelo, integrando-se as árvores, comprimentos de ramo e parâmetros dos modelos de substituição: Probabilidades conjuntas Probabilidades marginais árvores Comprimentos dos ramos Nesse caso, deve-se levar em conta parâmetros que não são de interesse imediato. Uma forma de contornar o problema é estimar os valores desses parâmetros que maximizam L. Na verdade a forma é um cubo n-dimensional.

hLRTs: “Hierarquical likelihood ratio tests” Hipótese nula: Máxima verossimilhança do modelo mais simples Se os modelos são aninhados, pode ser interpretado como um teste de X2, com os graus de liberdade dado pela diferença no número de parâmetros entre os dois modelos. Hipótese alternativa: Máxima verossimilhança do modelo mais complexo Quantos parâmetros livres tem um modelo? Parâmetros relacionados às taxas de substituição: r(AC), r(AG), r(AT), r(CG), e r(CT), com r(GT) = 1: 5 parâmetros livres. Frequência dos nucleotídeos: π A, π C, π G, com π T = 1 – (π A + π C + π G): 3 parâmetros livres.

hLRTs: Desvantagens 1- Nas aplicações práticas os modelos devem ser aninhados. 2-Pode ser influenciado pela ordem em que as comparações são feitas 3-Tende a escolher modelos mais parametrizados.

AIC: “Akaike Information Criteria” Mede quanta “informação” se perde em utilizar um modelo ao aproximar o fenômeno real. O modelo com o menor AIC possível é preferido. K é o número de parâmetros livres do modelo e ramos na árvore (T-3)

Fatores Bayesianos 2ln(B10) B10 Evidência contra M0 0 a 2 1 a 3 Pode ser estimado a partir da média harmônica da lnL na fase estacionária da cadeia de Markov (o MrBayes dá esse valor automaticamente). Não necessita que os modelos sejam aninhados. 2ln(B10) B10 Evidência contra M0 0 a 2 1 a 3 Não é digno de nada mais que ser mencionado 2 a 6 3 a 20 Positivo 6 a 10 20 a 150 Forte > 10 150 Muito forte

BIC: “Bayesian Information Criterion” e DT: “Performance-based selection) BIC: Os fatores Bayesianos podem ser difíceis de estimar. Uma maneira aproximada é utilizar o BIC DT: Seleciona os modelos baseado na sua capacidade de estimar corretamente os comprimentos de ramo.

Levando em conta a incerteza dos modelos na incerteza das inferências A vantagem de métodos como AIC, BIC e DT é que podemos ranquear os modelos, ao invés de compará-los dois a dois, como fazemos com os fatores Bayesianos e hLRTs. Assim podemos estimar o quanto podemos confiar na nossa escolha: Menor valor de AIC para os modelos examinados Podemos utilizar esses valores para calcular o “peso relativo” dos modelos e inclusive combinar eles em um intervalo de confiança. Podemos usar essa abordagem para tirar uma “média” ponderada dos parâmetros dos modelos .

E se der errado??? Árvore obtida por Naylor & Brown, 1998 a partir de todos os genes codificantes de proteínas dos genomas mitocondrias das espécies estudadas.

Pré-Processamento 1- Faça o BLAST das sequências suspeitas subdivididas em fragmentos menores. 2- Verifique se não houve erros de edição durante o alinhamento.

Pré-processamento 3- Você têm certeza de que os genes são todos ortólogos? 4- Uma árvore bifurcante é um modelo adequado para os dados?

Artefatos por atração de ramos longos Como detectar: 1- O clado produzido pelo artefato de atração de ramos longos não é recuperado com o emprego de métodos estatísticos. 2- A topologia muda ao retirar-se o grupo externo. Como resolver: 1- Amostrar mais espécies. 2- Amostrar genes que evoluíram de maneira distinta. 3-Excluir ramos longos.

Artefatos causados por desvio na composição de nucleotídeos

Artefatos causados por desvio na composição de nucleotídeos Como detectar: 1- Testes de X2 para a hipótese de homogeneidade (TREE-PUZZLE, PAUP*). 2-hLRT para um modelo que preveja não estacionalidade da frequência de nucleotídeos. Como resolver: 1- Recodificar os nucleotídeos com Y e R (pirimidinas e purinas) 2-Utilizar o método de distâncias LogDet 3-Utilizar um modelo que não tenha por premissa a estacionalidade na frequência de nucleotídeos.

Os dados são informativos?

Os dados são informativos?

Os dados são informativos? “Likelihood-mapping Analysis” Sinal em forma de árvore: 1,2,3 Sinal em forma de rede (parcialmente resolvido): 4,5,6. Sinal em estrela: 7

Os dados são informativos? No estudo citado, a maior parte dos pontos está próximo ao centro dos triângulos, mostrando que os dados são incapazes de resolver o problema.

Os dados são informativos?

Escolha do grupo externo “Sugerimos uma abordagem que empregue um critério múltiplo para a seleção do grupo externo com base: (1) taxa de substituição lenta, (2) composição nucleotídoca (conteúdo de G + C) similar ao do grupo interno, (3) uma nova estimativa de viés na composição das cadeias , (4) a habilidade do grupo externo de evitar um “efeito por derivação aleatória” e (5) proximidade evolutiva em relação ao grupo interno.

Escolha do grupo externo O trabalho lidou com dois fenômenos: 1- Existe uma deficiência nos artrópodes em reparar inserções errôneas de A’s durante a duplicação. 2-Um viés devido ao fato que a deaminação (que converte A em G e C em T) tem mais oportunidade de ocorrer na cadeia retardatária e que essa cadeia pode mudar devido à mutações na região reguladora. Fenômeno parecido ocorre com humanos, temos 40% de pares GC, mas apenas 5% de G na cadeia codificante.

Lacunas na matriz de caracteres Trigonotarbida Ricinulei Phalangiotarbida Um possível critério: a presença de apomorfias que ligam o táxon com muitos dados faltantes a um dos táxos mais completos.

Partições de dados são incongruentes Para obter a significância: (1) Criam-se partições do mesmo tamanho das originais, mas através do sorteio das várias matrizes simultaneamente, (2) Calcula-se a soma das árvores mais parcimoniosas de cada uma dessas réplicas, produzindo uma distribuição, (3) Calcula-se a probabilidade de que a soma dos comprimentos originais caia dentro dessa distribuição: uma baixa probabilidade implica em incongruência.