A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Seleção de modelos e miscelânea

Apresentações semelhantes


Apresentação em tema: "Seleção de modelos e miscelânea"— Transcrição da apresentação:

1 Seleção de modelos e miscelânea
Almir R. Pepato

2 Modelos de substitição da família GTR
Jukes-Cantor b b b b C T a Felsenstein K2P HKY GTR

3 Duas estratégias Verossimilhança: Bayesiana:
Obtêm-se a probabilidade marginal dos dados dado apenas o modelo, integrando-se as árvores, comprimentos de ramo e parâmetros dos modelos de substituição: Probabilidades conjuntas Probabilidades marginais árvores Comprimentos dos ramos Nesse caso, deve-se levar em conta parâmetros que não são de interesse imediato. Uma forma de contornar o problema é estimar os valores desses parâmetros que maximizam L. Na verdade a forma é um cubo n-dimensional.

4 hLRTs: “Hierarquical likelihood ratio tests”
Hipótese nula: Máxima verossimilhança do modelo mais simples Se os modelos são aninhados, pode ser interpretado como um teste de X2, com os graus de liberdade dado pela diferença no número de parâmetros entre os dois modelos. Hipótese alternativa: Máxima verossimilhança do modelo mais complexo Quantos parâmetros livres tem um modelo? Parâmetros relacionados às taxas de substituição: r(AC), r(AG), r(AT), r(CG), e r(CT), com r(GT) = 1: 5 parâmetros livres. Frequência dos nucleotídeos: π A, π C, π G, com π T = 1 – (π A + π C + π G): 3 parâmetros livres.

5 hLRTs: Desvantagens 1- Nas aplicações práticas os modelos devem ser aninhados. 2-Pode ser influenciado pela ordem em que as comparações são feitas 3-Tende a escolher modelos mais parametrizados.

6 AIC: “Akaike Information Criteria”
Mede quanta “informação” se perde em utilizar um modelo ao aproximar o fenômeno real. O modelo com o menor AIC possível é preferido. K é o número de parâmetros livres do modelo e ramos na árvore (T-3)

7 Fatores Bayesianos 2ln(B10) B10 Evidência contra M0 0 a 2 1 a 3
Pode ser estimado a partir da média harmônica da lnL na fase estacionária da cadeia de Markov (o MrBayes dá esse valor automaticamente). Não necessita que os modelos sejam aninhados. 2ln(B10) B10 Evidência contra M0 0 a 2 1 a 3 Não é digno de nada mais que ser mencionado 2 a 6 3 a 20 Positivo 6 a 10 20 a 150 Forte > 10 150 Muito forte

8 BIC: “Bayesian Information Criterion” e DT: “Performance-based selection)
BIC: Os fatores Bayesianos podem ser difíceis de estimar. Uma maneira aproximada é utilizar o BIC DT: Seleciona os modelos baseado na sua capacidade de estimar corretamente os comprimentos de ramo.

9 Levando em conta a incerteza dos modelos na incerteza das inferências
A vantagem de métodos como AIC, BIC e DT é que podemos ranquear os modelos, ao invés de compará-los dois a dois, como fazemos com os fatores Bayesianos e hLRTs. Assim podemos estimar o quanto podemos confiar na nossa escolha: Menor valor de AIC para os modelos examinados Podemos utilizar esses valores para calcular o “peso relativo” dos modelos e inclusive combinar eles em um intervalo de confiança. Podemos usar essa abordagem para tirar uma “média” ponderada dos parâmetros dos modelos .

10 E se der errado??? Árvore obtida por Naylor & Brown, 1998 a partir de todos os genes codificantes de proteínas dos genomas mitocondrias das espécies estudadas.

11 Pré-Processamento 1- Faça o BLAST das sequências suspeitas subdivididas em fragmentos menores. 2- Verifique se não houve erros de edição durante o alinhamento.

12 Pré-processamento 3- Você têm certeza de que os genes são todos ortólogos? 4- Uma árvore bifurcante é um modelo adequado para os dados?

13 Artefatos por atração de ramos longos
Como detectar: 1- O clado produzido pelo artefato de atração de ramos longos não é recuperado com o emprego de métodos estatísticos. 2- A topologia muda ao retirar-se o grupo externo. Como resolver: 1- Amostrar mais espécies. 2- Amostrar genes que evoluíram de maneira distinta. 3-Excluir ramos longos.

14 Artefatos causados por desvio na composição de nucleotídeos

15 Artefatos causados por desvio na composição de nucleotídeos
Como detectar: 1- Testes de X2 para a hipótese de homogeneidade (TREE-PUZZLE, PAUP*). 2-hLRT para um modelo que preveja não estacionalidade da frequência de nucleotídeos. Como resolver: 1- Recodificar os nucleotídeos com Y e R (pirimidinas e purinas) 2-Utilizar o método de distâncias LogDet 3-Utilizar um modelo que não tenha por premissa a estacionalidade na frequência de nucleotídeos.

16 Os dados são informativos?

17 Os dados são informativos?

18 Os dados são informativos?
“Likelihood-mapping Analysis” Sinal em forma de árvore: 1,2,3 Sinal em forma de rede (parcialmente resolvido): 4,5,6. Sinal em estrela: 7

19 Os dados são informativos?
No estudo citado, a maior parte dos pontos está próximo ao centro dos triângulos, mostrando que os dados são incapazes de resolver o problema.

20 Os dados são informativos?

21 Escolha do grupo externo
“Sugerimos uma abordagem que empregue um critério múltiplo para a seleção do grupo externo com base: (1) taxa de substituição lenta, (2) composição nucleotídoca (conteúdo de G + C) similar ao do grupo interno, (3) uma nova estimativa de viés na composição das cadeias , (4) a habilidade do grupo externo de evitar um “efeito por derivação aleatória” e (5) proximidade evolutiva em relação ao grupo interno.

22 Escolha do grupo externo
O trabalho lidou com dois fenômenos: 1- Existe uma deficiência nos artrópodes em reparar inserções errôneas de A’s durante a duplicação. 2-Um viés devido ao fato que a deaminação (que converte A em G e C em T) tem mais oportunidade de ocorrer na cadeia retardatária e que essa cadeia pode mudar devido à mutações na região reguladora. Fenômeno parecido ocorre com humanos, temos 40% de pares GC, mas apenas 5% de G na cadeia codificante.

23 Lacunas na matriz de caracteres
Trigonotarbida Ricinulei Phalangiotarbida Um possível critério: a presença de apomorfias que ligam o táxon com muitos dados faltantes a um dos táxos mais completos.

24 Partições de dados são incongruentes
Para obter a significância: (1) Criam-se partições do mesmo tamanho das originais, mas através do sorteio das várias matrizes simultaneamente, (2) Calcula-se a soma das árvores mais parcimoniosas de cada uma dessas réplicas, produzindo uma distribuição, (3) Calcula-se a probabilidade de que a soma dos comprimentos originais caia dentro dessa distribuição: uma baixa probabilidade implica em incongruência.


Carregar ppt "Seleção de modelos e miscelânea"

Apresentações semelhantes


Anúncios Google