A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P.

Apresentações semelhantes


Apresentação em tema: "Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P."— Transcrição da apresentação:

1 Seleção de modelos e miscelânea Almir R. Pepato

2 Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P

3 Duas estratégias Verossimilhança: Nesse caso, deve-se levar em conta parâmetros que não são de interesse imediato. Uma forma de contornar o problema é estimar os valores desses parâmetros que maximizam L. Bayesiana: Obtêm-se a probabilidade marginal dos dados dado apenas o modelo, integrando-se as árvores, comprimentos de ramo e parâmetros dos modelos de substituição: Na verdade a forma é um cubo n-dimensional. Probabilidades conjuntas Probabilidades marginais árvores Comprimentos dos ramos

4 hLRTs: Hierarquical likelihood ratio tests Hipótese alternativa: Máxima verossimilhança do modelo mais complexo Hipótese nula: Máxima verossimilhança do modelo mais simples Se os modelos são aninhados, pode ser interpretado como um teste de X 2, com os graus de liberdade dado pela diferença no número de parâmetros entre os dois modelos. Quantos parâmetros livres tem um modelo? Parâmetros relacionados às taxas de substituição: r(AC), r(AG), r(AT), r(CG), e r(CT), com r(GT) = 1: 5 parâmetros livres. Frequência dos nucleotídeos: π A, π C, π G, com π T = 1 – (π A + π C + π G): 3 parâmetros livres.

5 hLRTs: Desvantagens 1- Nas aplicações práticas os modelos devem ser aninhados. 2-Pode ser influenciado pela ordem em que as comparações são feitas 3-Tende a escolher modelos mais parametrizados.

6 AIC: Akaike Information Criteria Mede quanta informação se perde em utilizar um modelo ao aproximar o fenômeno real. O modelo com o menor AIC possível é preferido. K é o número de parâmetros livres do modelo e ramos na árvore (T-3)

7 Fatores Bayesianos 2ln(B 10 )B 10 Evidência contra M 0 0 a 21 a 3 Não é digno de nada mais que ser mencionado 2 a 63 a 20Positivo 6 a 1020 a 150Forte > Muito forte Pode ser estimado a partir da média harmônica da lnL na fase estacionária da cadeia de Markov (o MrBayes dá esse valor automaticamente). Não necessita que os modelos sejam aninhados.

8 BIC: Bayesian Information Criterion e DT: Performance-based selection) BIC: Os fatores Bayesianos podem ser difíceis de estimar. Uma maneira aproximada é utilizar o BIC DT: Seleciona os modelos baseado na sua capacidade de estimar corretamente os comprimentos de ramo.

9 Levando em conta a incerteza dos modelos na incerteza das inferências A vantagem de métodos como AIC, BIC e DT é que podemos ranquear os modelos, ao invés de compará-los dois a dois, como fazemos com os fatores Bayesianos e hLRTs. Assim podemos estimar o quanto podemos confiar na nossa escolha: Menor valor de AIC para os modelos examinados Podemos utilizar esses valores para calcular o peso relativo dos modelos e inclusive combinar eles em um intervalo de confiança. Podemos usar essa abordagem para tirar uma média ponderada dos parâmetros dos modelos.

10 E se der errado??? Árvore obtida por Naylor & Brown, 1998 a partir de todos os genes codificantes de proteínas dos genomas mitocondrias das espécies estudadas.

11 Pré-Processamento 1- Faça o BLAST das sequências suspeitas subdivididas em fragmentos menores. 2- Verifique se não houve erros de edição durante o alinhamento.

12 Pré-processamento 3- Você têm certeza de que os genes são todos ortólogos? 4- Uma árvore bifurcante é um modelo adequado para os dados?

13 Artefatos por atração de ramos longos Como detectar: 1- O clado produzido pelo artefato de atração de ramos longos não é recuperado com o emprego de métodos estatísticos. 2- A topologia muda ao retirar-se o grupo externo. Como resolver: 1- Amostrar mais espécies. 2- Amostrar genes que evoluíram de maneira distinta. 3-Excluir ramos longos.

14 Artefatos causados por desvio na composição de nucleotídeos

15 Como detectar: 1- Testes de X 2 para a hipótese de homogeneidade (TREE-PUZZLE, PAUP*). 2-hLRT para um modelo que preveja não estacionalidade da frequência de nucleotídeos. Como resolver: 1- Recodificar os nucleotídeos com Y e R (pirimidinas e purinas) 2-Utilizar o método de distâncias LogDet 3-Utilizar um modelo que não tenha por premissa a estacionalidade na frequência de nucleotídeos.

16 Os dados são informativos?

17

18 Likelihood-mapping Analysis Sinal em forma de árvore: 1,2,3 Sinal em forma de rede (parcialmente resolvido): 4,5,6. Sinal em estrela: 7

19 Os dados são informativos? No estudo citado, a maior parte dos pontos está próximo ao centro dos triângulos, mostrando que os dados são incapazes de resolver o problema.

20 Os dados são informativos?

21 Escolha do grupo externo Sugerimos uma abordagem que empregue um critério múltiplo para a seleção do grupo externo com base: (1) taxa de substituição lenta, (2) composição nucleotídoca (conteúdo de G + C) similar ao do grupo interno, (3) uma nova estimativa de viés na composição das cadeias, (4) a habilidade do grupo externo de evitar um efeito por derivação aleatória e (5) proximidade evolutiva em relação ao grupo interno.

22 Escolha do grupo externo O trabalho lidou com dois fenômenos: 1- Existe uma deficiência nos artrópodes em reparar inserções errôneas de As durante a duplicação. 2-Um viés devido ao fato que a deaminação (que converte A em G e C em T) tem mais oportunidade de ocorrer na cadeia retardatária e que essa cadeia pode mudar devido à mutações na região reguladora. Fenômeno parecido ocorre com humanos, temos 40% de pares GC, mas apenas 5% de G na cadeia codificante.

23 Lacunas na matriz de caracteres Phalangiotarbida Trigonotarbida Ricinulei Um possível critério: a presença de apomorfias que ligam o táxon com muitos dados faltantes a um dos táxos mais completos.

24 Partições de dados são incongruentes Para obter a significância: (1) Criam-se partições do mesmo tamanho das originais, mas através do sorteio das várias matrizes simultaneamente, (2) Calcula-se a soma das árvores mais parcimoniosas de cada uma dessas réplicas, produzindo uma distribuição, (3) Calcula-se a probabilidade de que a soma dos comprimentos originais caia dentro dessa distribuição: uma baixa probabilidade implica em incongruência.


Carregar ppt "Seleção de modelos e miscelânea Almir R. Pepato. Modelos de substitição da família GTR GTR HKY A C T G Jukes-Cantor Felsenstein K2P."

Apresentações semelhantes


Anúncios Google