MLG aplicados a variáveis resposta com distribuição contínua

Apresentações semelhantes


Apresentação em tema: "MLG aplicados a variáveis resposta com distribuição contínua"— Transcrição da apresentação:

1 MLG aplicados a variáveis resposta com distribuição contínua
Programa: 1. Programa Introdução aos MLG Regressão Logística MLG aplicados a variáveis resposta com distribuição contínua MLG aplicados a dados de contagens Análise de variância (ANOVA) com MLG I

2 Objectivo dos Modelos para Contagens
Encontrar um modelo adequado e parcimonioso que permita descrever a relação entre uma variável aleatória inteira não-negativa Y e um conjunto de variáveis não-aleatórias preditoras X1, X2, …, Xp 2. Objectivo Modelos disponíveis MLG Binomial MLG Poisson MLG Binomial Negativa I

3 Introdução ao MLG Binomial

4 Introdução ao MLG Binomial
A distribuição binomial é aplicável quando as observações W são contagens limitadas superiormente por um valor fixo à partida (p.ex. número de sobreviventes de uma experiência ao fim de um intervalo de tempo t). Também pode ser vista como o resultado de n experiências de Bernoulli independentes, com idênticas probabilidades de sucesso (p). 3. MLG Binomial Assim sendo, faz sentido a seguinte definição: Seja Então a variável Y = W/n representa a proporção das n experiências de Bernoulli que foram bem sucedidas. Nos MLG é modelado Y em vez de W. I

5 Introdução ao MLG Binomial
O Modelo Binomial é um MLG 1) A Distribuição de Y = W/n (em que W tem distribuição binomial) pertence à família exponencial 3. MLG Binomial Fórmula geral das distribuições pertencentes à família exponencial: f.m.p q f 1 a(f) b(q) c(y,f) I

6 Introdução ao MLG Binomial
O Modelo Binomial é um MLG 2) A função de ligação é monótona e diferenciável 3. MLG Binomial Função de ligação Logit, monótona crescente e diferenciável em IR Função de ligação Probit, monótona crescente e diferenciável em IR Função de ligação Complementar log-log, monótona crescente e diferenciável em IR I

7 Introdução ao MLG Binomial
Estimação dos parâmetros pelo Método da Máxima Verosimilhança 3. MLG Binomial Para a função de ligação logit, as derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são: Lembrar No modelo de Regressão Logística I

8 Introdução ao MLG Binomial
O MLG Binomial produz os mesmos resultados que um MLG Bernoulli aplicado a uma tabela de dados expandida. Exemplo: sobrevivência de ratos a extremos ambientais. exemplo4a.txt Nº inicial de indivíduos Temperatura Humidade Relativa Nº final de indivíduos Nº mortos 30 -5ºC 20% 14 16 100% 11 19 45ºC 8 22 1 29 3. MLG Binomial exemplo4b.txt Sobreviveu? (0não; 1 sim) Temperatura Humidade Relativa -5ºC 20% 1 100% 45ºC Nº linhas 16 14 19 11 22 8 29 1 I

9 Introdução ao MLG Binomial
Para a tabela de exemplo4a: > summary(glm(cbind(ex4a[,4],ex4a[,5])~ex4a[,2]:ex4a[,3],family=binomial(link=logit))) Call: glm(formula = cbind(ex4a[, 4], ex4a[, 5]) ~ ex4a[, 2]:ex4a[,3], family = binomial(link = logit)) Deviance Residuals: [1] Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * ex4a[, 2]:ex4a[, 3] ** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 3 degrees of freedom Residual deviance: on 2 degrees of freedom AIC: Number of Fisher Scoring iterations: 3 3. MLG Binomial I

10 Introdução ao MLG Binomial
Para a tabela de exemplo4b: > summary(glm(ex4b[,1]~ex4b[,2]:ex4b[,3],family=binomial(link=logit))) Call: glm(formula = ex4b[, 1] ~ ex4b[, 2]:ex4b[, 3], family = binomial(link = logit)) Deviance Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * ex4b[, 2]:ex4b[, 3] ** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 119 degrees of freedom Residual deviance: on 118 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 3. MLG Binomial Diferente Diferente I

11 Introdução ao MLG Binomial
14x 8x 1x 11x Exemplo4a Exemplo4b 3. MLG Binomial Resíduo Resíduo 4 “observações” Modelo com 2 parâmetros 120 observações Null deviance: on 3 d.f Residual deviance: on 2 d.f. Null deviance: on 119 d.f. Residual deviance: on 118 d.f. L=DN-DM= = L=DN-DM= =17.04 I

12 Introdução ao MLG Poisson
Distribuição aleatória > lat<-runif(100,min=0,max=1) > lon<-runif(100,min=0,max=1) > plot(lon,lat,xlim=c(0,1),ylim=c(0,1)) A variância cresce ao mesmo ritmo que a média I

13 Introdução ao MLG Poisson
Homogeneidade ambiental Gradiente ambiental (X1) 4. MLG Poisson Po(m1) Po(m2) Po(m3) Po(m4) Po(m5) I

14 Introdução ao MLG Poisson
O Modelo Poisson é um MLG 1) A Distribuição Poisson pertence à família exponencial 4. MLG Poisson Fórmula geral das distribuições pertencentes à família exponencial: f.m.p q f 1 a(f) b(q) c(y,f) I

15 Introdução ao MLG Poisson
O Modelo Poisson é um MLG 2) A função de ligação é monótona e diferenciável Função de ligação Identidade, monótona crescente e diferenciável em IR 4. MLG Poisson Função de ligação Inversa, monótona decrescente e diferenciável em IR+ Função de ligação Logarítmica, monótona crescente e diferenciável em IR+ I

16 Introdução ao MLG Poisson
Estimação dos parâmetros pelo Método da Máxima Verosimilhança 4. MLG Poisson Para o MLG Poisson com função de ligação logarítmica, as derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são I

17 Introdução ao MLG Binomial Negativa
ou onde 5. MLG BN Distribuição agregada (sin.: contagiosa) > lon=2 > lat=2 > plot(lon,lat,xlim=c(0,1),ylim=c(0,1)) > mat<-matrix(nrow=5,ncol=5,rnbinom(20,size=4,prob=0.4)) > for (i in 1:5) for (j in 1:5) points(runif(mat[i,j],min=(j-1)/5,max=j/5), runif(mat[i,j],min=(5-i)/5,max=(6-i)/5)) A variância cresce mais depressa do que a média I

18 Introdução ao MLG Binomial Negativa
O Modelo para a Distribuição Binomial Negativa é um MLG 1) A Distribuição Binomial Negativa pertence à família exponencial Fórmula geral das distribuições pertencentes à família exponencial: 5. MLG BN f.m.p q f 1 a(f) b(q) c(y,f) I

19 Introdução ao MLG Binomial Negativa
O Modelo para a Distribuição Binomial Negativa é um MLG 2) A função de ligação é monótona e diferenciável Função de ligação Identidade, monótona crescente e diferenciável em IR 5. MLG BN Função de ligação Inversa, monótona decrescente e diferenciável em IR+ Função de ligação Logarítmica, monótona crescente e diferenciável em IR+ I

20 Introdução ao MLG Binomial Negativa
Estimação dos parâmetros pelo Método da Máxima Verosimilhança 5. MLG BN Para o MLG Binomial Negativa com função de ligação logarítmica, as derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são I

21 Introdução ao MLG Binomial Negativa
Questão: Os aglomerados surgem como resposta à heterogeneidade espacial do ambiente ou são característicos da população? 5. MLG BN Hipóteses: Distribuição A média depende de variáveis ambientais? Aleatória Não Sim Contagiosa Modelo Nulo I

22 Construção de um MLG para contagens
Exemplo (exemplo4c): 6. Construção Variância aumenta com a média (previsto por ambos os MLG) I

23 Construção de um MLG para contagens
Média Variância Distribuição Poisson D. Binomial Negativa 6. Construção Média ou Variância Preditor Distribuição Poisson Média ou Variância Preditor Distribuição Binomial Negativa O formato desta curvatura indica qual a função de ligação a usar I

24 Construção de um MLG para contagens
Aplicação de médias móveis à escolha do tipo de MLG a utilizar: a) Ordenação dos dados em função do preditor > ex4c<-ex4c[order(ex4c$X),] b) Cálculo de uma média móvel de (p.ex.) 9 pontos > mm<-matrix(nrow=100,ncol=1) > for (i in 5:95) mm[i,1]<-mean(ex4c[(i-4):(i+4),1]) 6. Construção c) Cálculo de uma variância móvel de (p.ex.) 9 pontos > vm<-matrix(nrow=100,ncol=1) > for (i in 5:95) vm[i,1]<-var(ex4c[(i-4):(i+4),1]) Var. Móvel Méd. Móvel d) Representação dos resultados > plot(ex4c$X,vm,type="l“, col=“red”) > lines(ex4c$X,mm,type="l") Conclusão: O MLG Binomial Negativa parece ser mais adequado I

25 Construção de um MLG para contagens
Suponha-se que de qualquer forma se tentava ajustar os dois MLG. As análises globais do ajustamento, baseadas no Desvio, seriam: > glm(ex4c$Y~ex4c$X,family=poisson(link=log))$deviance [1] > 1-pchisq( ,98) [1] 0 > library(MASS) > glm.nb(ex4c$Y~ex4c$X,link=log)$deviance [1] > 1-pchisq( ,98) [1] MLG Poisson 6. Construção A qualidade do MLG Poisson é reduzida MLG Binomial Negativa O MLG BN é satisfatório I

26 Construção de um MLG para contagens
Passos na modelação Recolha de uma amostra composta por observações da variável resposta (contagem) e de candidatas a variáveis preditoras. 2. Análise exploratória univariada 3. Escolha do tipo de MLG (Poisson ou Binomial Negativa) e da função de ligação a utilizar 3. Construção do modelo inicial (exclusão sequencial de preditores não-significativos) 5. “Afinação” do modelo inicial (teste à linearidade dos preditores) 6. Finalização do modelo (inclusão de interacções) 6. Construção I

27 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise Global do Ajustamento 1. Desvio 2. Estatística de Pearson generalizada 7. GOF 3. Pseudo R2 Percentagem do desvio explicada pelo modelo I

28 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos 1. Resíduos do Desvio MLG Poisson: MLG Binomial Negativa: 7. GOF MLG Poisson MLG Bin. Neg. I

29 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos 2. Resíduos de Pearson MLG Poisson MLG Bin. Neg. 7. GOF Os resíduos de Pearson apresentam maus resultados até para o MLG bem ajustado! I

30 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos 3. Quantile Residuals (devem ter distribuição normal padrão) > QRP<-qres.pois(glm(ex4c$Y~ ex4c$X,family=poisson(link=log))) > hist(QRP) > qqnorm(QRP,xlim=c(-4,4)) > qqline(QRP) > abline(0,1) 7. GOF > t<-glm.nb(ex4c$Y~ex4c$X, link=log)$theta >QRNB<-qres.nbinom(glm(ex4c$Y ~ex4c$X,family=negative.binomial (link=log,theta=t))) > hist(QRNB) > qqnorm(QRNB) > abline(0,1) I

31 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 1: LeBrocque.pdf 8. Exemplos (PDF) I

32 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 1: LeBrocque.pdf Objectivo: testar se os padrões de riqueza específica de várias comunidades vegetais do Parque Nacional Ku-ring-gai estão significativamente associadas a variáveis ambientais (inclinação do terreno, ensombramento, composição do solo, etc.). Metodologia: Amostragem por quadrats de 500m2 em 50 locais do Parque Riqueza específica (R.E.) total R.E. de plantas arbóreas, R.E. de plantas arbustivas R.E. da plantas herbáceas 2) Variáveis resposta: 8. Exemplos (PDF) 3) Variáveis preditoras: 17 variáveis ambientais 4) Ajustamento de 4 MLG Poisson (função de ligação logarítmica); método forward stepwise 5) Transformação de alguns preditores após uma análise preliminar 6) Inclusão de uma interacção ( [N] x [P] ) entre os candidatos a preditores 7) Avaliação da qualidade do ajustamento por Pseudo R2 qq-plots dos resíduos de Anscombe (ver p.ex. Turkman e Silva, 2000) diagramas de dispersão (scatterplots) entre as variáveis resposta e os preditores mais importantes. I

33 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 1: LeBrocque.pdf Resultados: 8. Exemplos (PDF) I

34 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 2: Forchhammer.pdf 8. Exemplos (PDF) I

35 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 2: Forchhammer.pdf Objectivo: avaliar o impacto das alterações (bióticas e abióticas) do meio sobre alguns aspectos do ciclo de vida de ovelhas Ovies aries, na ilha de Hirta (Escócia) Metodologia: Variáveis resposta (registos entre 1985 e 1998): Nascimento de gémeos Sobrevivência neonatal Sobrevivência até à idade i Reprodução de animais com 1 ano de idade Data do nascimento Fecundidade dos adultos (# crias) Peso dos recém-nascidos Regressão Logistica MLG Poisson (log) MLG Normal 8. Exemplos (PDF) 2) Preditores: Índice de Oscilação do Atlântico Norte (NAO) Densidade populacional Peso e idade das mães Nascimento de gémeos 3) Ajustamento de MLG adequados ao tipo de distribuição das variáveis resposta 4) Indicador da qualidade de ajustamento – percentagem do desvio explicada pelos preditores I

36 Exemplo de aplicações dos MLG para contagens (PDF)
Exemplo 2: Forchhammer.pdf Resultados: 8. Exemplos (PDF) I

37 Um MLG para contagens com muitos zeros
Distribuição do atum rabilho no Atlântico NE e Mediterrâneo Sub-população de T. thynnus Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Mês 9. MLG 0s R Direito: Mai-Jun Revés: Jul-Ago I

38 Um MLG para contagens com muitos zeros
Artes de pesca envolvidas na exploração de Thunnus thynnus 9. MLG 0s I

39 Um MLG para contagens com muitos zeros
A armação do Barril ou Três Irmãos 9. MLG 0s I

40 Um MLG para contagens com muitos zeros
9. MLG 0s I

41 Um MLG para contagens com muitos zeros Factores ambientais candidatos:
Transparência da água Correntes costeiras Temperatura Salinidade Marés Oxigénio e fosfatos dissolvidos Poluição sonora e química Falta um modelo que quantifique a influência de cada factor sobre o rendimento de pesca 9. MLG 0s I

42 Um MLG para contagens com muitos zeros
Como pode um factor ambiental X afectar as capturas diárias de atum? X afecta a presença (+) mas não a abundância X afecta a presença (+) e a abundância (+) Gradiente de X X afecta a presença (+) e a abundância (-) Gradiente de X Replicados 9. MLG 0s Atuns capturados num dia em que X é mínimo Atuns capturados num dia em que X é máximo Gradiente de X I

43 Um MLG para contagens com muitos zeros
Capturas diárias na armação do Barril, entre 1926 e 1966 (temporada de pesca: Maio – Setembro) n0=2226 n1=58 9. MLG 0s Tal como no MLG Gama adaptado à ocorrência de zeros, também neste caso é necessário um MLG especial que lide com a superabundância de contagens nulas. I

44 Um MLG para contagens com muitos zeros
Os modelos com ‘fasquia’ (‘hurdle’ models) Concepção do modelo (p.ex. quando X promove a presença e a abundância) x1 x1 x2 9. MLG 0s x2 Contagem nula Contagem positiva I

45 Um MLG para contagens com muitos zeros
Modelos com ‘fasquia’: Poisson Compensação devida ao facto de, uma vez ultrapassada a barreira, as contagens nulas já não serem possíveis. Binomial Negativa 9. MLG 0s Lembrar Modelo Gama que admite zeros Aqui, a compensação não é feita porque a variável com distribuição Gama é positiva. I

46 Um MLG para contagens com muitos zeros
Tal como no Modelo Gama que admite zeros, nos modelos com fasquia a função verosimilhança é factorizável. Podemos construir separadamente um Modelo de Regressão Logística para modelar a Presença/Ausência. Contudo, a correcção feita impede o ajustamento de um MLG Poisson ou BN clássico às contagens positivas – esses modelos considerariam possível a ocorrência de contagens nulas. É por isso necessário utilizar a função hurdle > source("D:/R/hurdle.r") 9. MLG 0s Depois de obtidos os modelos finais que relacionam a probabilidade de ocorrência (p ) e a abundância (h ; não-nula) com as variáveis preditoras, a estimação do valor médio esperado de Y (m ) é dada por: I

47 Um MLG para contagens com muitos zeros
Interpretação do modelo com ‘fasquia’ m=20 m=40 m=60 h = E[Y|Y>0] m = p.h = E[Y] 9. MLG 0s p = 0.3 h=100 m = 30 p = 0.6 h=50 m = 30 p = Pr[Y>0] I

48 Um MLG para contagens com muitos zeros
Condições: velocidade do vento = 0 m/s corrente = longshore transparência = “água lusa” amplitude de maré = 2.15m dia variável (01-Maio a 31-Agosto) 9. MLG 0s I

49 Um MLG para contagens com muitos zeros
Condições: vento variável (0m/s a 11m/s) corrente = longshore transparência = “água lusa” amplitude de maré = 2.15m dia = 9-Junho (‘pico’ de Direito) ou 27-Julho (‘pico’ de Revés) 9. MLG 0s I

50 Bibliografia Modelos de contagens
Cameron, A.C., Windmeijer, F.A.G., R-Squared Measures for Count Data Regression Models With Applications to Health Care Utilization. Journal of Business and Economic Statistics 14: Forchhammer, M.C., et al., Climate and population density induce long-term cohort variation in a northern ungulate. Journal of Animal Ecology 70: Le Brocque, A.F., Buckney, R.T., Species richness–environment relationships within coastal sclerophyll and mesophyll vegetation in Ku-ring-gai Chase National Park, New South Wales, Australia. Austral Ecology 28: 404–412. Turkman, M.A., Silva, G.L., Modelos Lineares Generalizados. VIII Congresso Anual da Sociedade Portuguesa de Estatística PDF PDF PDF 10. Bibliografia Poisson1.PDF Poisson2.PDF Cameron2.PDF Análise de tabelas de contingência LogLinear.PDF Modelos para respostas multinomiais MRM.PDF I

51 Bibliografia Modelos de contagens com muitos zeros
Barry, S.C. and Welsh, A.H., Generalized additive modelling and zero inflated count data. Ecol. Model., 157: Böning, D., et al., Zero-Inflated count models and their application in public health and social science. In Rost, J., Langeheine, R. (eds.). Applications of latent traits and latent class models in the social sciences. Münster: Waxman Dobbie, M.J., Welsh, A.H., Modelling correlated zero-inflated count data. Australian & New Zealand Journal of Statistics 43(4): Gurmu, S Generalized hurdle count data regressions models. Economics letters, 58: Lambert, D., Zero-inflated Poisson regression, with an application to defects in manufacturing. Technometrics 34: 1-14. Lemos, R.T., Aplicação de um modelo de contagens ao estudo da ecologia e pesca do atum rabilho, Thunnus thynnus (L.). Tese de Mestrado. Lisboa: ISA-UTL. Mullahy, J., Specification and testing of some modified count data models. Journal of Econometrics, 33: Perkins, P.C., Edwards, E.F., A mixture model for estimating bycatch from data with many zero observations: Tuna bycatch in the eastern tropical Pacific Ocean Southwest Fisheries Science Center Administrative Report LJ-94-07 Ridout, M., et al., Models for count data with many zeros. International Biometric Conference, Cape Town, December 1998: Welsh, A.H., et al., Modelling the abundance of rare species: statistical models for counts with extra zeros. Ecol. Model., 88: Zorn, C.J., Evaluating zero-inflated and hurdle Poisson specifications. Midwest Political Science Association April 18-20, 1996 10. Bibliografia PDF PDF PDF Mais… I


Carregar ppt "MLG aplicados a variáveis resposta com distribuição contínua"
Anúncios Google