A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MLG aplicados a variáveis resposta com distribuição contínua

Apresentações semelhantes


Apresentação em tema: "MLG aplicados a variáveis resposta com distribuição contínua"— Transcrição da apresentação:

1 MLG aplicados a variáveis resposta com distribuição contínua
3. MLG vars. contínuas Programa: 1. Programa Introdução aos MLG Regressão Logística MLG aplicados a variáveis resposta com distribuição contínua MLG aplicados a dados de contagens Análise de variância (ANOVA) com MLG I

2 Objectivo dos Modelos para Variáveis Contínuas
Encontrar um modelo adequado e parcimonioso que permita descrever a relação entre uma variável aleatória contínua Y e um conjunto de variáveis não-aleatórias preditoras X1, X2, …, Xp 2. Objectivos Modelos disponíveis MLG Normal MLG Gama MLG Gaussiana Inversa I

3 Selecção do MLG mais adequado
MLG Normal Pode ser utilizado quando a variável resposta Y possui distribuição Normal com variância constante em torno do valor médio. 3. Selecção do MLG MLG Gama Pode ser utilizado quando a variável resposta Y possui distribuição Gama, pelo que a sua variância deverá aumentar à medida que o valor médio aumenta. Uma variável com distribuição Gama só toma valores positivos. I

4 Introdução ao MLG Normal

5 Introdução ao MLG Normal
O Modelo Normal é um MLG 1) A Distribuição Normal (Gaussiana) pertence à família exponencial 4. MLG Normal Fórmula geral das distribuições pertencentes à família exponencial: f.d.p q f a(f) b(q) c(y,f) I

6 Introdução ao MLG Normal
O Modelo Normal é um MLG 2) A função de ligação é monótona e diferenciável Função de ligação Identidade, monótona crescente e diferenciável em IR 4. MLG Normal m g(m) I

7 Introdução ao MLG Normal
Estimação dos parâmetros pelo Método da Máxima Verosimilhança 4. MLG Normal Soma dos quadrados dos resíduos resultantes do ajustamento do modelo Sendo A maximização da função verosimilhança passa por minimizar a soma dos quadrados dos resíduos, que era precisamente o objectivo do Modelo Linear clássico. Os estimadores de b0, b1, …bp de mínimos quadrados coincidem com os estimadores de máxima verosimilhança, i.e., o Modelo Linear clássico e o MLG Normal produzem os mesmos resultados. I

8 Introdução ao MLG Normal
Estimação dos parâmetros pelo Método da Máxima Verosimilhança 4. MLG Normal Derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) Estimador de s : I

9 Introdução ao MLG Gama 5. MLG Gama I

10 Fórmula geral das distribuições pertencentes à família exponencial:
Introdução ao MLG Gama O Modelo Gama é um MLG 1) A Distribuição Gama pertence à família exponencial Fórmula geral das distribuições pertencentes à família exponencial: 5. MLG Gama f.d.p q f a(f) b(q) c(y,f) Nota: No R, m = a.s , sendo a o “shape parameter” e s o “scale parameter” I

11 Introdução ao MLG Gama O Modelo Gama é um MLG
2) A função de ligação é monótona e diferenciável Função de ligação Identidade, monótona crescente e diferenciável em IR 5. MLG Gama Função de ligação Inversa, monótona decrescente e diferenciável em IR+ Função de ligação Logarítmica, monótona crescente e diferenciável em IR+ I

12 Introdução ao MLG Gama Estimação dos parâmetros pelo Método da Máxima Verosimilhança 5. MLG Gama Para o MLG Gama com função de ligação inversa, as derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são Estimador de a : I

13 Diferenças entre os MLG Normal e Gama
Y Variável preditora X 6. Diferenças No MLG Normal a) Y pode tomar valores ≤ 0. b) A relação entre X e Y é linear (se não for transforma-se X). c) A variabilidade de Y em torno do valor esperado pelo modelo (indicado pela recta) é constante (homocedasticidade). I

14 Diferenças entre os MLG Normal e Gama
Y Variável preditora X 6. Diferenças Inversa No MLG Gama a) Y só toma valores positivos. b) A relação entre Y e X pode ser linear ou curvilínea (a forma da curvatura indicia a função de ligação a utilizar). c) A variabilidade de Y em torno do valor esperado pelo modelo aumenta juntamente com este último. Logarítmica Identidade Y X I

15 Construção de um MLG para uma variável contínua
Passos na modelação Recolha de uma amostra composta por observações da variável resposta (contínua) e de candidatas a variáveis preditoras. 2. Análise exploratória univariada 3. Escolha do tipo de MLG (Gama ou Normal) e da função de ligação a utilizar Frequentemente, desconhece-se a priori qual é a distribuição da variável Y que se pretende estudar, pelo que a selecção do tipo de MLG faz-se com base nos dados recolhidos. 7. Construção ATENÇÃO Como o valor médio de Y varia dentro de uma amostra recolhida, não é possível seleccionar o tipo de modelo mais adequado a partir de um histograma baseado nas observações de Y (Kéry e Hatfield, 2003). I

16 Construção de um MLG para uma variável contínua
Exemplo (exemplo3.txt): > ex3<-read.table("C:\\exemplo3.txt",sep=",") > names(ex3) <- c(“Y”,”X”) > hist(ex3$Y, col=“blue”) 7. Construção Medidas geralmente utilizadas: logaritmização ou aplicação de um MLG Gama (ex. Góni et al., 1999). I

17 Construção de um MLG para uma variável contínua
Exemplo (exemplo3.txt): Análise da variabilidade de Y para cada valor da variável preditora X: > plot(ex3$X,ex3$Y,cex=.5) 7. Construção Observações: A média de Y é maior para maiores valores de X; a relação parece ser linear. A variabilidade de Y em torno da média parece ser constante, não dependendo por isso do valor desta. O MLG Normal Y = b0 + b1 X pode ser adequado I

18 Construção de um MLG para uma variável contínua
Exemplo (exemplo3.txt): > k<-glm(ex3$Y~ex3$X,family=gaussian) > hist(k$residuals) > qqnorm(k$residuals) > plot(1:1000,k$residuals) > plot(ex3$X,k$residuals) 7. Construção Sobre qq-plots I

19 Construção de um MLG para uma variável contínua
Outros exemplos: 7. Construção >a<-c(rnorm(1000,mean=5,sd=1), rnorm(1000,10,1),rnorm(1000,15,1)) >hist(a, col=“blue”) >a<-c(rnorm(1000,5,sd=1),rnorm(1000,7.5,1), rnorm(1000,10,1),rnorm(1000,12.5,1)) >hist(a, col=“blue”) I

20 Construção de um MLG para uma variável contínua
Contra-exemplo (exemplo3b.txt): > ex3b<-read.table("C:\\exemplo3b.txt",sep=",") > names(ex3b) <- c(“Y”,”X”) > hist(ex3b$Y, col=“blue”) > plot(ex3b$X,ex3b$Y) 7. Construção I

21 Construção de um MLG para uma variável contínua
Conclusão Para a modelação de variáveis resposta contínuas, a escolha do tipo de MLG (Gama ou Normal) faz-se pela: 1. Análise da variância de Y para diferentes combinações das variáveis preditoras. 2. Análise dos resultados do ajustamento de MLG preliminares com Y~Gama e Y~Normal. 7. Construção I

22 Construção de um MLG para uma variável contínua
Passos na modelação Recolha de uma amostra composta por observações da variável resposta (contínua) e de candidatas a variáveis preditoras. 2. Análise exploratória univariada 3. Escolha do tipo de MLG (Gama ou Normal) e da função de ligação a utilizar 3. Construção do modelo inicial (exclusão sequencial de preditores não-significativos) 5. “Afinação” do modelo inicial (teste à linearidade dos preditores) 6. Finalização do modelo (inclusão de interacções) 7. Construção I

23 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise Global do Ajustamento 1. Função de Desvio H0: O Modelo Obtido não é significativamente pior que o Modelo Saturado. Se então o modelo é considerado inadequado. Exemplo: exemplo3b (MLG Gama com 1 preditor, n = 200) 8. GOF > qchisq (0.95, 198) [1] > glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$deviance [1] > glm(ex3b$Y~ex3b$X,family=Gamma(link=identity))$deviance [1] > glm(ex3b$Y~ex3b$X,family=Gamma(link=inverse))$deviance [1] > 1-pchisq(glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$deviance,198) [1] 1 I

24 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise Global do Ajustamento 2. Estatística de Pearson generalizada H0: O Modelo obtido não é significativamente pior que o Modelo Saturado. Previsões do modelo 8. GOF Se então o modelo é considerado inadequado. Turkman e Silva (2000, pg. 75) advertem que a distribuição dos resíduos de Pearson é bastante assimétrica para modelos não-Normais. > m<-glm(ex3b$Y~ex3b$X,family=Gamma(link=log)) > resP<-(ex3b$Y-m$fitted.values)/m$fitted.values > sum(resP^2) [1] > chisq(sum(resP^2),198) [1] 1 I

25 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise Global do Ajustamento 3. R2 e Pseudo R2 No Modelo Linear Clássico o R2 é amplamente utilizado como medida da qualidade de ajustamento. Porém, a aplicação desta medida em modelos não-lineares produz valores que não pertencem ao intervalo [0,1] ou diminuem à medida que se incluem variáveis preditoras no modelo (Cameron e Windmeijer, 1996). Como alternativa existem várias medidas análogas ao R2 (Pseudo R2), com utilidade discutível. 8. GOF ATENÇÃO As medidas globais de ajustamento não dispensam a análise dos resíduos individuais. Em particular, valores elevados de R2 nem sempre indicam um bom ajustamento. I

26 Avaliação da Qualidade de Ajustamento (goodness of fit)
Exemplo (MLG Normal): R2=0.90 R2=0.30 Y Y X X 8. GOF Histogramas dos resíduos para < X< 0 Distribuição assimétrica em torno de 0, sem média nula Distribuição aproximadamente simétrica em torno de 0, com média nula I

27 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos 1. Resíduos do Desvio MLG Normal: MLG Gama: > resD<-sign(ex3b$Y-m$fitted.values)*(2*(log(m$fitted.values/ex3b$Y) +(ex3b$Y-m$fitted.values)/m$fitted.values))^0.5 > hist(resD) > qqnorm(resD) > qqline(resD) 8. GOF I

28 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos 2. Resíduos de Pearson > hist(resP) > qqnorm(resP) > qqline (resP) 8. GOF I

29 Avaliação da Qualidade de Ajustamento (goodness of fit)
Análise de Resíduos Primeira utilização (instalar STATMOD.ZIP) 3. Quantile residuals (Dunn e Smyth, 1996) > library(statmod) > m<-glm(ex3b$Y~ex3b$X,family=Gamma(link=log)) > hist(qres.gamma(m,dispersion=0.34)) > qqnorm(qres.gamma(m,dispersion=0.34)) > qqline(qres.gamma(m,dispersion=0.34)) 8. GOF I

30 Interpretação do Modelo Obtido
MLG Normal As estimativas dos coeficientes são idênticas ao Modelo Linear clássico. A interpretação dos resultados não apresenta dificuldades. MLG Gama Neste MLG é necessário ter em conta a função de ligação utilizada. As estimativas dos coeficientes variam em amplitude e sinal consoante a f.l. utilizada. 1) Função de ligação identidade: 9. Interpretação Ao valor esperado adicionam-se b1 unidades. A função de ligação identidade leva-nos a admitir que as variáveis preditoras interagem de uma forma aditiva. I

31 Interpretação do Modelo Obtido
MLG Gama 2) Função de ligação logarítmica: O valor esperado pelo modelo factoriza exp(b1) unidades: 9. Interpretação A função de ligação logarítmica leva-nos a admitir que as variáveis preditoras interagem de uma forma multiplicativa. I

32 Interpretação do Modelo Obtido
MLG Gama 3) Função de ligação inversa: Ao contrário do que sucede nas duas outras funções de ligação, em que o sinal da variação do valor esperado é igual ao sinal do coeficiente, neste caso o sinal é oposto. 9. Interpretação I

33 Interpretação do Modelo Obtido
> glm(ex3b$Y~ex3b$X,family=Gamma(link=identity))$coefficients (Intercept) ex3b$X > glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$coefficients > glm(ex3b$Y~ex3b$X,family=Gamma(link=inverse))$coefficients O sinal é negativo porque a associação entre o valor esperado e o preditor é positiva 9. Interpretação I

34 Exemplo de uma aplicação do MLG Gama (PDF)
Exemplo: Negro.pdf 10. Exemplo I

35 Exemplo de uma aplicação do MLG Gama (PDF)
Exemplo: Negro.pdf Objecto de estudo: carotenóides – pigmentos que são alvo de intensa pesquisa pelos biólogos evolucionistas, dado que são responsáveis pela coloração de ornamentos dos animais. Além desta função, os carotenóides também agem como antioxidantes que auxiliam o sistema imunitário. Os vertebrados só obtêm carotenóides através da dieta. Objectivo: ampliar o conhecimento do uso dos carotenóides nas aves, pelo estudo da sua concentração no tecido adiposo do ganso-bravo (sin.: ganso-comum-ocidental) Anser anser (neste caso os carotenóides configuram apenas a coloração do bico). Pesquisaram-se variações nesta concentração associadas ao sexo, à idade, ao fat-score e à espessura da camada adiposa. Metodologia: Ajustamento de dois GLMs gama (função de ligação logarítmica), um para a zona do peito e outro para a zona da barriga; construção do modelo pelo processo forward stepwise (adição sequencial com possibilidade de remoção) 10. Exemplo I

36 Exemplo de uma aplicação do MLG Gama (PDF)
Exemplo: Negro.pdf Resultados Falta informação sobre o coeficiente b0 10. Exemplo I

37 Um MLG exótico Questão: Pistas: Definição da variável resposta:
Octopus vulgaris Questão: Como se distribui a biomassa de Octopus vulgaris na costa algarvia e a que factores ambientais responde? Pistas: A probabilidade de ocorrência do polvo-comum parece ser maior nas zonas de substrato rochoso. Os polvos maiores encontram-se geralmente a maior profundidade. 11. MLG exótico Definição da variável resposta: Seja B a variável que define a biomassa média (kg) das capturas realizadas em cada um dos pontos representados na figura. Nestes pontos registou-se também a profundidade e a percentagem de substrato coberto por rocha (polvo.txt contém dados fictícios). I

38 Um MLG exótico Distribuição amostral de B Como modelar?
B é uma variável contínua não-negativa; em mais de 200 locais, B=0 (não foram capturados polvos). B=0 Como modelar? 11. MLG exótico I

39 Um MLG exótico Admitindo que o peso dos indivíduos capturados segue a distribuição Gama, a função de densidade probabilística de B pode ser escrita da seguinte forma: Onde f (y|m,a) é a f.d.p. de uma variável aleatória com distribuição Gama (m,a), p é a probabilidade de captura de polvos e Função de verosimilhança 11. MLG exótico Produtório que depende apenas de p Produtório que depende apenas de m e a Função de verosimilhança de n variáveis aleatórias com distribuição Bernoulli Função de verosimilhança de n variáveis aleatórias com distribuição Gama I

40 Um MLG exótico Ou seja, para encontrarmos as estimativas de máxima verosimilhança dos coeficientes b0, b1, l0 e l1 presentes nas expressões: onde R designa a % de substrato rochoso e P a profundidade (g1 e g2 são funções de ligação) podemos maximizar separadamente e através de um Modelo de Regressão Logística (ou um MLG clog-log ou um MLG probit) e um MLG Gama. 11. MLG exótico I

41 Um MLG exótico Metodologia Exercício Sobre este assunto
1) Modela-se a probabilidade de captura de O. vulgaris por meio de um Modelo de Regressão Logística (a informação sobre o peso dos indivíduos é descartada; os locais onde se capturaram polvos codificam-se como 1s), tendo como variável preditora a percentagem de substrato rochoso. 2) Modela-se o peso médio dos polvos capturados por meio de um MLG Gama (os locais em que não foram capturados polvos são descartados), tendo como variável preditora a profundidade. 3) Obtêm-se estimativas de biomassa de O. vulgaris pela multiplicação dos valores esperados produzidos pelos dois modelos. Exercício Modelar a biomassa de O. vulgaris em função da % de substrato rochoso e da profundidade. Soluções: b0=-1.4, b1=3.8, l0= 1.22, l1= (log link) 11. MLG exótico Sobre este assunto Ye et al. (2001) – modelação de pescas (MLG gama com zeros) Feuerverger (1979) – modelação de dados de precipitação Tu (2002) – discussão geral sobre modelação de variáveis com muitos zeros I

42 Bibliografia Cameron, A.C., Windmeijer, F.A.G., An R-squared measure of goodness of fit for some common nonlinear regression models. Journal of Econometrics 77(2): Dunn, P.K., Smyth, G.K., Randomized quantile residuals. Journal of Computational and Graphical Statistics 5: Feuerverger, A., On some methods of analysis for weather experiments. Biometrika 66(3): Góni, R., et al., Application of generalized linear modelling to catch rate analysis of Western Mediterranean fisheries: the Castellón trawl fleed as a case study. Fisheries Research 42: Kéry, M., Hatfield, J.S., Normality of raw data in general linear models: the most widespread myth in statistics. Bulletin of the Ecological Society of America 84(2): Negro, J.J., et al., Fat stores in birds: na overlooked sink for carotenoid pigments? Functional Ecology 15: Tu, W., Zero-inflated data. In: El-Shaarawi, A.H., Piegorsch, W.W., Encyclopedia of environmetrics. John Wiley & Sons, Ltd, Chichester. Ye, Y., et al., Use of generalized linear models to analyze catch rates having zero values: the Kuwait driftnet fishery. Fisheries Research 53: PDF PDF PDF PDF PDF PDF PDF 12. Bibliografia Continuous.PDF Survival.PDF Venables.PDF I


Carregar ppt "MLG aplicados a variáveis resposta com distribuição contínua"

Apresentações semelhantes


Anúncios Google