MLG aplicados a variáveis resposta com distribuição contínua

MLG aplicados a variáveis resposta com distribuição contínua
Programa: 1. Programa Introdução aos MLG Regressão Logística* MLG aplicados a variáveis resposta com distribuição contínua MLG aplicados a dados de contagens Análise de variância (ANOVA) com MLG *Livro de referência: Hosmer, D.W., Lemeshow, S Applied Logistic Regression. Wiley & Sons I

Objectivo do Modelo de Regressão Logística
Encontrar um modelo adequado e parcimonioso que permita descrever a relação entre uma variável aleatória binária (i.e., dicotómica) Y e um conjunto de variáveis não-aleatórias preditoras X1, X2, …, Xp 2. Objectivo Atenção: O objectivo não é obter um modelo que discrimine eficaz e totalmente os dois resultados possíveis de Y, mas sim que indique com precisão a probabilidade de ocorrência de um “sucesso” (ou de um “insucesso”). Um modelo matemático toma frequentemente a forma de uma equação (ou conjunto de equações) que descrevem a relação entre diversas variáveis, p.ex., E=mc2. Estes modelos são determinísticos e não permitem qualquer incerteza, p.ex., erros de medição. Um modelo estatístico incorpora variação aleatória em pelo menos uma das quantidades, sendo esta intrínseca ao aspecto do mundo real estudado ou um produto de erros de medição Lembrar I

Objectivo do Modelo de Regressão Logística
Aplicações comuns dos modelos de regressão logística em Ecologia Estudos de presença/ausência de organismos numa área de estudo - p.ex. Guisan et al., 1999 (modelação espacial da distribuição de plantas); Gumpertz et al., 1999 (modelação espaço-temporal da ocorrência de pragas) Silva et al., 2002 (propagação espacial de uma espécie introduzida) Ysebaert et al., 2002 (resposta de espécies estuarinas a gradientes ambientais) Guisan & Hofer, 2003 (comparação de modelos de regressão logística no estudo da distribuição de répteis) 2. Objectivo Estudos de selecção de recursos - p.ex. Bekoff et al., 1999 (estudo do comportamento alimentar de uma espécie de ave) Flury & Levri, 1999 (análise do ciclo diário do comportamento alimentar de uma espécie de caracol) Pereira et al., 2001 (sazonalidade na selecção de recursos por uma espécie de morcego) Outros estudos de sucesso/insucesso Futter, 1994 (risco de contaminação com mercúrio em trutas) Reece et al., in press (influência da temperatura sobre o sex-ratio de tartarugas) Barker et al., 1999 (marcação/recaptura de trutas) I

Introdução ao Modelo de Regressão Logística
A distribuição da variável resposta 1 p= p=0.20 ~60% ~40% ~80% ~20% Resultado Probabilidade Y “Sucesso” (1) p “Insucesso” (0) 1 - p 3. Introdução Y tem distribuição Bernoulli com parâmetro p, A sua função de massa probabilística é Uma característica importante desta distribuição é que Hipótese: um conjunto de preditores ’influencia’ a probabilidade de sucesso de Y. I

A relação entre a variável resposta e um preditor 3. Introdução p 1 0.5 Aproximação suave a p=1 Aproximação suave a p=0 Simetria Curva Logística: X1 +∞ -∞ I

A flexibilidade da curva logística 3. Introdução p X1 I

Generalização: o Modelo de Regressão Logística 3. Introdução Uma vez obtida uma amostra, pretendemos estimar os coeficientes b1, b2, …, bp. O Modelo de Regressão Logística é um MLG Lembrar Componente Aleatória  Y (variável resposta) Y tem distribuição pertencente à família exponencial de distribuições Amostra dimensão n Componente Sistemática  combinação linear das variáveis preditoras o Função de Ligação  função diferenciável e monótona g que associa as componentes aleatória e sistemática I

O Modelo de Regressão Logística é um MLG 1) A Distribuição Bernoulli pertence à família exponencial 3. Introdução Fórmula geral das distribuições pertencentes à família exponencial: f.m.p q f 1 a(f) b(q) c(y,f) I

O Modelo de Regressão Logística é um MLG 2) A função de ligação é monótona e diferenciável 3. Introdução Função de ligação Logit A função de ligação logit é monótona crescente e diferenciável em ]0,1[ I

Estimação dos parâmetros pelo Método da Máxima Verosimilhança 3. Introdução As derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são: Regressão Logistica na Web Lembrar Função Verosimilhança Função Log-verosimilhança I

Construção de um Modelo de Regressão Logística com recurso ao software R
Passos na Modelação: 1. O objecto de estudo tem um comportamento binário Y, codificado como 1 (“sucesso”) ou 0 (“insucesso”). 2. Pretende-se modelar a probabilidade de “sucesso” em função de algumas variáveis (candidatas a preditoras), discretas ou contínuas. 3. Recolhe-se uma amostra de n observações independentes de Y, registando-se também o valor das variáveis preditoras. 4. Construção O software R I

Inserção de dados no R – opção 1: Nome da tabela onde ficam armazenados os dados Nº observações Nº preditores + 1 (variável resposta) > tab1 <- data.frame(matrix(nrow=100, ncol=6, scan())) 4. Construção Copiar Colar I

Inserção de dados no R – opção 2: > tab1<-read.table(“C:\\exemplo2.txt”, sep=“,”) Separador (pode ser “ “ ou “/t”) 4. Construção Nome do documento de importação Nome da tabela onde ficam armazenados os dados > names(tab1) <- c(“Y”,”X1”,”X2”,”X3”,”X4”,”X5”) I

Passos na Modelação: 2. … 3. Recolha da amostra. 4. Análise preliminar univariada. Y=0 Y=1 Xj=0 22 8 Xj=1 13 17 4. Construção 4.1. Tabelas de contingência 2x2 (variáveis preditoras indicatrizes) p=0.27 p=0.57 4.2. Análise gráfica Y=0 Y=1 p= p=0.57 Xj=0 Xj=1 100% 0% 50% > plot (tab1$X1,tab1$Y) > lines(lowess(tab1$X1,tab1$Y)) Simetria em torno de 0.5 I

4. Análise preliminar univariada. Var. resposta Preditor Distribuição de Y > summary(glm(tab1$Y~tab1$X1,family=binomial(link=logit))) Call: glm(formula = tab1$Y ~ tab1$X1, family = binomial(link = logit)) Deviance Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * tab1$X *** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 99 degrees of freedom Residual deviance: on 98 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 MLG 4. Construção Função de ligação logit Na Regressão Logística f = 1 Teste à significância do preditor X1: > 1-pchisq( , 1) Nº iterações do algoritmo IRLS I

4. Análise preliminar univariada. Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * tab1$X *** 4. Construção Teste à significância do preditor pela construção de Intervalos de Confiança a = 0.25 > c( qnorm(1-0.25/2)*0.1666, qnorm(1-0.25/2)*0.1666) [1] Não inclui 0 O preditor é relevante (Rej. H0) Esta metodologia equivale ao teste de Wald para um preditor Lembrar Intervalo de confiança (1-a)x100% I

Passos na Modelação: 3. … 4. Análise preliminar univariada. 5. Construção do modelo inicial. Para o modelo inicial, seleccionam-se todas as variáveis preditoras que mostraram associações significativas com a variável resposta (a = 0.25) 4. Construção > summary(glm(tab1$Y~tab1$X1+tab1$X2+tab1$X4,family=binomial(link=logit))) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) tab1$X tab1$X tab1$X * Se o nº de coeficientes não-significativos for superior a um, remove-se do modelo aquele cuja interpretação ecológica é mais difícil ou aquele cuja medição é mais custosa. Repete-se então o procedimento de ajustamento do modelo: > summary(glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit))) I

Fase iterativa terminada
Construção de um Modelo de Regressão Logística com recurso ao software R Passos na Modelação: 3. … 4. Análise preliminar univariada. 5. Construção do modelo inicial. > summary(glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit))) 4. Construção Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * tab1$X * tab1$X * Todos os coeficientes são significativos Fase iterativa terminada I

ATENÇÃO Não se deve deixar para um computador a remoção de preditores irrelevantes, já que a noção de relevância ultrapassa em muito o valor do p-value. Exemplo: ocorrência de um organismo aquático num estuário, em função das anomalias da temperatura do ar (X1) e da água (X2) 4. Construção Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * tab1$X *** Associação significativa Análise Univariada Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) *** tab1$X *** Associação significativa Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) tab1$X tab1$X tab1$X * An. Multivariada Associações não-significativas I

Passos na Modelação: Coefficients: Estimate Std. Error z value (Intercept) tab1$X tab1$X 4. … 5. Construção do modelo inicial. 6. “Afinação” do modelo inicial. Teste à linearidade dos preditores contínuos 4. Construção Ao contabilizar a influência de X4 sobre o logit, será que a influência de X1 se mantém linear? Nesse caso, devemos logaritmizar X1, utilizar um polinómio de 2º grau, etc.? Análise Univariada I

Teste à linearidade dos preditores contínuos > aux [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] … > quantile(tab1$X1) 0% % % % % Classe 1 Classe 2 Classe 3 Classe 4 4. Construção > aux<-matrix(nrow=100,ncol=4,rep(0,400)) > for (i in 1:100) {k=1;for (j in 1:3) k=k+1*(tab1$X1[i]>quantile(tab1$X1,j/4));aux[i,k]<-1} > k<-glm(tab1$Y ~ -1+ tab1$X4 + aux, family = binomial(link = logit)) > k$coefficients tab1$X4 aux1 aux2 aux aux4 > plot(quantile(tab1$X1,probs=c(0.125,0.375, 0.625,0.875)),coefficients(k)[2:5]) > abline(lm(coefficients(k)[2:5]~quantile (tab1$X1,probs=c(0.125,0.375,0.625,0.875)))) I A linearidade é aceitável.

Teste à linearidade dos preditores contínuos Outras possibilidades: 4. Construção coefs C1 C2 C3 C4 Inclusão de X6 = (X1)2 entre os preditores (em certos casos a substituição de X1 por X6=log(X1) funciona) coefs C1 C2 C3 C4 Substituição de X1 por uma variável binária preditora binária: I

Modelação hipotética da tolerância de um organismo ao pH do substrato: sendo p a probabilidade de sobrevivência 4. Construção I

O modelo não beneficia com a inclusão de interacções
Construção de um Modelo de Regressão Logística com recurso ao software R Passos na Modelação: 5. … 6. Afinação do modelo inicial. 7. Finalização do modelo. Inclusão de interacções entre variáveis preditoras: 4. Construção > summary(glm(tab1$Y~tab1$X1+tab1$X4+tab1$X1 : tab1$X4 , family=binomial(link=logit))) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) * tab1$X tab1$X * tab1$X1:tab1$X Interacção não-significativa O modelo não beneficia com a inclusão de interacções I

Avaliação da qualidade do modelo com recurso ao software R
O teste de Hosmer e Lemeshow (2000) 1. Junto a cada observação de Y colocam-se as estimativas da probabilidade de sucesso p fornecidas pelo modelo (numa nova tabela). > j<-glm(tab1$Y~tab1$X1+tab1$X4,family=binomial(link=logit)) > tab2<-matrix(nrow=100, ncol=2, c(tab1[,1], fitted.values(j))) > tab2 5. Avaliação [,1] [,2] [1,] e-09 [2,] e-01 [3,] e-07 [4,] e+00 [5,] e-11 [6,] e-07 [7,] e-01 [8,] e+00 [9,] e-01 [10,] e-01 Cada observação possui uma estimativa de p que pode não se repetir em toda a amostra, já que entre os preditores há variáveis contínuas. Nº da observação I

O teste de Hosmer e Lemeshow (2000) 2. Ordenam-se os dados da tabela em função de p tab2<-tab2[order(tab2[,2]),] 3. Criam-se 10 grupos de tamanho igual ou semelhante (neste caso, n’ = 10) e analisam-se os resultados do modelo em cada grupo: 5. Avaliação grupo 1 2 3 4 5 6 7 8 9 10 Zeros Uns % 0% 10% 50% 100% 0.1% 61% 98% 99% I

> tab3<-matrix(nrow=10,ncol=2) >tab3[1,1:2]<-c(sum(tab2[1:10,1])/10,sum(tab2[1:10,2])/10) > tab3[2,1:2]<-c(sum(tab2[11:20,1])/10,sum(tab2[11:20,2])/10) … > tab3[10,1:2]<-c(sum(tab2[91:100,1])/10,sum(tab2[91:100,2])/10) OU > for (i in 1:10) for (j in 1:2) tab3[i,j]<-sum(tab2[(10*i-9):(10*i),j])/10 5. Avaliação Estimativas do modelo > tab3 [,1] [,2] [1,] e-09 [2,] e-07 [3,] e-06 [4,] [5,] [6,] [7,] [8,] [9,] [10,] Erro Observações > plot(1:10,tab3[,1],cex=1.2) > points(1:10,tab3[,2],type="o",pch=20,cex=.8) # grupo I

O teste de Hosmer e Lemeshow (2000) 4. Constrói-se a estatística de teste Sob a hipótese do modelo estar bem ajustado, C tem distribuição qui-quadrado com 8 graus de liberdade (independentemente da dimensão da amostra). 5. Avaliação > cstat<-0 > for (i in 1:10) cstat<-cstat+10*(tab3[i,1]-tab3[i,2])^2/(tab3[i,2]*(1-tab3[i,2])) > cstat [1] > 1-pchisq(cstat,8) [1] A hipótese de bom ajustamento não é rejeitada. Outras medidas – Pseudo R2 Ver revisão por Shtatland et al. (2002) I

Interpretação do modelo
Variáveis preditoras binárias: Razão de probabilidades (RP) versus Razão de “chances” (Odds ratio, OR) 6. Interpretação Odds: nos países anglófonos utilizam-se frequentemente os odds em vez das probabilidades: Ex: “The odds of raining are 2 to 3” em vez de “The probability of raining is 2 out of 5, or 40%”. I

Variáveis preditoras não-binárias: a) Apresentação de combinações particularmente relevantes dos preditores em tabelas > exp( ) / (1+exp( )) 6. Interpretação X1 X4 1.6x10-5 0.37 0.52 0.61 > exp( * *0.52) / (1+exp( * *0.52)) I

Variáveis preditoras não-binárias: b) Representação gráfica do impacto de um preditor sobre p, fixando os restantes preditores. > X.1<-sort (runif(1000,min(tab1$X1),max(tab1$X1))) > pi.X1<-exp( *X.1)/(1+exp( *X.1)) > plot(X.1,pi.X1,type="l") Variação de p em função de X1, fixando X4 = 0 6. Interpretação I

Alternativas ao Modelo de Regressão Logística dentro dos MLG
a) Modelo Probit (muito semelhante ao modelo logístico) p x Função de ligação probit: b) Modelo complementar log-log (possui uma curvatura assimétrica) 7. Alternativas p Função de ligação c-log-log: x Os procedimentos de construção, avaliação e interpretação destes modelos são os mesmos que para o modelo logístico (Nota: as expressões das funções de verosimilhança e log-verosimilhança mudam). Entre os três tipos de modelo, a escolha do melhor pode basear-se no teste de Hosmer-Lemeshow (quanto maior o p-value, melhor). I

Exemplos de aplicações do Modelo de Regressão Logística (PDF)
Exemplo 1: Guisan.pdf 8. Exemplos (PDF) I

Exemplo 1: Guisan.pdf Objectivo: Estudar o potencial do clima e da topografia como preditores da distribuição de 13 espécies de répteis na Suiça. Metodologia: Construção, para cada espécie, de 2 modelos de regressão logística, um com 12 preditores associados ao clima e outro com 8 preditores associados à topografia. Em ambos foram incluídos termos quadráticos. Nos modelos finais todos os preditores incluídos devem explicar pelo menos 1% do desvio. A amostra original foi aleatoriamente dividida em duas subamostras, sendo a segunda utilizada para validar os modelos. A validação foi feita com recurso a métodos de classificação: 8. Exemplos (PDF) Se o modelo indica, para uma dada combinação dos preditores, uma probabilidade de sucesso que ultrapassa um dado limiar de corte (c), então considera-se que o modelo prevê um sucesso (y=1); caso contrário, considera-se que prevê um insucesso (y=0). Heisenberg: «o melhor modelo que descreve o comportamento de Y é um modelo probabilístico» Einstein: «Deus não joga aos dados; o modelo deve ser determinístico» I

Exemplo 1: Guisan.pdf Previsão do modelo Total y=1 y=0 Obs. n1 n2 n1+n2 n3 n4 n3+n4 Sensibilidade = n1 / (n1+n2) Especificidade = n4 / (n3+n4) 1-Especificidade Sensibilidade 1.0 0.8 0.6 0.4 0.2 0.0 Curva ROC 1.0 0.8 0.6 0.4 0.2 0.0 Limiar de corte (c) 8. Exemplos (PDF) Especificidade Sensibilidade Área debaixo da curva ROC (AUR) I

Exemplo 1: Guisan.pdf Resultados: 1) Regra geral, os modelos “climáticos” forneceram melhores ajustamentos do que os modelos “topográficos”. 2) As espécies mais ubíquas foram as que forneceram piores modelos, quer “climáticos” quer “topográficos”. Talvez a disponibilidade de recursos seja neste caso um factor determinante para a distribuição espacial. 8. Exemplos (PDF) I

Exemplo 2: Pereira.pdf 8. Exemplos (PDF) I

Exemplo 2: Pereira.pdf Objectivos: Analisar se o morcego Myotis myotis selecciona activamente os seus recursos tróficos ou se a sua dieta reflecte apenas a variação sazonal na abundância destes. Local: Moura Metodologia: Identificação de presas consumidas em 212 excrementos produzidos por uma colónia com ca indivíduos. Cinco períodos de amostragem (em 1999): Mar/Abr, Jul/Ago, Set, Nov. A abundância dos recursos na zona de estudo foi avaliada através de pitfalls. 8. Exemplos (PDF) Hipóteses colocadas: Se uma presa é preferida, então é tão mais consumida quanto maior for a sua abundância absoluta. As outras presas servem como complemento à presa preferida, pelo que devem surgir em maior quantidade na dieta nos meses em que a primeira é menos abundante. Por não serem seleccionadas, devem surgir na dieta em função da sua abundância relativa. Modelo para a presa preferida (P) Modelo para as presas não-preferidas (NP) I

Exemplo 2: Pereira.pdf Se as hipóteses colocadas estiverem correctas, os modelos deverão ajustar-se bem às observações; o valor dos coeficientes terá um significado interpretável em termos ecológicos. Grilos (presas preferidas) Carabídeos (NP) Aranhas (NP) Coef. positivo P-value do Desvio (GOF)  modelo bem ajustado Resultados: Coef. negativo 8. Exemplos (PDF) I

Exemplo 3: Barker.pdf 8. Exemplos (PDF) I

Exemplo 3: Barker.pdf Espécie estudada: Onchorhyncus mykiss (truta arco-íris) Local: Rio Rangitikei (Nova Zelândia) Objectivo: avaliar o impacto da introdução de um tamanho máximo de captura (550mm), em 1995, sobre o estado da população e sobre a pesca Metodologia: Marcação (n=575) e recaptura (n=246), com ou sem devolução, entre 1993 e 1999 Variáveis resposta: Probabilidade de recapturar um peixe, pelo menos uma vez, nos 6 meses seguintes à marcação (P1) 8. Exemplos (PDF) Probabilidade de um peixe capturado por um pescador ser devolvido (P2) Probabilidade de sobrevivência de um peixe nos 6 meses seguintes à marcação (P3) Software: MARK Questão: P1, P2 e P3 dependem da época de marcação (Primavera ou Outono), do comprimento do peixe, do sexo do peixe ou da imposição do tamanho máximo de captura? Metodologia: Construção de 3 modelos de regressão logística; selecção de preditores relevantes através de uma versão do critério de informação de Akaike – AIC (baseia-se na log-verosimilhança dos modelos estudados e no número de parâmetros que contêm). I

Exemplo 3: Barker.pdf Resultados: Model AICc DAICc Akaike Weight No. Param. Deviance P1(season) 0.999 2 P1(time) 14.44 0.001 13 P1(time+length) 15.15 14 P1(sex*t) 32.88 26 P1(time*length) 34.36 24 345.14 P1(sex) 37.26 P1(.) 38 1 8. Exemplos (PDF) A probabilidade de recapturar um peixe, pelo menos uma vez, nos 6 meses seguintes à marcação (P1) depende da estação do ano em que é feita a marcação. A probabilidade de um peixe capturado por um pescador ser devolvido (P2) depende do comprimento do peixe e da introdução do tamanho máximo de captura A probabilidade de sobrevivência de um peixe nos 6 meses seguintes à marcação (P3) depende da introdução do tamanho máximo de captura I

Exemplo 3: Barker.pdf Resultados: Tamanho máximo de captura 8. Exemplos (PDF) I

Bibliografia Barker, R.J., et al., in prep., Rainbow trout survival and capture probabilities in the upper Rangitikei river, New Zealand. Bekoff, M., et al., Feeding decisions by steller’s jays (Cyanocitta stelleri): the utility of a logistic regression model for analyses of where, what, and with whom to eat. Ethology 105: Czado, C Multivariate Probit Analysis of Binary Time Series Data with Missing Responses. Discussion Paper 23, SFB 386 “Diskrete Strukturen”, LMU Munchen Flury, B.D., Levri, E.P., Periodic logistic regression. Ecology 80 (7): Futter, M. N Pelagic food-web structure influences probability of mercury contamination in lake trout (Salvelinus namaycush). The Science of the Total Environment 145:7-12. Guisan, A., et al., GLM versus CCA spatial modeling of plant species distribution. Plant Ecology 143: Guisan, A., Hofer, U., Predicting reptile distributions at the mesoscale: relation to climate and topography. Journal of Biogeography 30: Gumpertz, M.L., et al., Logistic regression for southern pine beetle outbreaks wih spatial and temporal autocorrelation. Forest Science 46 (1): King, G., Zeng, L., Logistic regression in rare events data. Political Analysis 9 (2): Pereira, M.J.R., et al., Prey selection by Myotis myotis (Vespertilionidae) in a Mediterranean region. Acta Chiropterologica 4 (2): Reece, S.E. et al. (in press) Extreme sex ratios of green (Chelonia mydas) and loggerhead (Caretta caretta) sea turtle nests in the Mediterranean and indirect methods for estimating sex ratios. Shtatland, E.S., et al., One more time about R2 measures of fit in logistic regression. NESUG 15: 1-6. Silva, T., et al., A model for range expansion of an introduced species: the common waxbill Estrilda astrild in Portugal. Diversity & Distributions 8 (6): 319. Ysebaert, T., et al., Macrobenthic species response surfaces along estuarine gradients: prediction by logistic regression. Marine Ecology Progress Series 225: PDF PDF PDF PDF PDF 9. Bibliografia PDF PDF PDF LogReg1.PDF LogReg2.PDF LogReg3.PDF I

MLG aplicados a variáveis resposta com distribuição contínua

Apresentações semelhantes

Apresentação em tema: "MLG aplicados a variáveis resposta com distribuição contínua"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

MLG aplicados a variáveis resposta com distribuição contínua

Apresentações semelhantes

Apresentação em tema: "MLG aplicados a variáveis resposta com distribuição contínua"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback