Rejane Sobrino Pinheiro Tania Guillén de Torres

Rejane Sobrino Pinheiro Tania Guillén de Torres

Seleção do melhor modelo de regressão
Introdução Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk. O problema - Queremos determinar: O melhor (mais importante ou mais válido) subconjunto dos k preditores O modelo de regressão melhor ajustado

Passos na seleção da melhor equação do modelo
Abaixo, são apresentados passos que tornam a tarefa menos nebulosa, em ações concretas. Especificar o modelo máximo a ser considerado Especificar o critério de seleção do modelo Especificar a estratégia de seleção das variáveis Estabelecer o modelo máximo, força o pesquisador a estabelecer os objetivos da análise claramente, reconhecer as limitações e o intervalo dos dados que possui. O pesquisador pode usar todo o conhecimento científico disponível para definir o modelo máximo.

Passo 1: Especificação do modelo máximo
É definido como o maior modelo, o que contém a maioria das variáveis preditoras Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras. Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p  k, é o modelo correto para a população.

Passo 1: Especificação do modelo máximo (cont...)
Incluir todos os preditores básicos concebíveis Incluir termos de maior ordem (IDADE2) Incluir outras transformações dos preditores (log IDADE, / HGT) Incluir interações entre preditores (de 2a. ordem e maiores) Incluir todas as variáveis de controle possíveis.

O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população. Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade. Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão. Parcimônia  inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la

O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter. A maior limitação está em que o número de graus de liberdade do erro deve ser positivo graus de liberdade = n - k -1 > 0 O que é equivalente à limitação: n > k + 1 n  nº de observações k  nº de preditores. (k + 1  inclui intercepto)

Existem algumas regras básicas para o no. de preditores: n - k - 1  10 n  5k n  10k Outra limitação é introduzir variáveis com variância zero. Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra. A variância da variável na amostra é nula. Há perfeita colinearidade com o intercepto.

Passo 2: Especificar um critério para a seleção do modelo
Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes: Estatisticamente significantes  em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes Cientificamente importantes  diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.

Passo 2: Especificar um critério para a seleção do modelo cont.
R2  desvantagem: adicionando preditores, R2 não decresce. F  bastante usada. Diversos critérios têm sido propostos. Alguns são: R2p, Fp, MSE(p) = SSE(p) / (n-p-1)  variância do erro Cp  Mallow's Cp

Passo 2: Especificar um critério para a seleção do modelo cont.
Supondo o modelo máximo com k preditores: Y = 0 + 1 X1 + 2 X p Xp + p+1 Xp k Xk +  E o modelo reduzido com p preditores: Y = 0 + 1 X1 + 2 X p Xp +  A estatística Fp pode ser comparada a uma distribuição F com k - p (numerador) e n - k -1 (denominador) graus de liberdade

Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis)  difere significativamente de zero? Se Fp não é significante, podemos escolher o modelo menor - com p variáveis Caso especial  p = k-1  Fp testa Ho: k = 0 no modelo completo (máximo)

Passo 3: Especificar uma estratégia de seleção de variáveis
A. Todas as regressões possíveis Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2. Torna-se quase impraticável quando o nº k de variáveis é grande Ajuste de todos os modelos que contenha a combinação das k variáveis

A estatística F parcial entre o modelo 4 (F(X2|X1) = 4
A estatística F parcial entre o modelo 4 (F(X2|X1) =  contribuição de X2 Modelo 7: F(X2|X1,X3) = 0.140

Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo).
O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7). O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => = 1023). Outros métodos podem mostrar-se factíveis

B. Procedimento de eliminação Backward
Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo) Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo. Observar o menor valor da estatística parcial F. Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo. Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.

B. Procedimento de eliminação Backward

C. Procedimento de seleção Foward
Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo. Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora. Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4 Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão. Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.

C. Procedimento de seleção Foward
Testar a significância do teste F parcial. Caso seja significante, incluir esta variável no modelo. Caso não seja, usar no modelo somente a variável incluída no item 1 (usar p < 0,10, por exemplo). Para cada passo seguinte, determinar o teste F parcial para as variáveis não incluídas no modelo. Incluir a variável que tiver o maior teste F parcial. Caso os testes F parciais não sejam significantes, nenhuma variável mais deve ser incluída no modelo.

inserir a saída da pg. 397 kleinbaum
A variável com maior correlação é HGT (0,6630) Ajustar regressão para esta variável

Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2) Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade

D. Procedimento de regressão Stepwise
É uma versão modificada do procedimento Foward. Permite o re-exame das variáveis já incluídas no modelo Uma variável já incluída no modelo pode tornar-se supérflua. A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo. A variável com o menor teste F parcial não significante é removida (caso haja). O modelo é reajustado com as variável remanescentes. O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo. Desvantagens: Não é controlada pelo usuário A ordem da inclusão pode afetar os resultados

Rejane Sobrino Pinheiro Tania Guillén de Torres

Apresentações semelhantes

Apresentação em tema: "Rejane Sobrino Pinheiro Tania Guillén de Torres"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Rejane Sobrino Pinheiro Tania Guillén de Torres

Apresentações semelhantes

Apresentação em tema: "Rejane Sobrino Pinheiro Tania Guillén de Torres"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback