Rejane Sobrino Pinheiro Tania Guillén de Torres

Slides:

Advertisements

Apresentações semelhantes

Correlação e Regressão

Advertisements

DISTRIBUIÇÕES AMOSTRAIS

Estatística amintas paiva afonso.

Analise de Regressão Parte 2.

Análise de Variância da Regressão

2.5 INFERÊNCIAS SOBRE A DIFERENÇA NAS MÉDIAS, COMPARAÇÕES EMPARELHADAS

ANÁLISE DISCRIMINANTE

Lógica Fuzzy Aplicada a Sistemas de Diagnóstico

REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.

Mineração de Dados Avaliação de Classificadores

Algoritmos Construtivos

MB751 – Modelos de previsão

A FAST APRIORI implementation

Regressão Linear Múltipla

J. Landeira-Fernandez Ética e Ciência

Análise da Regressão múltipla: Inferência Revisão da graduação

ME623A Planejamento e Pesquisa. Não Interação no Modelo de 2 Fatores A presença de interação tem um impacto na interpretação dos dados No entanto, se.

ME623A Planejamento e Pesquisa

Laís Araújo Lopes de Souza

Tópicos Avançados de Base de Dados

Modelos de regressão Cláudio Monteiro

Estatística e Probabilidade

DELINEAMENTOS CORRELACIONAIS

Introdução ao Stata 7 de junho de 2013

Etapa Estatística Planejamento Análise Estatística Efeito de sequência

Teste de Hipóteses para a média, caso da pequena amostra

Introdução à pesquisa clínica

Sistema de equações lineares

Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva

Aula 6 - Método não-experimental ou de seleção não-aleatória

PLANEJAMENTO DO EXPERIMENTO

Teste de Hipótese.

Mario de Andrade Lira Junior lira.pro.br\wordpress 2/4/2015 lira.pro.br\wordpress - Reservados todos os direitos autorais.

Aplicações Estatísticas uma rápida abordagem

Estatística e Probabilidade

Regressão Linear.

Seleção de atributos Mariana Pinheiro Bento IA368Q.

2.3 Experimentos Fatoriais 22 Efeitos das Interações

Múltipla Variáveis Binárias Relações Não-Lineares

Modelagem Estatística

Professor Antonio Carlos Coelho

Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.

Introdução ao Stata 03 de maio de 2013

Regressão e Previsão Numérica.

Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.

análise dos estimadores

Ajuste de regressão 13 de abril de 2015

Ajuste do Modelo Avaliação dos Coeficientes

Estatística para Cursos de Engenharia e Informática

Regressão Linear Múltipla

Disciplina Engenharia da Qualidade II

Multicolinearidade.

Introdução a planejamento e otimização de experimentos

Metodologia da Pesquisa em Ensino de Ciências I

ME623A Planejamento e Pesquisa

Estatística e Probabilidade

FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.

FLO Estatística Aplicada a Engenharia Florestal

AULA 6 Planejamento Experimental

Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -

Aula 12 - Relaxando as hipóteses do MCRL

Regressão Linear Simples

NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Regressão linear simples

EAL ESTATÍSTICA, PLANEJAMENTO E OTIMIZAÇÃO DE EXPERIMENTOS.

AULA 11 – REGRESSÃO Parte I

Variância/ Covariância, Correlação Regressão. Variância.

CMIP- Centro de Metrologia e Inovação em Processos Programa de Pós-Graduação em Odontologia Profª Andréa ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA.

Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.

Transcrição da apresentação:

Rejane Sobrino Pinheiro Tania Guillén de Torres

Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk. O problema - Queremos determinar: O melhor (mais importante ou mais válido) subconjunto dos k preditores O modelo de regressão melhor ajustado

Passos na seleção da melhor equação do modelo Abaixo, são apresentados passos que tornam a tarefa menos nebulosa, em ações concretas. Especificar o modelo máximo a ser considerado Especificar o critério de seleção do modelo Especificar a estratégia de seleção das variáveis Estabelecer o modelo máximo, força o pesquisador a estabelecer os objetivos da análise claramente, reconhecer as limitações e o intervalo dos dados que possui. O pesquisador pode usar todo o conhecimento científico disponível para definir o modelo máximo.

Passo 1: Especificação do modelo máximo É definido como o maior modelo, o que contém a maioria das variáveis preditoras Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras. Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p  k, é o modelo correto para a população.

Passo 1: Especificação do modelo máximo (cont...) Incluir todos os preditores básicos concebíveis Incluir termos de maior ordem (IDADE2) Incluir outras transformações dos preditores (log IDADE, 1/ HGT) Incluir interações entre preditores (de 2a. ordem e maiores) Incluir todas as variáveis de controle possíveis.

Passo 1: Especificação do modelo máximo (cont...) O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população. Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade. Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão. Parcimônia  inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la

Passo 1: Especificação do modelo máximo (cont...) O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter. A maior limitação está em que o número de graus de liberdade do erro deve ser positivo graus de liberdade = n - k -1 > 0 O que é equivalente à limitação: n > k + 1 n  nº de observações k  nº de preditores. (k + 1  inclui intercepto)

Passo 1: Especificação do modelo máximo (cont...) Existem algumas regras básicas para o no. de preditores: n - k - 1  10 n  5k n  10k Outra limitação é introduzir variáveis com variância zero. Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra. A variância da variável na amostra é nula. Há perfeita colinearidade com o intercepto.

Passo 2: Especificar um critério para a seleção do modelo Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes: Estatisticamente significantes  em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes Cientificamente importantes  diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.

Passo 2: Especificar um critério para a seleção do modelo cont. R2  desvantagem: adicionando preditores, R2 não decresce. F  bastante usada. Diversos critérios têm sido propostos. Alguns são: R2p, Fp, MSE(p) = SSE(p) / (n-p-1)  variância do erro Cp  Mallow's Cp

Passo 2: Especificar um critério para a seleção do modelo cont. Supondo o modelo máximo com k preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk +  E o modelo reduzido com p preditores: Y = 0 + 1 X1 + 2 X2 + ... + p Xp +  A estatística Fp pode ser comparada a uma distribuição F com k - p (numerador) e n - k -1 (denominador) graus de liberdade

Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis)  difere significativamente de zero? Se Fp não é significante, podemos escolher o modelo menor - com p variáveis Caso especial  p = k-1  Fp testa Ho: k = 0 no modelo completo (máximo)

Passo 3: Especificar uma estratégia de seleção de variáveis A. Todas as regressões possíveis Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2. Torna-se quase impraticável quando o nº k de variáveis é grande Ajuste de todos os modelos que contenha a combinação das k variáveis

A estatística F parcial entre o modelo 4 (F(X2|X1) = 4 A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785  contribuição de X2 Modelo 7: F(X2|X1,X3) = 0.140

Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo). O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7). O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023). Outros métodos podem mostrar-se factíveis

B. Procedimento de eliminação Backward Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo) Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo. Observar o menor valor da estatística parcial F. Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo. Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.

B. Procedimento de eliminação Backward

C. Procedimento de seleção Foward Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo. Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora. Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4 Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão. Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.

C. Procedimento de seleção Foward Testar a significância do teste F parcial. Caso seja significante, incluir esta variável no modelo. Caso não seja, usar no modelo somente a variável incluída no item 1 (usar p < 0,10, por exemplo). Para cada passo seguinte, determinar o teste F parcial para as variáveis não incluídas no modelo. Incluir a variável que tiver o maior teste F parcial. Caso os testes F parciais não sejam significantes, nenhuma variável mais deve ser incluída no modelo.

inserir a saída da pg. 397 kleinbaum A variável com maior correlação é HGT (0,6630) Ajustar regressão para esta variável

Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2) Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade

D. Procedimento de regressão Stepwise É uma versão modificada do procedimento Foward. Permite o re-exame das variáveis já incluídas no modelo Uma variável já incluída no modelo pode tornar-se supérflua. A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo. A variável com o menor teste F parcial não significante é removida (caso haja). O modelo é reajustado com as variável remanescentes. O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo. Desvantagens: Não é controlada pelo usuário A ordem da inclusão pode afetar os resultados