Prof. Antonio Lopo Martinez

Slides:



Advertisements
Apresentações semelhantes
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Advertisements

6. Andando na Superfície de Resposta Técnica de otimização baseada em planejamentos fatoriais Etapas distintas: Modelagem e deslocamento Modelagem: ajuste.
CAPÍTULO 6 - Teste de hipótese Controle Estatístico de Processo (CEP) Professor: Robert Wayne Samohyl Ph.D. Josué Alberton.
Correlação e Regressão
Correlação entre Variáveis Correlação entre Variáveis Regressão Linear e Não Linear.
Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE5801 – Regressão e Covariância Taciana Villela Savian Sala 304, pav. Engenharia,
O Processo de Poisson Série: Processos Estocásticos Disciplina: Métodos Matemáticos 1C Dennis S. Poisson, Sceaux, France.
Prof. Thiago Costa ADMINISTRAÇÃO DA PRODUÇÃO II TEORIA DA PREVISÃO DOS ESTOQUES.
Estatística Aplicada a Finanças 1. Aprimorar os conceitos estatísticos básicos – Medidas de tendência e dispersão – Probabilidade – Intervalo de confiança.
Introdução à prática da
Revisão Medidas de Dispersão
Prof. Leonardo Bianco de Carvalho FCAV/UNESP – Câmpus de Jaboticabal
Confiabilidade Estrutural
ESTATÍSTICA AULA 15 Testes de hipóteses – Unidade 10
Probabilidade e Estatística Aplicadas à Contabilidade II
DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO
Probabilidade e Estatística Aplicadas à Contabilidade I
Análise Discriminante
Regressão Linear Simples
Estatística Bivariada
Estatística para Cursos de Engenharia e Informática
ESTATÍSTICA . SÍNTESE DO 10.º ANO . RELAÇÕES BIDIMENSIONAIS (11.º ANO)
Estimação de Parâmetros – Unidade 9 Professor Marcelo Menezes Reis
Regressão com uma variável dependente Binária
Probabilidade e Estatística Aplicadas à Contabilidade I
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Intervalo de Confiança Camilo Daleles Rennó
ESTATÍSTICA AULA 12 Inferência Estatística e Distribuição Amostral – Unidade 8 Professor Marcelo Menezes Reis.
EAL ESTATÍSTICA, PLANEJAMENTO E OTIMIZAÇÃO DE EXPERIMENTOS
Modelos de Equações simultâneas
Estimação de Máxima Verossimilhança
Regressão Linear Múltipla
Curso de Medicina/Nutrição Ms.Rosebel Trindade Cunha Prates
CÁLCULO NUMÉRICO Aula 4 – Solução de equações transcendentes e polinomiais (continuação)
Inferência Estatística
PCA: Análise de Componentes Principais
Prof. Eduardo Bezerra (CEFET/RJ)
Introdução – Análise de Variâncias (ANOVA)
Introdução – Análise de Variâncias (ANOVA)
Análise de regressão múltipla
Estatística Descritiva
Introdução – Análise de Variâncias (ANOVA)
Probabilidade e Estatística Aplicadas à Contabilidade II
O QUE É CONTROLE DE QUALIDADE ?
DISTRIBUIÇÕES AMOSTRAIS
7 Resultados de Medições Indiretas
Prof. Elisson de Andrade
Correlação: Há um Relacionamento entre as variáveis?
Profa. Dra. Andreia Adami
Inferência Estatística
Profa. Andréia Adami Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE0211 – Estatística Geral Profa.
Amostragem e estimadores
O que é Estatística? Introdução ao CEQ
Estatística amintas paiva afonso.
Prof. Elisson de Andrade
AULA 4 ESTATÍSTICA DANIEL PÁDUA.
Amostragem e estimadores
Revisão de inferência.
ANÁLISE DE VARIÂNCIA (ANOVA)
Unidade 6 – Desenho da amostra Aspectos técnicos
Variância e Desvio padrão
Métodos Quantitativos
Mestrado Profissional em Física Médica
Profa. Andréia Adami Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE0211 – Estatística Geral Profa.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2018 Intervalo de Confiança Camilo Daleles Rennó
Aula 13 Goodies* * Goodies related to animals, plants and numbers…
Metodologia da Pesquisa em Ensino de Ciências I
Probabilidade e Estatística Aplicadas à Contabilidade II
Intervalo de confiança (IC95%) e teste do chi-quadrado
Análise e apresentação dos dados
Estatística descritiva: medidas DE dispersão
Transcrição da apresentação:

Prof. Antonio Lopo Martinez Revisão Estatística Análise de Regressão Prof. Antonio Lopo Martinez Lopo Martinez 2004

Introdução Tipos de Modelos: - Determinísticos: relação entre as variáveis é exata: Exemplo: F=m.a - Probabilísticos: relação entre as variáveis não é exata: Exemplo: vendas=10*gastos com propagandas + erro Y= 10*X + e Características da análise de Regressão: - Estuda a relação entre as variáveis - Variável dependente: quantitativa - Variáveis independentes: quantitativas ou qualitativas - Usada para previsões e estimações - Pode ser linear ou não-linear

Modelos de Regressão Modelos de regressão 1 variável independente 2 ou mais variáveis independentes Simples Múltipla Não Não Linear Linear Linear Linear

Análise de Regressão Simples A relação entre as variáveis é uma função linear: Y 0 1= coeficiente angular X Intercepto da população Erro aleatório Variável dependente Inclinação da população Variável independente

 $  $  $  $  $  $  $ População x Amostra População Amostra Os valores amostrais e populacionais são geralmente diferentes!

Ajuste da reta Qual reta se encaixa melhor aos dados? É a reta que minimiza soma dos resíduos ao quadrado. (Reta de mínimos quadrados)

Interpretação dos Coeficientes ^ 1. Inclinação (1) Estima-se que Y aumente em média 1 unidades para cada aumento de uma unidade de X Exemplo: vendas(Y)=2*propaganda(X)+erro Se 1 = 2, estima-se que as vendas (Y) aumentem em média 2 unidades para cada unidade a mais de propaganda (X) 2. Intercepto (0) Valor médio de Y quando X = 0. Nem sempre é interpretável!! ^ ^ ^

Exemplo (excel)

Exemplo: Prever valor de um imóvel pelo seu tamanho Y População Y Amostra X X Y= valor de um imóvel com X m2 b1= aumento no valor médio de um imóvel para cada m2 a mais. E(Y)= valor médio de um imóvel com X m2 e = erro = diferença entre o valor de um imóvel com X m2 e o valor médio dos imóveis com X m2 Y= valor de um imóvel com X m2 b1= estimativa do aumento no valor médio de um imóvel para cada m2 a mais. Y= estimativa do valor médio de um imóvel com X m2 e = diferença entre o valor de um imóvel com X m2 e o valor estimado pela reta de regressão ^

Suposições do Modelo 1 - Erros são independentes; 2 - Erro tem média zero; 3 - Erro tem distribuição normal com variância 4 - Variância do erro é constante ao longo do eixo X

Partição da soma de quadrados 1. Soma de quadrados total (SSyy) Variação de Yi em torno da médiaY 2. Soma de quadrados da regressão (SSR) Variação de Y em torno da reta de regressão 3. Soma de quadrados do erro (SSE) Variação de Yi em torno da reta de regressão (não explicada)

Partição da soma de quadrados É possível provar que:

Partição da soma de quadrados Variabilidade devida à regressão Variabilidade TOTAL Variabilidade residual + = y y SQTotal (SST) = SQRes (SSE) + SQReg (SSR)

R2 - Coeficiente de Determinação - É o quadrado do coeficiente de correlação. - Mede quanto a variável X explica a variabilidade de Y - Fórmula: SST = SSE + SSR Inclusão de outras variáveis: aumenta o R2 Transformação dos dados: pode aumentar R2 e melhorar comportamento do resíduo: - tirar logarítmo, raiz quadrada,etc..

Tabela de ANOVA Estimativa dos parâmetros Intercepto 1 X 1 = estimador de s Estimativa dos parâmetros Variável g.l. Estimativa erro padrão estatística t p-valor Intercepto 1 X 1

Existe relação linear entre X e Y? Isto é, 1 é diferente de zero? Hipóteses: H0: 1 = 0 (não há relação linear entre as variáveis) Ha: 1  0 (há relação linear entre as variáveis) A estatística do teste é: Se F> FCRÍTICO, rejeito H0. Essa informação está contida na tabela de ANOVA

Testes para cada um dos Betas Outro teste, equivalente, pode ser feito para cada um dos betas. Nesse exemplo, vamos testar se b1 é zero: Pode-se mostrar que, sob H0, b1 tem distribuição normal com média b1 * e desvio-padrão . Como esse desvio-padrão não é conhecido, utilizaremos ^ 1 S ^ Então, tem distribuição t-student com n-2 g.l. * valor de b1 sob H0. Geralmente, será 0.

Resíduos O resíduo (e) é a diferença entre o valor observado e o valor previsto pela regressão ^ Valor observado Resíduo Valor previsto pela regressão Pode-se também escrever que Os resíduos devem ser independentes e normalmente distribuídos para que as suposições do modelo de regressão estejam satisfeitas.

Resíduos padronizados Às vezes, é mais fácil analisar os resíduos padronizados. O resíduo padronizado é o resíduo dividido pelo desvio-padrão: Se é o desvio-padrão do resíduo, estimado aqui pela raiz do QMErro. Se um resíduo padronizado apresentar um valor alto (em módulo), por exemplo, maior que 3, é sinal que esta observação está distante da reta e deve ser considerada um outlier.

Gráficos dos Resíduos Variância não é constante Como verificar se as suposições do modelo são válidas? Variância não é constante Distribuição não é normal freqüência resíduo Renda resíduo Erros não são independentes resíduo Renda

Pontos Influentes A inclusão desse ponto muda muito a inclinação da reta

Exercício Faça uma análise de regressão completa para prever as vendas em função do valor gasto em propaganda. Propaganda $ Vendas 1 1 2 1 3 2 4 2 5 4 Estime a venda média quando o gasto com propaganda é igual a $4 com a= .05 .

Resolução do Exercício - Excel

TH para o coeficiente angular b1 Estatística do teste: Decisão: Conclusão: H0: 1 = 0 Ha: 1  0   .05 gl  5 - 2 = 3 Valores críticos: Rejeito H0 com  = .05 Há relação linear entre as variáveis

Cálculos Intervalo de Confiança:

Regressão Múltipla Modelo populacional: Inclinações Erro aleatório - Uma variável dependente (Y) - Várias variáveis independentes (X1, X2, X3, etc..) Modelo populacional: Inclinações Erro aleatório Intercepto Variável dependente Variáveis independentes i = indexador do indivíduo

Interpretação dos parâmetros Exemplo: prever preço de um imóvel (Y) pelo tamanho (X1) e idade (X2) População Amostra b0: valor médio de um imóvel quando X1=0 e X2=0. b1: aumento no valor médio de um imóvel quando aumento 1m2 no tamanho, mantendo constante a idade. b2: aumento no valor médio de um imóvel quando aumento 1 ano na idade, mantendo constante o tamanho. E(Y)= valor médio de um imóvel com determinada idade e tamanho. : valor médio de um imóvel quando X1=0 e X2=0. : estimativa do aumento no valor médio de um imóvel quando aumento 1m2 no tamanho, mantendo constante a idade. : estimativa do aumento no valor médio de um imóvel quando aumento 1 ano na idade, mantendo constante o tamanho. : preço médio estimado de um imóvel com determinada idade e tamanho.

Suposições e Hipóteses do Modelo -erro tem distribuição normal com média 0 e variância s2 -erros são independentes Hipóteses: H0: 1 = 2 = ... = k = 0 k=número de variáveis independentes Não há relação linear Ha: Pelo menos um coeficiente é diferente de zero (Pelo menos uma variável afeta o número de respostas Y) Fonte de variação Soma de quadrados Graus de liberdade Quadrado médio F (estatística do teste) QMReg QMErro k SQR/k F= Regressão SQR(SSR) Erro SQE(SSE) n-k-1 SQE/(n-k-1) Total SQT(SST) n-1

Suposições e Hipóteses do Modelo Se F > Fcrítico=Fk , n-k-1;a => rejeito H0=> pelo menos uma variável tem relação linear com Y. Qual é essa variável? Variável g.l. Estimativa erro padrão estatística t p-valor Intercepto 1 X1 1 ... ... Xk 1

Estimação dos Parâmetros - Fórmula para calcular betas, intervalos de confiança e intervalos de predição são complicadas - Serão utilizadas informações presentes na saída do software Intervalo de confiança de (1-a)% para bi:

Ajuste do Modelo - Chamado de coeficiente múltiplo de determinação Revisão Estatística Ajuste do Modelo - Chamado de coeficiente múltiplo de determinação - R2 aumenta com o acréscimo de variáveis Solução: olhar R2 ajustado para comparar modelos com diferentes números de variáveis O coeficiente ajustado é sempre menor que o R2. k: número de variáveis do modelo Lopo Martinez 2004

Exemplo Número de respostas (Y) de acordo com o tamanho do anúncio e com a circulação do jornal

Saída do Excel P-valor Intervalo de confiança

Análise de Resíduos A análise de resíduos deve ser feita antes de se chegar a alguma conclusão. Se as suposições do modelo não estiverem satisfeitas, o modelo não é válido. Suposições do modelo: erro tem distribuição normal com variância constante (mesmas suposições da regressão simples). Como verificar as suposições: gráficos de dispersão e histograma dos resíduos. Resíduo Resíduo Freq Valor previsto para Y Variável X Resíduo Um gráfico para cada variável X

Análise de Resíduos - exemplo anterior Conclusão: não parece haver nenhuma suposição não satisfeita, exceto a normalidade. É necessário fazer um teste de hipóteses específico para verificar a normalidade dos resíduos.

Conclusão Admitindo que as suposições estão satisfeitas, podemos continuar a análise. p-valor <0,05 => rejeito H0: pelo menos uma das variáveis tem relação linear com Y Qual variável? Circulação: p-valor=0,001 Tamanho: p-valor=0,713 Deve-se ajustar um novo modelo de regressão apenas com circulação como variável independente, pois variáveis que não são significantes não devem permanecer.