Análise Exploratória de Dados

Slides:



Advertisements
Apresentações semelhantes
Regressão Linear Simples
Advertisements

Análise Exploratória de Dados R – LIG/08 – maio de 2008.
Considerações Finais sobre Medidas de Tendência Central Na maioria das situações, não necessitamos de calcular as três medidas, normalmente precisamos.
Retrato da gestão da saúde e segurança na indústria brasileira.
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Campus Londrina LAB FÍSICA 1 ALGARISMOS SIGNIFICATIVOS e INCERTEZAS NAS MEDIDAS LAB FÍSICA 1 ALGARISMOS SIGNIFICATIVOS.
Regressão Linear Múltipla Arquivo: seleção2.sav. Base de dados Variáveis independentes: X 1, X 2, X 3,..., X 14 Variável dependente ou Resposta: Y 1428.
Matemática Básica Gráficos de Funções Reais. Como construir um Gráfico y x y = f(x) x3x3 y 3 x 2 x4x4 x 1 x 5 y4y4 y2y2 y1y1 y5y5 xy = f(x) x1x1 y1y1.
Bioestatística e Epidemiologia Tabelas e gráficos
Geometria Aula 3, ciclo 1.
Correlação e Regressão Linear
PLANO DE AULA GRÁFICO DE SETORES.
ESTATÍSTICA AULA 03 ANÁLISE EXPLORATÓRIA DE DADOS I – Unidade 3
Professora Renata Prestes Antonangelo de Oliveira
TABULAÇÃO DE DADOS AULA 3.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2017 Técnicas de Reamostragem Camilo Daleles Rennó
Análise Substituição da Perimetral
Função afim ou polinomial do primeiro grau
FUNÇÃO DE 1º GRAU FORMA GERAL: f(x) = ax + b y = ax + b ou
O OBJETIVO FUNDAMENTAL DA DISCIPLINA
Correlação e Regressão
Medidas de Dispersão para uma amostra
AULA 8: MÉTODO DOS MÍNIMOS QUADRADOS
Medidas de Dispersão Aula 8.
“ASSOCIAÇÃO EDUCACIONAL FANUEL” GUARDA MIRIM DE TELÊMACO BORBA
ANÁLISE FATORIAL.
ESTATÍSTICA . SÍNTESE DO 10.º ANO . RELAÇÕES BIDIMENSIONAIS (11.º ANO)
7ª aula PROBLEMA DE ATRIBUIÇÃO UNIDADE 6
Análise de Regressão.
ESTATÍSTICA Aula 5.
ESTATÍSTICA AULA 06 ANÁLISE EXPLORATÓRIA DE DADOS II – Unidade 4
Estatística Descritiva: Tabelas e Gráficos
ESTATÍSTICA AULA 04 ANÁLISE EXPLORATÓRIA DE DADOS I – Unidade 3
ESTATÍSTICA AULA 01 CONCEITOS E PLANEJAMENTO DE PESQUISA – Unidade 1
Distribuições bidimensionais
Regressão Logística Modelos de regressão não linear são usados, em geral, em duas situações: casos em que as variáveis respostas são qualitativas e os.
Aula 5 - Correlação linear, equação da reta
Ajustamento de Observações
Tópicos em Econometria I
ÁLGEBRA LINEAR INDEPENDÊNCIA E DEPENDÊNCIA LINEAR (LI e LD)
A INFORMAÇÃO FAZ A DIFERENÇA.
Conceitos Demográficos
Medidas de Dispersão Mostra quanto dispersos estão os dados em torno da média Amplitude Variância Desvio-padrão Comparação da dispersão dos elementos dos.
ESTATÍSTICA BÁSICA. Por quê? Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender um conjunto de dados.
Algoritmos de Redes Rota mais curta Árvore de ramificação mínima
GEOGEBRA COMO FERRAMENTA PARA O ENSINO DE ESTATÍSTICA
Prof. Fernando Lang da Silveira – IF-UFRGS
Instruções para o uso do Excel:
Equações Diferenciais Ordinárias
Prof. Ranildo Lopes - FACET
2ª Aula: Programação Linear
TEMA V Estatística.
Função Profª. Carla S. Moreno Battaglioli
Estatística Aplicada Larson Farber 9 Correlação e regressão.
Estatística Básica AULA Nº. 1 Medidas de Centralização Profº Fábio Tozo.
1 Modelagem Matemática de Sistemas Dinâmicos 3.9. Gráfico de Fluxo de Sinais Linearização de Modelos Prof. André Marcato Livro Texto: Engenharia.
Estatística: Conceitos Básicos
AULA 2 ESTATÍSTICA DANIEL PÁDUA.
O que você deve saber sobre
Dimensões Euclidianas
CORRELAÇÃO Universidade Federal Rural do Rio de Janeiro CPGA-Solos
Função afim: a função geral de 1º grau Módulo 11
Modelagem Matemática de Sistemas Dinâmicos. 3. 9
Site: Estatística Prof. Edson Nemer Site:
Profa. Andréia Adami Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE0211 – Estatística Geral Profa.
Conceituação e Definição de Derivada
Aula Ajuste de Curvas Cap. 6
UNIDADE 8 Analisar os dados -1 Carlos Arriaga Costa
UNIVERSIDADE FEDERAL DO PARANÁ Departamento de Estatística
Taxa de variação - Reta tangente - Derivada
INTRODUÇÃO À ANÁLISE DE REGRESSÃO APLICADA À ENGENHARIA FLORESTAL
Transcrição da apresentação:

Análise Exploratória de Dados R – LIG/08 – maio de 2006

Objetivos Análise de duas variáveis quantitativas: traçar diagramas de dispersão, para avaliar possíveis relações entre as duas variáveis; calcular o coeficiente de correlação entre as duas variáveis; obter uma reta que se ajuste aos dados segundo o critério de mínimos quadrados.

DIAGRAMAS DE DISPERSÃO E CORRELAÇÃO DADOS: Começaremos a aula de hoje trabalhando com dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras (exercício 11 do capítulo 4).

DADOS: Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977. volta

PROBLEMA Será que existe alguma relação entre as variáveis porcentagem da população economicamente ativa no setor primário e índice de analfabetismo? Em caso afirmativo, como quantificar esta relação?

Diagrama de dispersão Vejamos como obter o diagrama de dispersão destes dados usando o R. Primeiro, vamos ler os dados: dados= read.table("http://www.im.ufrj.br/~flavia/aed06/analfab.txt”) names(dados)=c(“RM”,”SP”,”AN”) #comando que fornece nomes para as variáveis

DIAGRAMA DE DISPERSÃO plot(dados$SP, dados$AN, xlab="Porc. da PEA no Setor Primario", ylab="Indice de Analfabetismo", main= "Diagrama de Dispersao”,col=“blue”)

Análise dos dados Você diria que há dependência linear entre estas variáveis? Calcule a correlação entre elas. cor(dados$SP,dados$AN) 0.866561 (0.867)

CORRELAÇÃO Há alguma região com comportamento diferente das demais? Em caso afirmativo, retire-a da base de dados e recalcule a correlação. dados

Porto Alegre dad=matrix(0,7,2) dad[,1]=c(dados[1:5,2],dados[7:8,2]) Retirando os dados da região metropolitana de Porto Alegre temos a seguinte correlação: (observe que Porto Alegre está na linha 6 da base de dados). dad=matrix(0,7,2) dad[,1]=c(dados[1:5,2],dados[7:8,2]) dad[,2]=c(dados[1:5,3],dados[7:8,3]) cor(dad[,1],dad[,2]) 0.9081915 (0.908) porcentagem de variação em relação à correlação inicial: 4,8% (em valor absoluto)

A porcentagem de variação foi calculada da seguinte forma: r é a correlação calculada com base em todas as observações r(i) é a correlação calculada retirando-se a i-ésima observação.

Fortaleza dad[,1]=c(dados[1:7,2]) dad[,2]=c(dados[1:7,3]) cor(dad[,1],dad[,2]) 0.8581972 (0.858) porcentagem de variação em relação à correlação inicial: 0,96% (em valor absoluto)

Recife dad[,2]=c(dados[1:6,3],dados[8,3]) cor(dad[,1],dad[,2]) 0.9158657 (0.916) porcentagem de variação em relação à correlação inicial: 5,7% (em valor absoluto)

Salvador dad[,1]=c(dados[1:4,2],dados[6:8,2]) cor(dad[,1],dad[,2]) 0.8822678 (0.882) porcentagem de variação em relação à correlação inicial: 1,8% (em valor absoluto)

Resumo RM retirada variação % Porto Alegre 4,8 Fortaleza 0,96 Salvador 1,8 Recife 5,7

Comentários As regiões metropolitanas que mais influenciaram no valor da correlação foram Porto Alegre e Recife. Porto Alegre tem um comportamento diferente, pois sua taxa de analfabetismo é pequena comparada a sua PEA e as demais regiões.

Comentários Recife, ao contrário, tem uma taxa de analfabetismo alta demais comparada a sua PEA e as demais regiões. Fortaleza, apesar de ser um ponto afastado dos demais, mantém o padrão da maior parte dos pontos.

Gráficos de ilustração

Gráficos de ilustração

Gráficos de ilustração

Cuidados na interpretação Uma correlação alta (próxima de 1 ou -1) pode indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma reta. Pode haver variáveis cuja correlação é próxima de 1 (ou -1), mas, na verdade, não são diretamente relacionadas. (correlação espúria) Uma correlação zero ou próxima de zero indica ausência de linearidade, podendo significar ausência de relação entre as variáveis ou outro tipo de dependência entre elas.

Exemplo dados= read.table("http://www.im.ufrj.br/~flavia/aed06/relquadratica.txt", header=T) cor(dados$x,dados$y) Observe que existe relação de dependência entre x e y, porém essa. relação NÃO é linear.

Exemplo 2: notas versus faltas O arquivo nota1.txt contém as 38 notas na prova 1 de AED e o total de faltas. Calcule a correlação entre essas variáveis. notas=read.table(http://www.im.ufrj.br/~flavia/aed06/nota1.txt,header=T) cor(notas$falta,notas$nota1) -0.44

Diagrama de dispersão de faltas versus nota 1 em AED

Correlação: Cuidados na interpretação Uma correlação amostral entre duas variáveis próxima de 1 ou -1 pode só indicar que as variáveis crescem no mesmo sentido (ou em sentidos contrários), e não que, aumentos sucessivos em uma, acarretarão aumentos sucessivos (ou diminuições sucessivas) na outra.

Reta de mínimos quadrados Quando as variáveis em análise são altamente correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de mínimos quadrados). Em geral, uma das variáveis é considerada como variável que pode ser controlada de alguma forma variável explicativa (independente - preditora) e a outra, sobre a qual deseja-se fazer previsões, é chamada variável resposta (dependente).

EXEMPLO 3: Fonte: http://lib.stat.cmu.edu/DASL/ Trabalharemos com uma base de dados sobre o hábito de fumar e mortalidade por câncer de pulmão.

Exemplo 3 (cont.) Descrição: Os dados sumariam um estudo entre homens distribuídos em 25 grupos classificados por tipo de ocupação na Inglaterra. Dois índices são apresentados para cada grupo.

Exemplo 3: variáveis índice de fumo: razão do número médio de cigarros fumados por dia por homem no particular grupo de ocupação sobre a média global de cigarros fumados por dia, calculada levando-se em contas todos os homens. (média do grupo sobre média global) índice de mortalidade: razão da taxa de mortes causadas por câncer de pulmão entre os homens de um particular grupo de ocupação sobre a taxa global de mortes por câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre taxa global) Número de observações: 25

Fumo versus câncer Nomes das variáveis: 1. Grupo de ocupação: grupo 2. Índice de fumo: ifumo (100 = base) ifumo=100: número médio de cigarros por dia para o grupo é igual ao número médio global de cigarros fumados por dia. ifumo>100 indica grupo que fuma em média mais que o geral; ifumo<100, grupo que fuma em média menos que o geral.

Fumo versus câncer 3. Índice de Mortalidade: imorte (100 = base) imorte=100, número médio de mortes por câncer de pulmão para o grupo é igual ao número médio global de mortes por câncer de pulmão. imorte>100 indica grupo com incidência de mortes por câncer de pulmão maior que o geral; imorte<100, incidência menor que o geral. arquivo: fumo.txt em www.im.ufrj.br/~flavia/aed06/

Fumo versus câncer Analise estes dados avaliando se há relação entre estes índices. Construa o diagrama de dispersão e calcule a correlação.

abline Para inserir as retas tracejadas em x=100 e em y=100 após ter construído o diagrama, use os comandos: abline(h=100,lty=2) abline(v=100,lty=2)

Indice de fumo versus mortalidade por câncer de pulmão A partir do diagrama de dispersão é possível perceber claramente uma correlação positiva entre as duas variáveis em análise. cor(dados$ifumo,dados$imorte) [1] 0.7162398 No contexto deste exemplo faz sentido prever o índice de mortalidade por câncer de pulmão num particular grupo, dado o índice de fumo do grupo.

Reta de mínimos quadrados O comando no R que calcula os coeficientes da reta de mínimos quadrados é lm(...), de linear model. No caso específico deste exemplo podemos pedir reta=lm(dados$imorte~dados$ifumo)

Reta de mínimos quadrados Obtém-se Coefficients: (Intercept) dados$ifumo -2.885 1.088 É o coeficiente angular da reta de mínimos quadrados É o coeficiente linear da reta de mínimos quadrados Modelo ajustado: Indice de morte=-2.885+1.088x(indice de fumo)

Gráfico da reta obtida Para inserir o gráfico da reta obtida no ajuste de mínimos quadrados no diagrama de dispersão dos pontos, basta, após obter o diagrama de dispersão, pedir abline(reta$coefficients)

points Para inserir o ponto médio no gráfico use o comando: points(mean(dados$ifumo),mean(dados$imorte),pch=“*”,col=“red”,cex=2)

Comentários Depois de proposto um modelo é fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo. Apenas após a etapa de validação e a escolha do modelo é que podemos partir para a etapa de previsões.

Valores ajustados Após ajustar a reta, usando a função lm várias informações ficam disponíveis, entre elas os valores ajustados da variável resposta pela reta obtida. reta$fitted (#usando reta=lm(dados$imorte~dados$ifumo fornece os valores ajustados)

Resíduos Resíduos da reta de mínimos quadrados: reta$residuals O resíduo do modelo é definido pela diferença entre O valor observado da variável resposta e o valo Ajustado pelo modelo. Resíduos da reta de mínimos quadrados: reta$residuals round(reta$residuals,digits=2) 1 2 3 4 5 6 7 8 9 10 11 3.15 -30.11 -1.36 28.66 31.73 -7.04 0.17 14.74 11.18 -20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78 -27.48 -22.92 23.99 22.26 -20.06 4.24 5.82 3.69 -12.73 -11.08 23 24 25 14.13 -19.77 -17.89

Análise dos resíduos Ramo-e-folhas dos resíduos: -2 | 073000 > stem(round(reta$residuals,digits=2)) -2 | 073000 -0 | 83171 0 | 0344681459 2 | 2492 Também avaliamos o histograma, e o gráfico dos resíduos versus os valores ajustados.

Valores ajustados round(reta$fitted,digits=2) Valores ajustados da reta de mínimos quadrados: reta$fitted round(reta$fitted,digits=2) 80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74 133.06 141.76 122.18 111.31 91.73 96.08 105.87 79.77 68.89

Critério de mínimos quadrados Como são obtidos os coeficientes da reta de mínimos quadrados? Nossos dados podem ser pensados como uma coleção bivariada: Foi considerado adequado o modelo para explicar .

Critério de mínimos quadrados Critério de Mínimos quadrados: escolha  e  de tal maneira que seja minimizada a soma de quadrados dos resíduos:

Critério de mínimos quadrados Solução: Coeficiente de inclinação da reta Coeficiente linear da reta (intercepto)

Resumo: lista de novas funções cor: calcula a correlação; lm: ajusta a reta de mínimos quadrados; abline: insere uma reta num plot; points: insere pontos(x,y) num plot; round(x,digits=n); arredonda os valores em x para n casas decimais.