Descrição Bivariada Comparando Duas Distribuições

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Estatística amintas paiva afonso.
Deve ser selecionado o modo
Prof. Darlan Marcelo Delgado
ANÁLISES DE REGRESSÃO.
Analise de Regressão Parte 2.
MÉTODOS QUANTITATIVOS
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
Geoestatística Aplicada à Agricultura de Precisão I
Cássio Luís Fernandes de Oliveira
Análise de Resposta em Freqüência Introdução. 8. 2
ESTIMAÇÃO.
REGRESSÃO LINEAR. O coeficiente de correlação não mede a relação causa-efeito entre duas variáveis, apesar de que essa relação possa estar presente. Por.
Geoestatística Aplicada à Agricultura de Precisão II
Geoestatística Aplicada à Agricultura de Precisão I
MB751 – Modelos de previsão
Métodos Quantitativos
Análise de Dados.
Modelamento e Estimativa
Estatística e Probabilidade
Análise Exploratória dos Dados
BIO Métodos Quantitativos Aplicados à Ecologia
Profª. Sheila Regina Oro
Métodos Numéricos Computacionais
Estatística e Probabilidade
Econometria Aula 3 – 27/9/2013.
MBA em Gestão de Empreendimentos Turísticos
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Aula 6 - Método não-experimental ou de seleção não-aleatória
Estimativa por Krigagem
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Regressão Camilo Daleles Rennó
Professor Antonio Carlos Coelho
Estatística Aula 06 Representação gráfica de uma distribuição
Descrição Espacial Medidas de Continuidade.
Regressão Linear.
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Análise Descritiva de Dados
Medidas de localização
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Interpolação e Ajuste de Curvas
Tipos de Previsão Qualitativa Série Temporais Causal Método Delphi
Modelagem e Estimativa
Há cinco padrões básicos da maioria das séries temporais de demanda.
Professor Antonio Carlos Coelho
Regressão e Previsão Numérica.
Medidas de Dispersão O que é dispersão?
análise dos estimadores
7 Ajuste de Curvas UFSC.PósMCI.FME.Ajuste de curvas. (11.1)
Regressão.
Disciplina Engenharia da Qualidade II
Separatrizes Quartis Decis Percentis TIPOS:
Sobre Geoestatística e Mapas. (Paulo M. Barbosa Landim)
PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA
DISTRIBUIÇÕES DE PROBABILIDADE
Associação entre duas variáveis: análise bidimensional
Metodologia da Pesquisa em Ensino de Ciências I
Estatística e Probabilidade
Distribuição Normal de Probabilidade
PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –
Regressão Linear Simples
Correlação e regressão
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Correlação Análise do grau de relacionamento entre duas variáveis quantitativas.
Experimentação e Instrumentação Regressão Linear e Múltipla
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
LINEARIDADE Kamila Dias Nayara Rayanne Pereira Renata Fernandes Solange Araújo.
Regressão Linear (aula 14 – Parte 2).
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Transcrição da apresentação:

Descrição Bivariada Comparando Duas Distribuições Eng. de Minas João Felipe C.L. Costa Prof. Dr. do DEMIN/PPGEM, UFRGS Eng. de Minas Luis Eduardo de Souza Doutorando do PPGEM, UFRGS

Estrutura da Apresentação Introdução Gráficos q-q plot Scatterplots Histogramas Correlação Regressão Distribuição condicional

Introdução Na análise de bancos de dados, freqüentemente se torna necessário comparar duas distribuições, de maneira a medir seu grau de associação. A apresentação dos histogramas com seus respectivos sumários estatísticos vai revelar apenas a existência de diferenças mais evidentes. Infelizmente, se as duas distribuições são muito parecidas, este método de comparação não será útil na descoberta de diferenças mais sutis entre as distribuições. Dessa forma, o propósito básico dessa apresentação é apresentar ferramentas que permitam entender melhor o comportamento de dois conjuntos de valores e tornar possível fazer algum tipo de predição, usando uma variável para conhecer a outra.

Mapa de localização de 100 amostras extraídas do banco de dados Walker Lake, com valores de V e U, acima e abaixo do símbolo, respectivamente.

Os histogramas e os sumários estatísticos dos valores de V e U apresentam apenas as principais diferenças entre as distribuições das duas variáveis: a distribuição de U apresenta assimetria positiva, enquanto V tem assimetria negativa; os valores de V são geralmente maiores que os de U, com um valor médio cinco vezes maior do que o de U; a mediana e o desvio padrão de V são também maiores do que os de U.

Gráficos q-q plot Uma comparação mais completa pode ser obtida pela análise dos quantis de diversas freqüências acumuladas. Para uma boa comparação visual das duas distribuições, faz-se uso de um gráfico chamado q-q plot, onde os quantis de uma distribuição são plotados contra os quantis da outra. Freqüência Quantil Acumulada V U 0.05 48.1 3.1 0.10 70.2 7.0 ... ... ... 0.25 81.3 14.0 0.75 116.8 25.0

Um q-q plot de duas distribuições idênticas deve ser plotado como uma reta do tipo x = y; Para distribuições muito similares, os desvios da reta x = y mostram onde as distribuições são diferentes; Se o q-q plot de duas distribuições puder ser aproximado por uma reta diferente de x = y, as duas distribuições tem a mesma forma mas suas localizações e espalhamento podem diferir; A similaridade de uma distribuição observada para um modelo de distribuição teórico também pode ser analisada utilizando um gráfico do tipo q-q plot. Por exemplo, plotando os quantis de V contra os quantis de uma distribuição normal ou lognormal padrão.

Scatterplots A forma mais comum de apresentar dados bivariados é no gráfico de dispersão ou scatterplot, um gráfico do tipo x-y no qual o eixo x corresponde aos valores de uma variável e a coordenada y aos valores da outra variável.

Apesar de haver um espalhamento na nuvem de pontos, os valores altos de V tendem a estar associados com valores altos de U da mesma forma que os valores baixos de V estão associados com os valores baixos de U; Além de fornecer uma idéia qualitativa de como as duas distribuições estão relacionadas, o scatterplot é útil para chamar atenção sobre dados discrepantes; Em caso de distribuições altamente assimétricas, recomenda-se o uso de dois scatterplots, um mostrando detalhes perto da origem e outro a relação geral; O uso de escala logarítmica nos dois eixos permite mostrar adequadamente toda a distribuição em um único gráfico.

Histogramas As informações de um scatterplot podem ser sumarizadas contando o número de pares de amostras que caem em uma certa classe, definida pelos limites das duas variáveis.

Em um histograma bivariado as distribuições univariadas de cada variável podem ser calculadas somando o número de ocorrências ao longo de colunas e linhas. Histogramas marginais.

Correlação De forma simplificada, há três padrões que podem ser observados entre as variáveis em um scatterplot: correlação positiva; correlação negativa; ausência de correlação. O coeficiente de correlação () é o parâmetro estatístico mais freqüentemente utilizado para sumarizar a relação entre duas variáveis e é calculado por:

O numerador da equação do coeficiente de correlação () é chamado de covariância: A covariância entre duas variáveis depende da magnitude dos valores dos dados. Se todos os pares de dados V-U forem multiplicados por 10, enquanto o scatterplot vai permanecer com o mesmo aspecto (apenas com os eixos re-escalonados), a covariância será 100 vezes maior.

Alta covariância positiva: Covariância próxima de zero: Grande covariância negativa:

Dividindo a covariância pelo desvio padrão das duas variáveis, garante-se que o coeficiente de correlação estará sempre entre -1 e +1, fornecendo um índice que é independente da magnitude dos valores dos dados.

Freqüentemente chamado na literatura estatística de coeficiente de correlação de Pearson, o coeficiente de correlação () apresenta algumas deficiências: é uma medida de dependência linear entre duas variáveis; é sensível a pontos que plotem afastados da nuvem principal de pontos.

Utilizado para complementar a informação fornecida pelo coeficiente de correlação linear, o coeficiente de correlação de rank (R) ou coeficiente de correlação de Spearman é calculado por: x y rank de x rank de y 0.5 100 3 3 0.1 10 1 1 0.9 120 5 4 0.7 400 4 5 0.3 90 2 2  = 0.563 rank = 0.904

Existe correlação (monotônica), porém não necessariamente linear; Alguns poucos pares de valores extremos podem arruinar uma possível boa correlação; Alguns poucos pares de valores extremos podem levar a uma falsa idéia de existir uma boa correlação.

Regressão Como foi salientado anteriormente, uma forte relação entre duas variáveis pode ajudar-nos a inferir uma variável desde que a outra seja conhecida. A forma mais simples para executar esse tipo de previsão é a regressão linear, na qual assumimos que a dependência de uma variável em função da outra pode ser descrita pela equação da reta do tipo: Os coeficientes a e b são obtidos pelo método dos Mínimos Quadrados (a reta ajustada aos pontos do mapa de dispersão (x versus y) visa minimizar a soma dos quadrados dos erros, sendo erro a diferença entre o valor real e a estimativa de Y). x e y = valores dos atributos X e Y. Por exemplo, teor de cobre (X) e teor de ouro (Y)

O ângulo de inclinação, a, e a constante, b, são dados por: ou n – número de dados usados na regressão mx – média de x my – média de y r – coeficiente de correlação

Se usarmos os 100 pares de valores de V-U para calcular a equação de regressão linear para prever os valores de V a partir de U, teremos:

Intervalo de Confiança Para o Valor de Y Anteriormente, foi obtida a estimativa (y’) do atributo Y, considerando o valor do atributo X, em um mesmo local. Considerando a estimativa y’ e o possível erro associado à essa estimativa, pode-se determinar o intervalo que contém o verdadeiro valor de Y. A seguinte equação define o intervalo que contém o valor real de Y, com uma confiança de 100(1-)% x = valor de X utilizado na regressão t = distribuição t-student onde: S2y/x é a variância do erro da regressão Suposição: Para um dado valor x, a distribuição dos possíveis valores de Y é normal

Mesmo exemplo usando 100 pares de U e V No exemplo: Confiança de 95% A largura do intervalo de confiança varia com o x utilizado na regressão. Essa largura é mínima quando o x é igual à média de X

Continuando com a teoria sobre regressão... Quando utiliza-se regressões para sumarizar a relação de duas variáveis, deve-se atentar se a curva da função ajustada descreve adequadamente a relação em faixas de valores que nos interesse.

Embora saiba-se que um polinômio de ordem elevada sempre proverá um melhor ajuste no sentido puramente matemático, deve-se atentar se a curva da função ajustada descreve adequadamente a relação física esperada entre as duas variáveis. Algumas vezes pode-se estar somente representando peculiaridades dos dados disponíveis sem nenhum sentido prático/físico

Distribuição condicional

Em caso de termos que analisar um número grande de histogramas condicionais, todos com o sumário estatístico completo, faz-se útil uma ferramenta de análise mais concisa, usar gráficos mostrando como as estatísticas condicionais mudam em função dos dados condicionantes.

Gráficos de estatísticas condicionais podem ser sumarizados ajustando uma função a ele. Embora a regressão seja comumente utilizada para sumarizar as variações da média de uma das variáveis, na medida que um segundo atributo varia, outras estatísticas também podem ser calculadas usando o mesmo procedimento (desvio padrão, por exemplo).