Análise Preliminar dos Dados

Slides:



Advertisements
Apresentações semelhantes
A CARTOGRAFIA TEMÁTICA E A ESTATÍSTICA
Advertisements

Teste de aderência Aula 07 Prof. Christopher Freire Souza
Estatística Básica Utilizando o Excel
Universidade Federal de Campina Grande – UFCG Centro de Ciências e Tecnologia – CCT Departamento de Engenharia Civil - DEC ESTATÍSTICA APLICADA A HIDROLOGIA.
Capítulo 5 Medidas Descritivas.
ALGUMAS MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
XII Reunião Anual de Registros de Câncer
Análise de Dados.
Estatística Descritiva
ESTATÍSTICA: O estudo numérico dos fatos sociais
Estatística e Probabilidade
Probabilidade e estatística-Mat013
MBA em Gestão de Empreendimentos Turísticos
Estatística Descritiva
ESTATÍSTICA DESCRITIVA
Passo 4: Definição do número de classes
ESTATÍSTICA DECRITIVA
SÉRIES ESTATÍSTICAS TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. De acordo com a Resolução.
CLASSES: SÃO INTERVALOS DE VARIAÇÃO DA VARIÁVEL.
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Descrição e Apresentação de Dados
Estatística Aula 06 Representação gráfica de uma distribuição
Análise Descritiva de Dados
Medidas de localização
CURSO DE ARQUIVOLOGIA CCBSA - UEPB – Campus V
Estudo dos gráficos Objetivos: Como construir um gráfico.
Estatística Descritiva
Aula 14: Distribuição normal Prof. Diovani Milhorim
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
MEDIDAS DE VARIABILIDADE, ASSIMETRIA E CURTOSE
Estatística Descritiva
Medidas Descritivas ESTATISTICA Aula 5 PROF: CÉLIO SOUZA.
Aula 8A ESTATÍSTICA E PROBABILIDADE
ESTATÍSTICA AULA 04.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Definição de Estatística
Medidas Estatísticas.
Estudo dos gráficos Objetivos: Como construir um gráfico.
Separatrizes Quartis Decis Percentis TIPOS:
Estatística Descritiva
Climatologia II – ACA226 Prof. Humberto Rocha
Séries Estatísticas FAPAN - Faculdade de Agronegócio de Paraíso do Norte Disciplina: Estatística Aplicada.
BIOESTATÍSTICA Profª. Lúcia Helena Sagrillo Pimassoni Unidade 3
Tabela de frequência: Consiste num resumo onde é listado as respostas a uma pergunta e o número de vezes que a mesma foi citada. Exemplo: Qual a profissão.
Noções de Estatística - I
Associação entre duas variáveis: análise bidimensional
Medidas de posição e de dispersão
Metodologia da Pesquisa em Ensino de Ciências I
IV - Descrição e Apresentação dos Dados
Análise Exploratória de Dados
Descrição Bivariada Comparando Duas Distribuições
Estatística Descritiva
Probabilidade Análise Exploratória de Dados: Medidas de Centro
É o conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A Bioestatística fornece métodos para decisões,
PLANEJAMENTO EXPERIMENTAL
MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO
Albertazzi.Tratamento de Dados.Descritores (1.1) Tratamento de Dados 1.
MEDIDAS DE POSIÇÃO MÉDIAS MODA MEDIANA QUARTIS PERCENTIS.
Variância A variância baseia-se nos desvios em torno da média aritmética, porém determinando a média aritmética dos quadrados dos desvios (lembremos que.
ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA
CEPZ1 – 2015 – AULA 06 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Distribuição. de freqüência
Aula 5 Bioestatística. Estatísticas para uma variável.
Módulo 1 Estatística Básica.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Distribuição de freqüências
Estatística Aplicada à Administração Prof. Alessandro Moura costa UNIVERSIDADE FEDERAL DO PAMPA BACHARELADO EM ADMINISTRAÇÃO DE EMPRESAS.
Marcos Antonio Estremote – Aula 2.  Estatística Descritiva:  Resumo ou descrição das características importantes de um conjunto conhecido de dados populacionais.
Utiliza-se a MoP para a análise da assimetria
MEDIDAS DE LOCALIZAÇÃO E DISPERSÃO
Transcrição da apresentação:

Análise Preliminar dos Dados Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas www.ctec.ufal.br/professor/cfs

Análise Preliminar dos Dados Objetivo Compreensão e descrição dos dados a partir da organização, resumo e elaboração de gráficos e estimação de estatísticas.

Características importantes dos dados Análise Preliminar dos Dados Características importantes dos dados Centro: indica o meio do conjunto de dados Variação: indica quanto os dados variam em relação ao centro Distribuição: indica a forma Outliers ou valores discrepantes: indica valores amostrais que se localizam muito longe da grande maioria Tempo: variação dos valores com o tempo

Análise Preliminar dos Dados Resumos e Gráficos Estatísticas Análise Exploratória de Dados

Resumos e Gráficos Distribuição de freqüência Histogramas Análise Preliminar dos Dados Resumos e Gráficos Distribuição de freqüência Histogramas Histogramas polares Polígono de freqüência Ogiva Gráfico de Pareto Diagramas de dispersão Gráficos de séries temporais Criação de gráficos estatísticos (Curva de permanência e gráfico polar)

Resumos e Gráficos (Distribuição de freqüência) Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) Para n>20, agrupa-se os dados em classes, sendo a freqüência o número de valores em cada classe. Definições: Limites inferiores de classe: menores números que podem pertencer a cada classe. Ex. ...,21; 31; 41;... Limites superiores de classe: maiores números que podem pertencer a cada classe. Ex. ...,30; 40; 50;... Fronteiras de classe: números usados para separar as classes. Ex. ...,30,5; 40,5; 50,5;... Ponto médio de classe: média aritmética dos limites de cada classe. Ex. ...,35,5; 45,5; 55,5;... Amplitude de classe: diferença entre limites inferiores de classe consecutivos. Ex. 31-21=10. Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 71-80

Resumos e Gráficos (Distribuição de freqüência) Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) Procedimento para elaboração de tabelas de distribuição de freqüência: Definir números de classe, recomendando-se um número entre 5 e 20, definido por conveniência. Ex. para dados cujos valores variam entre 20 e 100, aplicar 8 classes. Calcular a amplitude dos dados e arredondar o número de classes para cima. Definir ponto inicial (limite inferior da 1ª classe): valor mínimo ou inferior. Definir outros limites inferiores. Definir limites superiores (possibilidade de intervalos abertos). Calcular freqüências (realizar contagem) Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 71-80 Mesmo procedimento para freqüência relativa ou acumulada

Resumos e Gráficos (Histogramas) Análise Preliminar dos Dados Resumos e Gráficos (Histogramas) Versão gráfica da tabela de freqüências. MATLAB: hist Vazões médias anuais no rio Paraná na UHE Itaipú

Resumos e Gráficos (Histogramas polares) Análise Preliminar dos Dados Resumos e Gráficos (Histogramas polares) Histogramas em eixos polares, onde as classes são apresentadas no eixo angular e as freqüências no eixo radial. MATLAB: rose

Resumos e Gráficos (Polígono de freqüência) Análise Preliminar dos Dados Resumos e Gráficos (Polígono de freqüência) Segmentos de retas que conectam pontos médios da parte superior de barras de freqüência de classe, estendidos à esquerda e à direita para alcançar o eixo horizontal.

Resumos e Gráficos (Ogiva) Análise Preliminar dos Dados Resumos e Gráficos (Ogiva) Gráficos de linhas que representam freqüência acumulada de não-excedência. O gráfico intercepta valores das fronteiras de classes, iniciando da fronteira inferior da primeira classe e terminando na fronteira superior da última classe.

Resumos e Gráficos (Gráfico de Pareto) Análise Preliminar dos Dados Resumos e Gráficos (Gráfico de Pareto) Gráfico de barras para dados qualitativos, sendo as barras ordenadas em função dos valores de freqüência de maneira decrescente. Recomenda-se a aplicação de gráficos de Pareto em vez de gráficos de setores (i.e. pizza). MATLAB: pareto

Resumos e Gráficos (Diagramas de dispersão) Análise Preliminar dos Dados Resumos e Gráficos (Diagramas de dispersão) Gráfico de pares de dados, útil à análise de relação/associação entre variáveis. MATLAB: scatter

Resumos e Gráficos (Gráficos de séries temporais) Análise Preliminar dos Dados Resumos e Gráficos (Gráficos de séries temporais) Gráfico onde as informações de uma variável são representadas no eixo das ordenadas com seus pares equivalentes ao momento/tempo de ocorrência no eixo das abcissas. MATLAB: plot

Resumos e Gráficos (Criação de gráficos estatísticos) Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Oportunidade para apresentar dados importantes e interessantes de maneira eficaz Princípios para criação de gráficos (Tufte apud Triola pg 50) P/ pequena quantidade de dados, use tabela Foco nos dados. Ilustração não deve distrair o leitor. Gaste a tinta de impressão nos dados. Não distorcer os dados. Não use áreas e volumes para informação unidimensional. Não usar linhas inclinadas, pontos ou quadriculados (hachuras), pois criam desconfortável ilusão de movimento.

Resumos e Gráficos (Criação de gráficos estatísticos) Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Curva de permanência Freqüência acumulada de excedência de valores Procedimento: Ordena dados de forma decrescente Calcula a % de excedência pela razão da ordem de cada registro pela quantidade de dados Gráfico das vazões ordenadas contra a % de excedência

Resumos e Gráficos (Criação de gráficos estatísticos) Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Gráfico polar Apresenta dados em coordenadas polares, onde o eixo radial é a magnitude e o angular a direção ou a data. MATLAB: polar

Estatísticas Medidas de centro Medidas de variação Análise Preliminar dos Dados Estatísticas Medidas de centro Medidas de variação Medidas de forma (posição relativa) Medidas de associação entre variáveis

Análise Preliminar dos Dados Estatísticas Quantis: dividem a amostra ordenada de dados em grupos com aproximadamente o mesmo número de dados 99 percentis - divisão em 100 partes 3 quartis – divisão em 4 partes

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Percentil Percentis dividem os valores ordenados em 100 partes iguais. Assim, existem 99 percentis. Para calcular o percentil a que um valor xi corresponde, aplica-se: onde n é o tamanho da amostra.

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Percentil Para calcular o valor x para um percentil específico, aplica-se aos dados ordenados: onde L é o percentil que se deseja estimar. Caso i não seja exato, o valor de x referente ao percentil em análise será o da posição maior inteiro mais próximo de i. Caso i seja exato, estima-se o percentil a partir da média entre os valores de xi e xi+1 MATLAB: prctile Como em curvas de permanência a ordem dos dados é decrescente, PL=Q(100-L). Ex. P10=Q90

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Quartil Percentil que divide os dados em quartos. Q1=P25; Q2=P50 ; Q3=P75

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Ponto Médio Mediana Moda Média Média aparada

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Ponto Médio = (min+max)/2 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Ponto médio = (1+36)/2 = 18,5

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Mediana Valor do meio da amostra, para dados ordenados em função de seus valores MATLAB: median Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Mediana = 12,5

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Média onde n é o número de dados, i.e., o tamanho da amostra, fi é a freqüência (número de observações) de ocorrência do valor xi. MATLAB: mean Por exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36] Média = (1+3+6+21+28+36).1/8+15.2/8 = 15,625

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Média aparada Cálculo da média da parcela central (100-x)% da amostra ordenada em função de seus valores. MATLAB: trimmean Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Média aparada em 0% = 15 Média aparada em 25% = 13,83 Média aparada em 50% = 13

Estatísticas (Medidas de centro) Análise Preliminar dos Dados Estatísticas (Medidas de centro) Moda Valor que ocorre mais freqüentemente MATLAB: mode Simetria da distribuição dos dados: média=moda=mediana

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Amplitude Desvio médio absoluto Desvio padrão Variância Coeficiente de variação Intervalo interquartil Intervalo percentílico

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Amplitude = max-min MATLAB: range Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Amplitude = (36-1) = 35

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Intervalo interquartil = Q3-Q1 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Intervalo interquartil = 24,5 - 4,5 = 20

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Intervalo percentílico = P90-P10 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Intervalo percentílico = 36 - 1 = 35

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio médio absoluto MATLAB: mad Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], média=15 Desvios |xi-media|=[14,12,9,5, 0, 6, 13, 21] Desvio médio absoluto = 10

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Variância Estimador da dispersão em relação à média a partir dos quadrados dos valores observados MATLAB: var Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] var = 156

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Graus de liberdade: número de valores escolhidos livremente antes que os demais sejam determinados. Por exemplo, para a amostra [10, 13, 15, 18] Conhecida a média (14) e outros n-1 dados, chega-se ao n-ésimo. Logo, número de graus de liberdade = n-1

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio padrão Desvio médio dos valores em relação à média MATLAB: std Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Desvios (xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21] Quadrados (xi-media)²=[196,144,81,25,0,36,169,441] Soma dos Quadrados = 1092 Desvio padrão =12,49

Graus de Liberdade Christopher Souza: Análise Preliminar de Dados Amostra Média Mediana Amp. Var.(n-1) Std(n-1) Var.(n) std(n) 1,1 1,0 0,0 1,2 1,5 1 0,5 0,707 0,25 3,0 4 8,0 2,828 2 2,1 2,2 2,0 2,5 3,5 3 4,5 2,121 2,25 5,1 5,2 5,5 5,0 Média amostral 8/3 16/9 26/9 1,3 1,44 0,89 Parâmetro 1,7 2,89 População: 1, 2, 5

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio padrão Dispersão típica (Regra empírica da amplitude) Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Desvio padrão ≈ (36 – 1)/4 = 8,75

Estatísticas (Medidas de variação) Análise Preliminar dos Dados Estatísticas (Medidas de variação) Coeficiente de variação Estimador adimensionalizado da dispersão de valores em relação à média de maneira a permitir comparações entre populações. Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Cv=83,27%

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Escore z Quartil Percentil Simetria/Assimetria Curtose

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Escore z Número de desvios padrão a que se situa o valor “i” da amostra, acima ou abaixo da média. Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Simetria/Assimetria Coeficiente que descreve quanto a maior parte dos dados se encontra afastada da média. O coeficiente analisa o desvio em relação à média na 3a potência. MATLAB: skewness Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] assimetria=0,5

Estatísticas (Medidas de forma / posição relativa) Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Curtose Coeficiente que descreve quanto os valores mais extremos se afastam da média. O coeficiente descreve o desvio em relação à média na 4a potência. MATLAB: kurtosis Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Curtose = 1,95

Estatísticas (Medidas de associação entre variáveis) Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação linear de Pearson Mede a intensidade da relação linear entre os valores quantitativos emparelhados de amostras de duas variáveis (‘x’ e ‘y’) MATLAB: corrcoef

Estatísticas (Medidas de associação entre variáveis) Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação linear de Pearson = 0,7036 Bacia do rio Acaraú-CE (semi-árido; 1560 km²)

Christopher Souza: Teste de hipóteses Postos Número atribuído a um item da amostra de acordo com sua posição na lista ordenada. Em caso de empates, aplica-se a média dos postos como valor de posto de cada item com igual valor Ex: x: [12 10 5 5 4 5 11 12] xo: [4 5 5 5 10 11 12 12] io: [1 3 3 3 5 6 7,5 7,5] i: [7,5 5 3 3 1 3 6 7,5]

Estatísticas (Medidas de associação entre variáveis) Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação de postos de Spearman Mede a associação das magnitudes de duas variáveis a partir das posições dos valores ordenados por amostra (‘x’ e ‘y’) onde d é a diferença entre as posições dos correspondentes x e y. MATLAB: corr Spearman = 0,7143

Análise Exploratória de Dados Análise Preliminar dos Dados Análise Exploratória de Dados Outliers Diagrama de caixa

Análise Exploratória de Dados (Outliers) Análise Preliminar dos Dados Análise Exploratória de Dados (Outliers) Outlier - dado cujo valor se localiza muito afastado de quase todos os demais valores da amostra. Outliers podem ser valores atípicos reais ou um dado errado/inexistente. Outliers podem afetar significativamente os valores de estatísticas como a média e outras dela dependentes (e.g. desvio padrão, c.v.), bem como, na definição de classes em estudos de freqüência e em gráficos. Se um outlier for um dado real, deve-se estudar a série com e sem o outlier. Uma técnica usual para detecção de outliers é comparar valores com 1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.

Análise Exploratória de Dados (Diagrama de caixa) Análise Preliminar dos Dados Análise Exploratória de Dados (Diagrama de caixa) Representação gráfica do resumo dos cinco números (mínima, Q1, mediana, Q3 e máxima). Ótimo para comparação de duas ou mais amostras. Outliers podem ser representados. MATLAB: boxplot