A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise Preliminar dos Dados

Apresentações semelhantes


Apresentação em tema: "Análise Preliminar dos Dados"— Transcrição da apresentação:

1 Análise Preliminar dos Dados
Aula 02 Prof. Christopher Freire Souza Centro de Tecnologia Universidade Federal de Alagoas

2 Análise Preliminar dos Dados
Objetivo Compreensão e descrição dos dados a partir da organização, resumo e elaboração de gráficos e estimação de estatísticas.

3 Características importantes dos dados
Análise Preliminar dos Dados Características importantes dos dados Centro: indica o meio do conjunto de dados Variação: indica quanto os dados variam em relação ao centro Distribuição: indica a forma Outliers ou valores discrepantes: indica valores amostrais que se localizam muito longe da grande maioria Tempo: variação dos valores com o tempo

4 Análise Preliminar dos Dados
Resumos e Gráficos Estatísticas Análise Exploratória de Dados

5 Resumos e Gráficos Distribuição de freqüência Histogramas
Análise Preliminar dos Dados Resumos e Gráficos Distribuição de freqüência Histogramas Histogramas polares Polígono de freqüência Ogiva Gráfico de Pareto Diagramas de dispersão Gráficos de séries temporais Criação de gráficos estatísticos (Curva de permanência e gráfico polar)

6 Resumos e Gráficos (Distribuição de freqüência)
Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) Para n>20, agrupa-se os dados em classes, sendo a freqüência o número de valores em cada classe. Definições: Limites inferiores de classe: menores números que podem pertencer a cada classe. Ex. ...,21; 31; 41;... Limites superiores de classe: maiores números que podem pertencer a cada classe. Ex. ...,30; 40; 50;... Fronteiras de classe: números usados para separar as classes. Ex. ...,30,5; 40,5; 50,5;... Ponto médio de classe: média aritmética dos limites de cada classe. Ex. ...,35,5; 45,5; 55,5;... Amplitude de classe: diferença entre limites inferiores de classe consecutivos. Ex =10. Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 71-80

7 Resumos e Gráficos (Distribuição de freqüência)
Análise Preliminar dos Dados Resumos e Gráficos (Distribuição de freqüência) Procedimento para elaboração de tabelas de distribuição de freqüência: Definir números de classe, recomendando-se um número entre 5 e 20, definido por conveniência. Ex. para dados cujos valores variam entre 20 e 100, aplicar 8 classes. Calcular a amplitude dos dados e arredondar o número de classes para cima. Definir ponto inicial (limite inferior da 1ª classe): valor mínimo ou inferior. Definir outros limites inferiores. Definir limites superiores (possibilidade de intervalos abertos). Calcular freqüências (realizar contagem) Idade Freqüência 21-30 28 31-40 30 41-50 12 51-60 2 61-70 71-80 Mesmo procedimento para freqüência relativa ou acumulada

8 Resumos e Gráficos (Histogramas)
Análise Preliminar dos Dados Resumos e Gráficos (Histogramas) Versão gráfica da tabela de freqüências. MATLAB: hist Vazões médias anuais no rio Paraná na UHE Itaipú

9 Resumos e Gráficos (Histogramas polares)
Análise Preliminar dos Dados Resumos e Gráficos (Histogramas polares) Histogramas em eixos polares, onde as classes são apresentadas no eixo angular e as freqüências no eixo radial. MATLAB: rose

10 Resumos e Gráficos (Polígono de freqüência)
Análise Preliminar dos Dados Resumos e Gráficos (Polígono de freqüência) Segmentos de retas que conectam pontos médios da parte superior de barras de freqüência de classe, estendidos à esquerda e à direita para alcançar o eixo horizontal.

11 Resumos e Gráficos (Ogiva)
Análise Preliminar dos Dados Resumos e Gráficos (Ogiva) Gráficos de linhas que representam freqüência acumulada de não-excedência. O gráfico intercepta valores das fronteiras de classes, iniciando da fronteira inferior da primeira classe e terminando na fronteira superior da última classe.

12 Resumos e Gráficos (Gráfico de Pareto)
Análise Preliminar dos Dados Resumos e Gráficos (Gráfico de Pareto) Gráfico de barras para dados qualitativos, sendo as barras ordenadas em função dos valores de freqüência de maneira decrescente. Recomenda-se a aplicação de gráficos de Pareto em vez de gráficos de setores (i.e. pizza). MATLAB: pareto

13 Resumos e Gráficos (Diagramas de dispersão)
Análise Preliminar dos Dados Resumos e Gráficos (Diagramas de dispersão) Gráfico de pares de dados, útil à análise de relação/associação entre variáveis. MATLAB: scatter

14 Resumos e Gráficos (Gráficos de séries temporais)
Análise Preliminar dos Dados Resumos e Gráficos (Gráficos de séries temporais) Gráfico onde as informações de uma variável são representadas no eixo das ordenadas com seus pares equivalentes ao momento/tempo de ocorrência no eixo das abcissas. MATLAB: plot

15 Resumos e Gráficos (Criação de gráficos estatísticos)
Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Oportunidade para apresentar dados importantes e interessantes de maneira eficaz Princípios para criação de gráficos (Tufte apud Triola pg 50) P/ pequena quantidade de dados, use tabela Foco nos dados. Ilustração não deve distrair o leitor. Gaste a tinta de impressão nos dados. Não distorcer os dados. Não use áreas e volumes para informação unidimensional. Não usar linhas inclinadas, pontos ou quadriculados (hachuras), pois criam desconfortável ilusão de movimento.

16 Resumos e Gráficos (Criação de gráficos estatísticos)
Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Curva de permanência Freqüência acumulada de excedência de valores Procedimento: Ordena dados de forma decrescente Calcula a % de excedência pela razão da ordem de cada registro pela quantidade de dados Gráfico das vazões ordenadas contra a % de excedência

17 Resumos e Gráficos (Criação de gráficos estatísticos)
Análise Preliminar dos Dados Resumos e Gráficos (Criação de gráficos estatísticos) Gráfico polar Apresenta dados em coordenadas polares, onde o eixo radial é a magnitude e o angular a direção ou a data. MATLAB: polar

18 Estatísticas Medidas de centro Medidas de variação
Análise Preliminar dos Dados Estatísticas Medidas de centro Medidas de variação Medidas de forma (posição relativa) Medidas de associação entre variáveis

19 Análise Preliminar dos Dados
Estatísticas Quantis: dividem a amostra ordenada de dados em grupos com aproximadamente o mesmo número de dados 99 percentis - divisão em 100 partes 3 quartis – divisão em 4 partes

20 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Percentil Percentis dividem os valores ordenados em 100 partes iguais. Assim, existem 99 percentis. Para calcular o percentil a que um valor xi corresponde, aplica-se: onde n é o tamanho da amostra.

21 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Percentil Para calcular o valor x para um percentil específico, aplica-se aos dados ordenados: onde L é o percentil que se deseja estimar. Caso i não seja exato, o valor de x referente ao percentil em análise será o da posição maior inteiro mais próximo de i. Caso i seja exato, estima-se o percentil a partir da média entre os valores de xi e xi+1 MATLAB: prctile Como em curvas de permanência a ordem dos dados é decrescente, PL=Q(100-L). Ex. P10=Q90

22 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Quartil Percentil que divide os dados em quartos. Q1=P25; Q2=P50 ; Q3=P75

23 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Ponto Médio Mediana Moda Média Média aparada

24 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Ponto Médio = (min+max)/2 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Ponto médio = (1+36)/2 = 18,5

25 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Mediana Valor do meio da amostra, para dados ordenados em função de seus valores MATLAB: median Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Mediana = 12,5

26 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Média onde n é o número de dados, i.e., o tamanho da amostra, fi é a freqüência (número de observações) de ocorrência do valor xi. MATLAB: mean Por exemplo, para a amostra [1, 3, 6, 15, 15, 21, 28, 36] Média = ( ).1/8+15.2/8 = 15,625

27 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Média aparada Cálculo da média da parcela central (100-x)% da amostra ordenada em função de seus valores. MATLAB: trimmean Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Média aparada em 0% = 15 Média aparada em 25% = 13,83 Média aparada em 50% = 13

28 Estatísticas (Medidas de centro)
Análise Preliminar dos Dados Estatísticas (Medidas de centro) Moda Valor que ocorre mais freqüentemente MATLAB: mode Simetria da distribuição dos dados: média=moda=mediana

29 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Amplitude Desvio médio absoluto Desvio padrão Variância Coeficiente de variação Intervalo interquartil Intervalo percentílico

30 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Amplitude = max-min MATLAB: range Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Amplitude = (36-1) = 35

31 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Intervalo interquartil = Q3-Q1 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Intervalo interquartil = 24,5 - 4,5 = 20

32 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Intervalo percentílico = P90-P10 Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Intervalo percentílico = = 35

33 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio médio absoluto MATLAB: mad Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36], média=15 Desvios |xi-media|=[14,12,9,5, 0, 6, 13, 21] Desvio médio absoluto = 10

34 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Variância Estimador da dispersão em relação à média a partir dos quadrados dos valores observados MATLAB: var Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] var = 156

35 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Graus de liberdade: número de valores escolhidos livremente antes que os demais sejam determinados. Por exemplo, para a amostra [10, 13, 15, 18] Conhecida a média (14) e outros n-1 dados, chega-se ao n-ésimo. Logo, número de graus de liberdade = n-1

36 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio padrão Desvio médio dos valores em relação à média MATLAB: std Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Desvios (xi-media)=[-14,-12,-9,-5, 0, 6, 13, 21] Quadrados (xi-media)²=[196,144,81,25,0,36,169,441] Soma dos Quadrados = 1092 Desvio padrão =12,49

37 Graus de Liberdade Christopher Souza: Análise Preliminar de Dados Amostra Média Mediana Amp. Var.(n-1) Std(n-1) Var.(n) std(n) 1,1 1,0 0,0 1,2 1,5 1 0,5 0,707 0,25 3,0 4 8,0 2,828 2 2,1 2,2 2,0 2,5 3,5 3 4,5 2,121 2,25 5,1 5,2 5,5 5,0 Média amostral 8/3 16/9 26/9 1,3 1,44 0,89 Parâmetro 1,7 2,89 População: 1, 2, 5

38 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Desvio padrão Dispersão típica (Regra empírica da amplitude) Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Desvio padrão ≈ (36 – 1)/4 = 8,75

39 Estatísticas (Medidas de variação)
Análise Preliminar dos Dados Estatísticas (Medidas de variação) Coeficiente de variação Estimador adimensionalizado da dispersão de valores em relação à média de maneira a permitir comparações entre populações. Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Cv=83,27%

40 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Escore z Quartil Percentil Simetria/Assimetria Curtose

41 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Escore z Número de desvios padrão a que se situa o valor “i” da amostra, acima ou abaixo da média. Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Escores z=[-1,12;-0,96;-0,72;-0,4; 0; 0,48; 1,04; 1,68]

42 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Simetria/Assimetria Coeficiente que descreve quanto a maior parte dos dados se encontra afastada da média. O coeficiente analisa o desvio em relação à média na 3a potência. MATLAB: skewness Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] assimetria=0,5

43 Estatísticas (Medidas de forma / posição relativa)
Análise Preliminar dos Dados Estatísticas (Medidas de forma / posição relativa) Curtose Coeficiente que descreve quanto os valores mais extremos se afastam da média. O coeficiente descreve o desvio em relação à média na 4a potência. MATLAB: kurtosis Por exemplo, para a amostra [1, 3, 6, 10, 15, 21, 28, 36] Curtose = 1,95

44 Estatísticas (Medidas de associação entre variáveis)
Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação linear de Pearson Mede a intensidade da relação linear entre os valores quantitativos emparelhados de amostras de duas variáveis (‘x’ e ‘y’) MATLAB: corrcoef

45 Estatísticas (Medidas de associação entre variáveis)
Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação linear de Pearson = 0,7036 Bacia do rio Acaraú-CE (semi-árido; 1560 km²)

46 Christopher Souza: Teste de hipóteses
Postos Número atribuído a um item da amostra de acordo com sua posição na lista ordenada. Em caso de empates, aplica-se a média dos postos como valor de posto de cada item com igual valor Ex: x: [ ] xo: [ ] io: [ ,5 7,5] i: [7, ,5]

47 Estatísticas (Medidas de associação entre variáveis)
Análise Preliminar dos Dados Estatísticas (Medidas de associação entre variáveis) Coeficiente de correlação de postos de Spearman Mede a associação das magnitudes de duas variáveis a partir das posições dos valores ordenados por amostra (‘x’ e ‘y’) onde d é a diferença entre as posições dos correspondentes x e y. MATLAB: corr Spearman = 0,7143

48 Análise Exploratória de Dados
Análise Preliminar dos Dados Análise Exploratória de Dados Outliers Diagrama de caixa

49 Análise Exploratória de Dados (Outliers)
Análise Preliminar dos Dados Análise Exploratória de Dados (Outliers) Outlier - dado cujo valor se localiza muito afastado de quase todos os demais valores da amostra. Outliers podem ser valores atípicos reais ou um dado errado/inexistente. Outliers podem afetar significativamente os valores de estatísticas como a média e outras dela dependentes (e.g. desvio padrão, c.v.), bem como, na definição de classes em estudos de freqüência e em gráficos. Se um outlier for um dado real, deve-se estudar a série com e sem o outlier. Uma técnica usual para detecção de outliers é comparar valores com 1,5x(Q3-Q1) abaixo de Q1 e acima de Q3.

50 Análise Exploratória de Dados (Diagrama de caixa)
Análise Preliminar dos Dados Análise Exploratória de Dados (Diagrama de caixa) Representação gráfica do resumo dos cinco números (mínima, Q1, mediana, Q3 e máxima). Ótimo para comparação de duas ou mais amostras. Outliers podem ser representados. MATLAB: boxplot


Carregar ppt "Análise Preliminar dos Dados"

Apresentações semelhantes


Anúncios Google