A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

2 Introdução a Estatística Também designada Análise exploratória de dados ou Análise preliminar de dados.

Apresentações semelhantes


Apresentação em tema: "2 Introdução a Estatística Também designada Análise exploratória de dados ou Análise preliminar de dados."— Transcrição da apresentação:

1

2 2 Introdução a Estatística Também designada Análise exploratória de dados ou Análise preliminar de dados

3 Sumário Definição de Estatística Objetivos da Estatística Conceitos básicos Tipos de dados Amostragem Casos a serem estudados…

4 A palavra estatística tem origem no latim, status (estado) e aparece como vocabulário na Enciclopédia Britânica em 1797 (Filho, 1999) Estatística é uma coleção de métodos para planejar experimentos, obter e organizar dados, resumí-los, analisá-los e deles extrair conclusões (Triola, 1999) Definição de Estatística

5 Definições É um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. O objetivo é conseguir melhores informações a respeito de um dado possível.

6 Objetivos da Estatística Sumarizar a coleção de observações; Descrever o conhecimento de um dado assunto de forma matemática; Evitar manipulação de resultados; Dar “polimento” a publicações; Analisar a coleção de dados; Determinar correlações; Saber o grau de certeza das conclusões tiradas;

7 Histórico ANTIGUIDADE : os povos já registravam o número de habitantes, nascimentos, óbitos. Faziam "estatísticas". IDADE MÉDIA: as informações eram tabuladas com finalidades tributárias e bélicas. SEC. XVI: surgem as primeiras análises sistemáticas, as primeiras tabelas e os números relativos. SEC. XVIII: As tabelas ficam mais completas, surgem as primeiras representações gráficas e os cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de dados numéricos para se tornar "O estudo de como se chegar a conclusão sobre uma população, partindo da observação de partes dessa população (amostra)".

8 População: qualquer conjunto de informação que tenha entre si uma característica comum que delimite os elementos pertencentes a ela. Amostra: é um subconjunto de elementos pertencentes a uma população. Variável: Dados referentes a uma característica de interesse, coletados a partir de uma amostra. Conceitos básicos

9 Em um restaurante, não precisamos comer todos os tipos de saladas, de sobremesas e de carnes disponíveis, para conseguirmos chegar a conclusão de que a comida é de boa qualidade. Basta que seja provado um tipo de cada opção para concluirmos se a comida está dentro dos padrões. População Amostra

10 População, amostra, variável Variável

11 ORGANIZAÇÃO DE DADOS ESTATÍSTICOS FASES DO MÉTODO ESTATÍSTICO 1º - DEFINIÇÃO DO PROBLEMA : Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema. – Exemplo: Qual o tipo de veículo é mais vendido aos clientes residentes no município?

12 2º - PLANEJAMENTO : Como levantar informações ? – Onde irei buscar? Que dados deverão ser obtidos ? – Uma lista com todos os pedidos do mês anterior? – Uma lista com os usados mais vendidos no ANO anterior? – A opinião dos vendedores sobre a preferência de seus clientes... E o cronograma de atividades ? – Quanto tempo? Por onde começar – os passos – o relatório final Os custos envolvidos ? etc. – Quem será alocado para a função, o que irá precisar?

13 3º - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo determinado. Dados primários: quando são publicados pela própria pessoa ou organização que os tenha recolhido. – Ex: tabelas do censo demográfico do IBGE. Dados secundários: quando são publicados por outra organização. – Ex: quando determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE. OBS: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o grande risco de erros de transcrição.

14 Coleta Direta: quando é obtida diretamente da fonte. – Ex: Empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca. coleta contínua:registros de nascimento, óbitos, casamentos; coleta periódica:recenseamento demográfico, censo industrial; coleta ocasional:registro de casos de dengue, H1N1. coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta, por analogia, por avaliação,indícios ou proporcionalização.

15 4º - APURAÇÃO DOS DADOS: Resumo dos dados através de sua contagem e agrupamento. É a condensação e tabulação de dados. 5º - APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se excluem mutuamente. – A apresentação tabular, ou seja é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de Estatística. – A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.

16 6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a mais importante e delicada. – Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva).

17 ATIVIDADE ORGANIZAÇÃO DE DADOS ESTATÍSTICOS 1º - DEFINIÇÃO DO PROBLEMA : 2º - PLANEJAMENTO : 3º - COLETA DE DADOS: – Dados primários: quando são publicados pela própria pessoa ou organização que os haja recolhido. Ex: tabelas do censo demográfico do IBGE. – Dados secundários: quando são publicados por outra organização. Ex: quando determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE. – Coleta Direta: quando é obtida diretamente da fonte. – coleta contínua:a própria empresa busca 4º - APURAÇÃO DOS DADOS: Resumo dos dados através de sua contagem e agrupamento. É a condensação e tabulação de dados. 5º - APRESENTAÇÃO DOS DADOS: tabular OU gráfica 6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: é descrever o fenômeno (estatística descritiva).

18 18 Estatística descritiva vs inferencial Estatística Descritiva: conjunto de métodos estatísticos que visam sumariar e descrever os atributos mais proeminentes aos dados. Estatística Inferencial: conjunto de métodos estatísticos que visam caracterizar (ou inferir sobre) uma população a partir de uma parte dela (a amostra).

19 19 Estatísticas ou medidas amostrais Estatística ou medida amostral: uma medida numérica que descreve alguma característica de uma amostra. É habitualmente representada por letras latinas. Por exemplo: x (média), s (desvio padrão), r (coeficiente de correlação) Amostra Estatística / medida amostral

20 20 Parâmetros Parâmetro: uma medida numérica que descreve alguma característica de uma população. É habitualmente representado por letras gregas. Por exemplo: μ (média), σ (desvio padrão), ρ (coeficiente de correlação) População Parâmetro

21 21 Ferramentas de Estatística Descritiva Cálculo numérico de medidas amostrais. Resumo e descrição global dos dados através da construção de tabelas e de gráficos. Análise e interpretação dos resultados obtidos.

22 22 Medidas amostrais, ou de Posição Tendência ou localização central: – média (mean), – mediana (median), – moda (mode).

23 23 Medidas amostrais Localização relativa: – Mínimo (minimum), – Máximo (maximum), – Quantil (quantile), – Quartil (quartile), – Percentil (percentile).

24 24 Medidas amostrais Dispersão: – amplitude (range), – distância inter-quartil (inter-quartile range), – variância (variance), – desvio padrão (standard deviation), – coeficiente de variação (coefficient of variation),

25 25 Medidas amostrais Assimetria: – Coeficiente de assimetria (skweness).

26 26 Tabelas de frequências Tabelas que resumem a informação contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribuídos por intervalos).

27 27 Gráficos Gráficos de frequências Histogramas Caixas de boxplots ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de dispersão (scatterplot)

28 28 Descrição resumida das várias ferramentas de Estatística descritiva

29 29 Ordenação e tabela de frequências Tipos de frequências: – Frequência absoluta – Frequência relativa – Frequência absoluta acumulada – Frequência relativa acumulada Uma tabela de frequências é uma tabela onde figuram os valores de pelo menos um destes tipos de frequências.

30 30 Tabela de frequências Exemplo de uma tabela produzida pelo SPSS: Durante um ano contabilizou-se diariamente o nº de golfinhos presos nas redes dos pescadores das águas Açoreanas.

31 31 Medidas amostrais Tendência ou localização central: – média (mean), – mediana (median), – moda (mode),

32 32 Medidas de localização central: Média Média: Numa amostra de n observações, x 1, x 2, …, x n Se os dados estiverem agrupados (k valores distintos) onde f i designa a frequência absoluta de x i * (ou a frequência absoluta da classe com marca x i * no caso de dados agrupados em classes)

33 33 Medidas de localização central: Média A média pode ser pensada como o centro de massa dos valores das observações, ie, o ponto de equilibrio após dispormos as observações sobre uma régua. Pontos afastados ou erros nas observações podem afastar a média do grosso das observações.

34 34 A mediana á a observação central, depois de ordenada a amostra. Se a amostra tiver dimensão ímpar, coincide com a observação central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é. Se a amostra tiver dimensão par, a mediana toma o valor da média das duas observações mais centrais. Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é. A mediana é mais robusta que a média a erros ou a observações afastadas. Medidas de localização central: Mediana 2.1 0.8

35 35 Medidas de localização central: Moda A moda é o valor mais frequente de uma amostra. Ao contrário do que acontece com a mediana e a média, uma amostra pode possuir mais do que uma moda. Moda

36 36 Medidas de localização central: Moda A moda é a única medida de localização central que pode ser utilizada para dados numa escala nominal. A moda pode não ter significado, especialmente em dados de natureza contínua ou em dados discretos com poucas observações repetidas! Quando os dados estão agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequência.

37 37 Medidas amostrais Localização relativa: – Mínimo (minimum), – Máximo (maximum), – Quantil (quantile), – Quartil (quartile), – Percentil (percentile).

38 38 Medidas de localização relativa: Mínimo e Máximo Mínimo – é o valor mais reduzido da amostra Máximo – é o valor mais elevado da amostra

39 39 Medidas de localização relativa: Quartis Quartis – são os valores (Q 1, Q 2 e Q 3 ) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possível). Q 2 coincide com a mediana.

40 40 Medidas de localização relativa: Quantis e Percentis Quantil de ordem p (0≤ p ≤ 1)– é um valor, x p, que divide a amostra em duas partes, tal que à esquerda de x p está a proporção p da amostra e à direita a proporção 1-p. Percentil de ordem p (p vai de 1 a 100) - é o mesmo que um quantil mas em que a proporção é dada em percentagem.

41 41 Medidas amostrais Dispersão: – amplitude (range), – distância inter-quartil (inter-quartile range), – variância (variance), – desvio padrão (standard deviation), – coeficiente de variação (coefficient of variation),

42 42 Medidas de dispersão: Amplitude A amplitude de uma amostra é a diferença entre o máximo e o mínimo. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude é. 2.3 - 1.2 = 1.1

43 43 Medidas de dispersão: Distância inter- quartil Distância inter-quartil – é a diferença entre o 3º e o 1º quartis, Q 3 - Q 1. No intervalo que vai de Q 1 a Q 3 encontram-se 50% das observações (as mais centrais).

44 44 Medidas de dispersão: variância A variância é a média dos quadrados dos desvios das observações em relação à média da amostra. Habitualmente considera-se uma versão corrigida da variância

45 45 Medidas de dispersão: desvio padrão A variância não vem representada na mesma unidade das observações. Se tomarmos a raiz quadrada da variância obtemos o desvio padrão que também é uma medida de dispersão e vem na mesma unidade das observações. Nos programas de estatística e nas máquinas de calcular o que aparece são as versões corrigidas da variância e do desvio padrão. O desvio padrão e a variância podem ser fortemente afetados por erros ou observações muito afastadas.

46 46 Medidas de dispersão: coeficiente de variação O Coeficiente de variação é a razão entre o desvio padrão e a média, v = s / x. Trata-se de uma medida relativa de dispersão e por isso não tem unidades.

47 47 Medidas amostrais: assimetria – Coeficiente de assimetria – é uma medida que assume o valor zero quando a distribuição de frequências da amostra é completamente simétrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuição não é simétrica. – Numa amostra é quase impossível observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. – Para termos uma ideia se a assimetria é relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente não exceder 2 ou 3 vezes o erro, o seu valor não será muito relevante, especialmente quando queremos extrapolar para a população.

48 48 Medidas amostrais: assimetria – Uma distribuição possui assimetria positiva (ou negativa) quando existe uma concentração de valores na zona de valores mais reduzidos (ou elevados) da amostra. Assimetria positiva Quase simetria Assimetria negativa Coef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0

49 49 Medidas amostrais: assimetria – A assimetria também pode ser avaliada comparando os valores da média, mediana e moda (desde que esta última faça sentido). Assimetria positiva: moda < mediana < média moda média mediana

50 50 Medidas amostrais: assimetria Assimetria negativa:média < mediana < moda Simetria pura:média = mediana = moda Simetria aproximada:média ~ mediana ~ moda

51 51 Gráficos Gráficos de frequências Histogramas Caixas de boxplots ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de dispersão (scatterplot)

52 52 Histogramas O histograma é um gráfico que reflete a forma da distribuição de frequências da amostra. Também procura refletir a estrutura (forma) da população de onde foi retirada a amostra. Para construir um histograma é necessário primeiro repartir os dados por classes e depois calcular as respectivas frequências. O histograma é um gráfico de frequências construído a partir desta tabela de frequências (por classes). Os histogramas são particularmente úteis para variáveis contínuas ou variáveis com poucos valores repetidos.

53 53 Histogramas A apresentação do histograma depende muito do número de classes considerado. Um número muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um número demasiado reduzido de classes oculta a forma da distribuição (perde-se demasiada informação).

54 54 Histogramas Poucas classes Muitas classes

55 55 Gráficos de frequências Gráficos de frequências são gráficos de barras que traduzem graficamente o conteúdo da tabela de frequências. Os mais habituais são os gráficos de frequências absolutas ou relativas, mas também podemos construir gráficos de frequências absolutas ou relativas acumuladas. Os gráficos de frequências (não acumuladas) são apropriados para dados qualitativos ou numéricos discretos (ou que se comportam como tal). Quando as frequências absolutas são reduzidas e a gama de valores da amostra é dispersa os gráficos de frequências tornam-se pouco interessantes (muito irregulares).

56 56 Gráficos de frequências Chama-se função de distribuição empírica à função cuja imagem gráfica é o gráfico de frequências relativas acumuladas. Exemplo:

57 57 Caixas de boxplots Pode ser encarada como a representação gráfica de algumas medidas de localização: mediana Q 1 Q 3 outliers e extremos

58 58 Caixas de boxplots Mínimo da amostra mas não menos de Q 1 -1.5(Q 3 -Q 1 ) Máximo da amostra mas não mais de Q 3 +1.5(Q 3 -Q 1 )

59 59 Caixa de boxplotss Algumas caixas têm os boxplots até ao mínimo e máximo e não têm representados outliers. As caixas de boxplots dão informação sobre – A localização central: mediana – Outras localizações: 1º e 3º quartis e mínimo e máximo. – Dispersão: amplitude e distância inter-quartil – Assimetria: posição relativa da mediana na caixa, comprimento dos boxplots.

60 60 Caixas de boxplots Assimetria positiva Assimetria negativa Simetria

61 61 Caixa de boxplots comparativas As caixas de boxplots também são úteis para comparar várias amostras num mesmo gráfico, caixas de boxplots comparativas.

62 62 Diagramas de caule e folha Representa os dados, separando cada valor em duas partes: o caule (valor à uerda do traço vertical) e a folha (algarismo à direita do traço vertical) Exemplo: (10.5 10.7 10.8 11.0 11.0 11.1 11.2 11.3 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.1) diametro Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 10. 578 8,00 11. 00123447 3,00 12. 099 3,00 13. 378 2,00 14. 01 Stem width: 1,00 Each leaf: 1 case(s)

63 63 Diagramas de caule e folha Outro exemplo: ( 63 64 65 66 66 69 71 71 72 ……… …....85 86 87) Devemos multiplicar cada valor por 10 para recuperar os dados. altura Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 6. 34 4,00 6. 5669 6,00 7. 112244 8,00 7. 55566789 9,00 8. 000001123 3,00 8. 567 Stem width: 10,00 Each leaf: 1 case(s)

64 64 Formas de distribuições Os gráficos de frequências, histogramas, diagramas de caule- e-folhas (e em parte as caixas de boxplots) dão-nos informação quanto à forma da distribuição dos dados (e consequentemente da população de onde foram retirados) Existem distribuições de vários tipos: unimodais, bimodais e multimodais

65 65 Formas de distribuições Exemplo: unimodal bimodal

66 66 Diagramas de dispersão Os diagramas de dispersão são gráficos que permitem relacionar duas variáveis entre si. Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y

67 67 Diagramas de dispersão Exemplo: pesos e comprimentos de 414 recém-nascidos.


Carregar ppt "2 Introdução a Estatística Também designada Análise exploratória de dados ou Análise preliminar de dados."

Apresentações semelhantes


Anúncios Google