A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CAPÍTULO 4 Tipos de dados; Apresentação dos Dados (tabelas, gráficos e medidas)

Apresentações semelhantes


Apresentação em tema: "CAPÍTULO 4 Tipos de dados; Apresentação dos Dados (tabelas, gráficos e medidas)"— Transcrição da apresentação:

1 CAPÍTULO 4 Tipos de dados; Apresentação dos Dados (tabelas, gráficos e medidas)

2 Estatística Descritiva Nesta etapa do curso vamos considerar que os dados já foram efetivamente observados, sejam de uma amostra ou de uma população de elementos. O objetivo básico consistirá em introduzir técnicas que permitam organizar, resumir e apresentar estes dados, de tal forma que possamos interpretá-los à luz dos objetivos da pesquisa. Esta parte do tratamento de dados é chamada de Estatística Descritiva.

3 Com os dados adequadamente resumidos e apresentados em tabelas e gráficos, poderemos observar aspectos relevantes e começar a delinear hipóteses a respeito da estrutura do fenômeno em estudo. É a chamada Análise Exploratória de Dados. As ferramentas gráficas mais usuais para resumir os dados serão discutidas a seguir. Análise Exploratória de Dados

4 Dados Estatísticos Distinguem-se geralmente dois conjuntos de dados: os indivíduos e as informações relativas a esses indivíduos, as variáveis. a) Indivíduo ou unidade elementar: é a entidade de base sobre a qual o observador realiza um certo número de medições. O conjunto dos indivíduos observados pode ser obtido de uma amostragem ou de uma população inteira. Exemplo: um paciente, um usuário, um empregado, um dente, uma cidade, um país, um eleitor, etc...

5 Dados Estatísticos b) Variáveis: conjunto de informações levantadas para cada indivíduo. Por exemplo, no caso de uma pesquisa, as variáveis são as perguntas. Se se trata dos empregados de uma empresa, as variáveis podem ser o salário, o tempo de serviço, o nível de escolaridade, a idade, o sexo, etc... Dependendo do tipo de variável envolvida, determina-se a técnica apropriada. As variáveis podem ser quantitativas e qualitativas:

6 Tipos de Variáveis - Quantitativa: quando seus possíveis valores são assumidos numa escala numérica: salário, idade, altura, peso, etc... Pode-se efetuar as operações algébricas habituais como adição, multiplicação, cálculo de médias, etc... Pode ser: Discreta: resultado de uma contagem; Contínua: resultado de uma medida.

7 Tipos de Variáveis - Qualitativa: quando seus possíveis valores assumem modalidades não numéricas, como sexo, profissão, escolaridade, região, nível hierárquico, etc... Pode ser: Nominal: vários atributos; Ordinal: variável ordenada (nível hierárquico, nível de satisfação).

8 Tipos de Variáveis - Seqüência Temporal: As variáveis são medidas ao longo do tempo. Podem ser: Séries temporais: demanda diária, inflação mensal, cotações diárias, poluição horária Dados coletados num tempo determinado: apartamentos vendidos no último mês.

9 Escala de Medição Escala Nominal: valores dão apenas nome a uma categoria ou classe. Ex.: 1 = ES, 2 = RJ, etc Escala Ordinal: valores dão nome e ordem a uma categoria e classe. Ex.: 1 = Analfabeto 2 = 1 grau,etc... 1 < 2 Escala Intervalar: Intervalos iguais com mesmo significado 10-7=3 e 7-4=3 Escala Proporcional: possui um zero absoluto. Por exemplo...86 é o dobro de 43.

10 Número de Variáveis Uma única variável: tipo de doença periodontal. Técnicas de resumo da variável. Duas variáveis: tipo de doença e sexo. Verificação de relação entre as duas variáveis e possibilidade de prever uma em função da outra. Três ou mais variáveis: Verificação de relação entre uma e as outras variáveis e possibilidade de prever uma em função das outras.

11 Planilha de dados

12 Apresentação dos dados Para o caso de um número muito grande de dados, devemos representá-los em forma de tabelas e gráficos. Dependendo do tipo de variável, as tabelas e gráficos são específicos:

13 Apresentação dos dados

14 TABELAS

15 Variáveis Quantitativas Tabela de freqüências Consiste em agrupar os dados em classes pré- estabelecidas. As classes são pequenos intervalos mutuamente exclusivos, tais que, quando reunidos, abrangem todo o conjunto de dados.

16 Tabelas de Freqüências Em outras palavras, as classes devem ser construídas de tal forma que todo resultado observado pertença a uma e apenas uma classe. Por simplicidade, e para facilitar a interpretação, consideraremos todas as classes com a mesma amplitude.

17 Tabelas de Freqüências O número de dados em cada classe é chamado freqüência absoluta. Se tomarmos a percentagem de dados em cada classe estamos nos referindo à freqüência relativa. E a soma das freqüências (absoluta ou relativa) das classes anteriores é chamada freqüência acumulada (absoluta ou relativa respectivamente). A tabela abaixo apresenta um esboço de uma tabela de freqüências:

18 Tabelas de Freqüências

19 O número de classes a ser usado na tabela de freqüências é uma escolha arbitrária. Em geral, usam-se de 5 (cinco) a 20 (vinte) classes, dependendo da quantidade de dados e dos objetivos. Quanto maior o conjunto de dados pode-se usar mais classes.

20 Tabelas de Freqüências Uma tabela com poucas classes apresenta a distribuição de forma bastante resumida, podendo deixar de evidenciar algumas características relevantes. Por outro lado, quando se usam muitas classes, a tabela pode ficar muito grande, não realçando aspectos relevantes da distribuição de freqüências. Uma sugestão para o número de classes é tomar, aproximadamente, raiz quadrada de n, onde n é a quantidade de valores observados.

21 Tabelas de Freqüências: Ex1

22 Variáveis Qualitativas Consiste em colocar as categorias e as respectivas freqüências (absoluta e relativa) de cada categoria.

23 Tabelas de Freqüências: Ex1

24 Tabelas de Freqüências: Ex2

25 GRÁFICOS

26 Variáveis Quantitativas Histograma Polígono de Freqüências Box-Plot Gráfico de Médias

27 Histograma A Figura a seguir mostra um histograma, construído a partir de uma tabela de freqüências. São retângulos justapostos, feitos sobre as classes da variável em estudo. Sobre cada classe tem-se um retângulo, cuja altura corresponde à freqüência observada desta classe. O histograma pode ser construído tanto com as freqüências absolutas quanto com as freqüências relativas.

28 Histograma

29 Histograma

30 Histograma

31 Histograma

32 Polígono de freqüências O polígono de freqüências é uma representação gráfica alternativa. Para construí-lo, toma-se o ponto médio (x) e a correspondente freqüência (f) de cada classe. Colocam-se os pares (x, f) como pontos num par de eixos cartesianos. A Figura a seguir mostra o polígono de freqüências construído a partir do histograma anterior. Observe que as informações fornecidas pelo polígonos de freqüências são equivalentes às observadas num histograma.

33 Polígono de freqüências

34 Dados Temporais - Ex.: Análise de dados de poluição na Grande Vitória através das medições de algumas substâncias efetuadas nas sete estações de coleta automática (Laranjeiras, Carapina, Jardim Camburi, Enseada do Suá, Centro de Vila Velha, IBES e Cariacica). Objetivo: estabelecer relações entre as medições de poluentes e variáveis micrometeorológicas e fatores de produção. Utilizamos dados diários em um período de 153 dias compreendidos entre 1/8 e 31/12/2000.

35 Gráfico de Linhas

36

37

38 Variáveis Qualitativas Gráfico de Barras Gráfico de Setores circulares

39 Gráfico de Barras e Setores

40 Outros Gráficos Gráfico de Pareto

41 O gráfico de pareto é um gráfico de barras verticais que dispõe a informação de forma a tornar evidente e visual a priorização de temas. A informação assim disposta também permite o estabelecimento de metas numéricas viáveis de serem alcançadas. O Princípio de Pareto estabelece que os problemas relacionados à qualidade (percentual de itens defeituosos, perdas de produção, ocorrência de acidentes de trabalho, etc), os quais traduzem sob a forma de perdas, podem ser classificados em duas categorias: os "poucos vitais" e os "muitos triviais".

42 Gráfico de Pareto Os poucos vitais representam um pequeno número de problemas, mas que no entanto resultam em grandes perdas para a empresa. Já os muitos triviais são uma extensa lista de problemas, mas que apesar de seu grande número, convertem-se em perdas pouco significativas.

43 Gráfico de Pareto Em outras palavras, o princípio de pareto estabelece que se forem identificados, por exemplo, cinqüenta problemas relacionados à qualidade, a solução de apenas cinco ou seis destes problemas já poderá representar uma redução de 80% ou 90% das perdas que a empresa vem sofrendo devido à ocorrência de todos os problemas existentes.

44 Construção de um Gráfico de Pareto 1 - Definir o tipo de problema a ser estudado (itens defeituosos, reclamações, acidentes, perdas, etc.). 2 - Listar os possíveis fatores de estratificação (categorias) do problema escolhido. 3 - Estabelecer o método e o período de coleta de dados. 4 - Elaborar uma folha de verificação apropriada para coletar os dados. 5 - Preencher a folha de verificação e registrar o total de vezes que cada categoria foi observada e o número total de observações.

45 Construção de um Gráfico de Pareto 6 - Elaborar uma planilha de dados para o gráfico de Pareto, com as seguintes colunas: - Categorias. - Quantidades (Totais Individuais). - Totais Acumulados. - Percentagens do Total Geral. - Percentagens Acumuladas. 7 - Preencher a planilha de dados, listando as categorias em ordem decrescente de quantidade (freqüências maiores para menores)

46 Construção de um Gráfico de Pareto 8 - Traçar dois eixos verticais de mesmo comprimento e um eixo horizontal. 9 - Marcar o eixo vertical do lado esquerdo (ou direito) com a escala de zero até o total da coluna Quantidade (Q) da planilha de dados. Identificar o nome da variável representada neste eixo e a unidade de medida utilizada, caso seja necessário Marcar o eixo vertical do lado direito (ou esquerdo) com uma escala de zero até 100%. Identificar este eixo como Percentagem Acumulada(%).

47 Construção de um Gráfico de Pareto 11 - Dividir o eixo horizontal em um número de intervalos iguais ao número de categorias constantes na planilha de dados Identificar cada intervalo do eixo horizontal escrevendo os nomes das categorias, na mesma ordem em que eles aparecem na planilha de dados Construir um gráfico de barras utilizando a escala do eixo vertical do lado esquerdo.

48 Construção de um Gráfico de Pareto 14 - Construir a curva de Pareto marcando os valores acumulados (Total Acumulado ou Percentagem Acumulada), acima e no lado direito (ou no centro) do intervalo de cada categoria, e ligar os pontos por segmento de reta Registrar outras informações que devam constar no gráfico: - Título. - Período de coleta dos dados. - Número total de itens inspecionados. - Objetivo do estudo realizado.

49 Gráfico de Pareto - Ex1

50

51

52 Gráfico de Pareto - Ex2

53

54 Medidas

55 Medidas

56 Medidas de Posição

57 Mediana A mediana é o valor que divide a distribuição dos dados ao meio, ou seja, deixa os 50% menores valores de um lado, e os 50% maiores valores do outro lado. Para se calcular a mediana, os dados devem estar ordenados. Por exemplo, ordenando-se as notas da turma C temos: 0, 6, 7, 7, 7, 7.5, 7.5. A mediana da turma C é a 4a. (quarta) observação ordenada, porque essa observação deixa 3 outras de um lado (0, 6 e 7) e 3 do outro (7, 7.5 e 7.5). Logo a mediana vale 7.

58 Mediana Nem todos os conjuntos de dados têm um valor central tão nítido como exposto acima. Por exemplo, se tivermos um número par de observações? Assim, vamos definir um critério para acharmos a mediana: A mediana de um conjunto de dados ordenados, representada por Md será o valor que: n ímpar é o valor que ocupa a posição (n + 1)/2. n par: é a média dos valores que ocupam as posições (n/2) e (n/2 + 1)

59 Vantagens da Mediana Fácil de calcular; não é afetada por valores extremos; é um valor único; pode ser aplicada nas escalas ordinal, intervalar e proporcional.

60 Desvantagens da Mediana Difícil de incluir em equações matemáticas; Não utiliza todos os valores da variável.

61 Moda Moda (Mo) é o valor da variável que mais se repete, o que possui maior freqüência. Uma variável pode ter mais de uma moda (bimodal, trimodal, etc...). A moda é uma medida resistente, pois está relacionada somente com a freqüência de um ou mais valores da variável. Por exemplo, a mudança de um valor da variável pode não afetar a moda.

62 Vantagens da Moda Fácil de calcular; Não é afetada por valores extremos; Pode ser aplicada em qualquer escala: nominal, ordinal, intervalar e proporcional.

63 Desvantagens da Moda Pode estar afastada do centro dos valores; Difícil de incluir em equações matemáticas; Não utiliza todos os valores da variável; A variável pode ter mais de uma moda; Algumas variáveis não têm moda.

64 Média Aritmética O conceito de média aritmética, ou simplesmente média, é bastante familiar. Matematicamente, ela é a soma de todos os valores divididos pelo número de valores somados.

65 Média Aritmética Características Importantes da Média: 1. A unidade da média é a mesma dos valores da variável; 2. A média está posicionada de forma equilibrada entre os valores da variável; 3. Todos os valores da variável são incluídos no cálculo da média; 4. A média é um valor único que pertence ao intervalo dos dados; 5. A média é influenciada pelos valores extremos.

66 Vantagens da Média Fácil de compreender e aplicar; utiliza todos os valores da variável; é um valor único; fácil de incluir em equações matemáticas; pode ser aplicada nas escalas intervalar e proporcional.

67 Desvantagens da Média É afetada por valores extremos; é necessário conhecer todos os valores da variável.

68 Qual das 3 medidas usar? Quando procuramos conhecer valores médios : a média. Ex.: em controle de qualidade, a média é utilizada para determinar se o processo está operando ao redor de um valor esperado, o alvo. Se a variável tiver valores extremos, a mediana é mais adequada. Ex.: variável salário. A moda é um valor típico. Variáveis qualitativas. Produtos mais consumidos.

69 Quando as medidas são iguais? A média, mediana e moda de uma variável são iguais somente quando sua distribuição de freqüência for simétrica. A comparação das medidas de tendência central de uma variável antecipam a forma da distribuição de freqüências de uma variável:

70 Média = Mediana = Moda Distribuição simétrica dos dados:

71 Distribuição Simétrica

72 Média > Mediana > Moda Se a relação entre as medidas for a média maior que a mediana, a distribuição terá inclinação na sua parte direita; esta inclinação será tanto mais acentuada quanto maior for a média em comparação com a mediana.

73 Distribuição Assimétrica (+)

74 Média < Mediana < Moda Se a relação entre as medidas for a média menor que a mediana, a distribuição terá inclinação na sua parte esquerda; esta inclinação será tanto mais acentuada quanto menor for a média em comparação com a mediana.

75 Distribuição Assimétrica (-)

76 Outros tipos de Médias Média Ponderada: dar um peso para cada valor da variável. A soma dos pesos é 100% (usar a freqüência relativa). Soma de cada valor multiplicado pelo seu peso dividido pela soma dos pesos. O cálculo da média ponderada é um caso particular da média aritmética; os pesos formam a distribuição de freqüência relativa; os pesos podem representar a importância de cada valor da variável.

77 Outros tipos de Médias Média Geométrica: é igual a raiz e-nésima de todos os valores multiplicados. A média geométrica é menos afetada por valores extremos; para um mesmo grupo de valores, a média geométrica é sempre menor que a média aritmética.

78 Outros tipos de Médias Média Harmônica: é a inversa da média aritmética das inversas dos valores da amostra. Página 89. Ou A inversa da média harmônica é a média da inversa dos valores da amostra.

79 Medidas de Ordem O interesse está em conhecer a posição de um determinado valor em relação ao grupo de valores. Calcular: Quartis Percentis

80 Quartis Os quartis são os valores que dividem os dados ordenados em quatro partes, com igual número de dados. O primeiro quartil (Q 1 ) delimita os 25% menores valores. O terceiro quartil (Q 3 ) é o valor que separa os 25% maiores valores. O segundo quartil é a própria mediana.

81 Box-Plot O diagrama dos 5 números é uma forma de resumir os dados com os quartis, extremos e o número de observações do conjunto de dados. Através desses números podemos ter informacões sobre a posição central, dispersão e assimetria da distribuição de freqüências. O diagrama em caixas é uma representação gráfica do diagrama dos 5 números. É uma maneira de representar graficamente aspectos relevantes de uma distribuição de freqüências.

82 Box-Plot Basicamente, traça-se dois retângulos: um representando o espaço entre o quartil inferior e a mediana; e o outro o espaço entre a mediana e o quartil superior. Esses dois retângulos representam a faixa dos 50% valores mais típicos da distribuição. Entre os Quartis e os extremos, traça- se uma linha. Essa linha é traçada até o limite de Q 3 + 1,5 (Q 3 Q 1 ) para a parte superior e Q 1 1,5 (Q 3 Q 1 ) para a inferior. Valores que caem fora dessas linhas são considerados valores discrepantes, sendo indicados por pontos.

83 Box-Plot

84 Percentis Ordenados os dados, os percentis são medidas que separam percentuais dos dados. Percentil 1: separa 1% dos menores dados; Percentil 20: separa 20% dos menores dados; Percentil 80: separa 80% dos menores dados e 20% dos maiores; etc....

85 Medidas de Dispersão

86 Exemplo Exemplo: A tabela abaixo mostra as notas finais dos alunos de três turmas e a nota média de cada turma.

87 Exemplo Embora as três turmas tenham a mesma média, as notas estão distribuídas de formas diferentes. A média resume o conjunto de dados em termos da posição central, ou de um valor típico, mas não fornece informação sobre o aspecto, por exemplo, de como os dados estão distribuídos.

88 Exemplo Comparando, digamos, as notas da turma A com a turma B, verificamos que a turma B é mais heterogênea, pois apresenta notas mais dispersas em torno da média. Na turma C, há uma nota discrepante das demais. A nota 0 contribui para diminuir a média. Note que a média está abaixo da maioria das notas da turma. De modo geral, é preciso cautela ao interpretar a média de dados distribuídos assimetricamente

89 Medidas de Dispersão Para medir a dispersão dos dados em torno da média, introduziremos o desvio médio, a variância e o desvio padrão dos dados: O desvio médio, a variância e o desvio padrão avaliam a dispersão do conjunto de dados em torno da média. Essas medidas dão uma idéia de quão homogêneos ou heterogêneos são os dados. Para calcularmos essas medidas, devemos considerar os desvios de cada valor em relação à média. Depois, constrói-se uma média desses desvios. Por exemplo, considere as notas da turma A:

90 Desvio da Média

91 Desvio Médio

92 Variância

93 MEDIDAS DE DISPERSÃO DESVIO MÉDIO: soma dos módulos dos desvios dividido pelo total de dados. VARIÂNCIA: soma dos quadrados dos desvios dividido pelo total de dados menos 1 (amostra). DESVIO PADRÃO: raiz quadrada positiva da variância. SÃO MEDIDAS MÉDIAS!!!!!!!!!!!

94 Variância é sempre um número positivo; se todos os valores de uma amostra forem iguais, a variância é zero; a variância é uma medida resistente, pois é afetada pelos valores extremos da variável.

95 Gráfico de Médias Representação gráfica dos valores da média e desvio padrão de uma variável quantitativa. O quadrado representa a média, e as barras o valor da média mais um desvio e da média menos um desvio. No eixo X colocamos a variável e no eixo Y uma escala que contenha os valores da média mais ou menos um desvio.

96 Gráfico de Médias

97 Medida Relativa de Dispersão Coeficiente de Variação = desvio padrão dividido pelo média Usado no caso de comparação entre amostras de médias diferentes.

98 Medida de Curtose


Carregar ppt "CAPÍTULO 4 Tipos de dados; Apresentação dos Dados (tabelas, gráficos e medidas)"

Apresentações semelhantes


Anúncios Google