Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas
Apresentação de Dados Qualitativos Distribuição de frequências: Variáveis qualitativas nominais: a distribuição de frequências é, simplesmente, uma lista das categorias ou valores que uma ou mais variáveis apresentam em conjunto com a quantidade de ocorrências (número) de cada valor ou categoria. Esta quantidade é denominada de frequência absoluta (No.). Também, podemos calcular a frequência percentual de cada categoria (%). Tabela univariada: resume todos os valores ou categorias de uma variável. Tabela 1: Alunos segundo sexo Sexo No. % Feminino 20 69% Masculino 9 31% Total 29 100%
Apresentação de Dados Qualitativos Gráficos para variáveis Nominais: Tabela 1: Alunos segundo sexo Sexo No. % Feminino 20 69% Masculino 9 31% Total 29 100%
Apresentação de dados qualitativos Tabela bi-variada: resume todos os valores ou categorias de duas variáveis. Tabela 2: Alunos segundo sexo e idade
Apresentação de dados qualitativos Tabela bi-variada: resume todos os valores ou categorias de duas variáveis. Tabela 3: Distribuição de alunos segundo o usa do computador por sexo Usa o computador? Sexo Feminino Masculino Total Sim 55% 21% 76% Não 14% 10% 24% 69% 31% 100%
Apresentação de dados qualitativos Variáveis Ordinais Tabela 4: Perspectiva inicial e atual dos funcionários Escala Perspectiva Inicial Perspectiva Final No. % 1 0% 2 3 4 5 3% 6 10% 7 20% 13% 8 10 33% 17% 9 27% 12 40% Total 30 100%
Apresentação de dados quantitativos Distribuição de frequências - dados agrupados - Geralmente trabalhamos com conjuntos de centenas ou milhares de observações, onde uma análise razoável torna-se impraticável. Taxa de desistência de cartões de crédito CREDICARD Ponto médio xi Freq. Absoluta Freq. Cumulada Crescente 0,0 ├ 10,0 5 1 10,0 ├ 20,0 15 10 11 20,0 ├ 30,0 25 26 30,0 ├ 40,0 35 7 33 40,0 ├ 50,0 45 50,0 ├ 60,0 55 60,0├ 70,0 65 34 Total Nestes casos, podemos construir distribuições de frequências, agrupando resultados em classes pré estabelecidas. As classes são pequenos intervalos mutuamente exclusivos.
Histograma de Freqüências Polígono de Freqüências Ogiva
Estatísticas Descritivas Medidas de tendência central Medidas de dispersão Medidas separatrizes
Medidas de tendência central: Xt ? Moda Mediana Média aritmética
A moda é o valor que ocorre mais freqüentemente nos dados. No exemplo abaixo, observamos que a moda é 20. Esta é a idade mais freqüente no grupo de 45 pessoas.
As propriedades da moda podem ser resumidas como segue: Muitas vezes a moda pode não ser uma boa medida descritiva, dado que para calcular a moda não são usadas todas as observações; A moda pode não ser um único valor, isto é, as observações podem apresentar mais de uma moda; Não podemos combinar modas para calcular uma média modal de duas modas separadas na distribuição; A moda é uma medida volátil, sensível a pequenas mudanças nas observações; A moda não é afetada por valores extremos (outliers).
· A mediana é o valor médio central após ordenarmos os dados em forma ascendente. (50%) (50%)
Para calcular a mediana devemos realizar os seguintes passos: ordenar as observações em forma ascendente; identificar o meio ou centro das observações; o valor médio central das observações é a mediana. Algebricamente, a mediana é o valor que ocupa a posição . Caso a razão não seja um número inteiro, toma-se como mediana a média dos dois valores de posições mais próximas a .
Na tabela de distribuição de freqüências do exemplo, observamos que o centro das observações está na posição (45+1)/2 = 23,
É possível determinar graficamente a mediana da distribuição de freqüências, usando a curva da freqüência acumulada (ogiva). Para o exemplo, a curva da distribuição percentual acumulada da distribuição de idades é mostrada na figura abaixo Como no eixo vertical está marcada a freqüência percentual,localizamos o valor 50%. Deste ponto puxamos uma linha na horizontal até a ogiva, e uma linha vertical até a interseção com o eixo dos x’s.Assim, a mediana corresponde à idade de 20 anos.
As propriedades da mediana podem ser resumidas como segue: · A mediana não é volátil como a moda. · A mediana, da mesma forma que a moda, não é particularmente sensível a valores extremos. · A mediana toma sempre um único valor. · A mediana é igual a um valor observado se o número de observações (n) é um número ímpar. · A mediana pode ser determinada graficamente.
Média aritmética O conceito da média aritmética, ou simplesmente média, é bastante familiar. · Para calcular a média, soma-se todas as observações e divide-se pelo número de valores somados. Matematicamente, se as n observações são representadas como: X1, X2, ... Xn, a média aritmética pode ser escrita como: que pode ser representada numa forma mais sucinta
No exemplo 2, a idade média é calculada como:
Taxa de desistencia de cartões de crédito CREDICARD Desvio padrão para dados em intervalos de classe Taxa de desistencia de cartões de crédito CREDICARD Ponto médio xi Freq. Absoluta (desvio) = (desvio)2 = 0,0 ├ 10,0 5 1 -19,7 388,09 10,0 ├20,0 15 10 125,3 15700,09 157000,9 20,0 ├30,0 25 350,3 122710,1 1840651 30,0 ├40,0 35 7 220,3 48532,09 339724,6 40,0 ├50,0 45 -24,7 610,09 50,0 ├60,0 55 60,0├70,0 65 40,3 1624,09 Total 34 2339389 68805,5588 e S = 262,3081.
As propriedades da média aritmética podem ser resumidas como segue: · Para calcular a média usa-se todas as observações disponíveis. · A média é afetada por valores extremos. · A média é uma medida estável a pequenas mudanças das observações. · A média não necessariamente será igual a um dos valores observados. · A média não pode ser determinada graficamente.
A escolha das medidas de tendência central Tipo de variável Nominal Ordinal Quantitativos Moda sim Mediana não Média
Comparação entre as medidas de tendência central:
Medidas de Dispersão Amplitude total dos dados (AT) AT = Xmax - Xmin. Esta medida depende apenas do menor e do maior valor do conjunto de dados. Em geral não é tão boa quanto as outras medidas de variação que levam em conta todos os valores.
Desvio Médio (DM) O desvio pela diferença di = (Xi – média) mede o quão longe o dado está da média. Entretanto, a soma desses desvios sempre é igual a zero. Assim, uma medida de dispersão pode ser definida como o módulo dos desvios:
Outra medida de dispersão é definida como o desvio quadrático (desvio)2. Variância (2, S2) Desvio Padrão (, S)
Para Entender o Desvio-Padrão Devemos ter em mente que o desvio padrão mede a variação entre valores. Valores próximos uns dos outros originam desvios-padrão menores, enquanto valores muito afastados uns dos outros dão um desvio-padrão maior. Uma regra prática que utiliza a amplitude para obter uma estimativa bastante rudimentar do desvio padrão é: Uma regra prática: Desvio padrão
Regra empírica: aplicável somente a conjuntos de dados com distribuição aproximadamente simétrica (forma de sino). 99% 95% 68%
Coeficiente de Variação (CV) Onde: é a média aritmética e e a variância.
Outras Medidas de Posição: Quartis: Divide a distribuição em 4 partes iguais. Há três quartis denotados por Q1, Q2 e Q3 ,que dividem os dados ordenados em 4 grupos com 25% das observações em cada grupo; Decis: Divide a distribuição em 10 partes iguais. Há nove decis, denotados por D1, D2, ... D9 , que dividem os dados em 10 grupos com cerca de 10% das observações em cada grupo. Percentis: Divide a distribuição em 100 partes iguais. Há 99 percentis, que dividem os dados em 100 grupos com cerca de 1% das observações em cada grupo.
Pontos discrepantes Diagrama em caixas – Box-Plot
Diagrama em caixas – Box-Plot Atípicos Atípicos Valores maiores do que Q3 + 1,5(Q3 - Q1) ou menores do que Q1 - 1,5(Q3 - Q1) são considerado atípicos.
Valores maiores do que Q3 + 3(Q3 - Q1) ou menores do que Q1 - 3(Q3 - Q1) são considerados outliers.
Medidas de Assimetria Primeiro Coeficiente de Pearson: Segundo Coeficiente de Pearson: Se As < 0 a distribuição é assimétrica negativa; As = 0 a distribuição é simétrica; As > 0 a distribuição é assimétrica positiva.
Medidas de Curtose Curtose é o grau de achatamento de uma distribuição que pode ser medido utilizando o seguinte coeficiente: Onde: Q1 e Q3 são os quartis, P90 e P10 são os percentis. Se K > 0,263 a distribuição de freqüências é platicúrtica; K = 0,263 a distribuição de freqüências é mesocúrtica; K < 0,263 a distribuição de freqüências é leptocúrtica.