Faculdade de Odontologia Estatística Descritiva Ivan Balducci Dr Phil Rowe Reader in Pharmaceutical Computing (Room 748) John Moores University Byrom Street Liverpool L3 3AF Phone 0151 231 2069 Fax 0151 231 2170 e-mail P.H.Rowe@livjm.ac.uk Faculdade de Odontologia São José dos Campos UNESP
Estatística Descritiva Resume um número grande de observações
Termos que devem ser familiares: Tabela Histograma Box-Plot Desvio Padrão Coeficiente de variação Tendência Central Dispersão Média Mediana Moda
Estatística Descritiva Indicadores de tendência central (grandeza dos números) Indicadores de dispersão (variabilidade dos números)
Indicadores de tendência central Média Mediana Moda
Média aritmética Obs Soma das observações Número de observações n Sigma = Soma de... Número de observações
Tendência central: Exemplo 1 Alturas de Homens (m) 1,90 1,93 1,98 1,91 1,80 1,84 1,88 2,03 1,96 1,86 Média = Alturas n = 19,09m 10 = 1,909m
A média indica uma altura representativa? 2.05 2.00 1.95 1.90 1.85 1.80 1.75 A média indica uma altura que é representativa do grupo. Neste caso, a média é um indicator satisfatório de tendência central. Média
Tendência central: Exemplo 2 Tempo p/ crianças completarem um quebra-cabeças (s) 42 52 65 390 58 30 582 87 47 39 23 43 256 55 43 15 67 62 183 33 54 467 49 29 38 76 31 40 49 56 214 70 47 35 43 58 101 45 33 Média = Tempo n = 3707 s 39 = 95,05 s
A média indica um tempo representativo? 600 500 400 300 200 100 A média indica um tempo representativo? A média indica um tempo que não é típico. No caso, uma criança que leva 95 s é de fato lenta. Um pequeno número de outliers produziram efeito desproporcionado sobre a média. Média
Mediana Um valor escolhido de tal forma que divide os dados em duas partes, com igual número de observações acima e abaixo do valor escolhido
Encontrando a mediana por ordenação Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43 posição: 1 2 3 4 5 6 7 8 9 10 11 12 13 Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58 posição: 14 15 16 17 18 19 20 21 22 23 24 25 26 Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582 posição: 27 28 29 30 31 32 33 34 35 36 37 38 39 Há 19 crianças +rápidas e 19 - rápidas do que a criança indicada. A mediana é 49 s.
A mediana indica um tempo representativo? 600 500 400 300 200 100 A mediana indica um tempo representativo? A mediana indica um tempo que é razoavelmente típico. Uma criança que leva 49s não é especialmente rápida ou lenta. Mediana
Efeito de extremos: valores discrepantes Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43 posição: 1 2 3 4 5 6 7 8 9 10 11 12 13 Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58 posição: 14 15 16 17 18 19 20 21 22 23 24 25 26 Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582 posição: 27 28 29 30 31 32 33 34 35 36 37 38 39 9000 Mediana é descrita como ‘Robusta’. Ela é resistente aos efeitos de alguns valores discrepantes.
Cálculo da mediana com um número par de observações Valores: 2 4 6 6 7 9 12 2 0 posições: 1 2 3 4 5 6 7 8 Localize o par central. Valores são 6 e 7 Mediana = 6,5 Md = [(n/2) + ((n/2) +1)] /2 = 4º e 5º
Moda Valor que ocorre com um pico de freqüência Não há fórmula para o cálculo da moda
Tendência central: Exemplo 3 Número de dentes presentes em uma população de idosos 13 12 11 10 9 8 7 6 5 4 3 2 1 *** ******** **************************** ***************************** ***************** ********** **** ****** *********** ********* ******************** ***** Moda (Aprox. 9) Mediana = 8 Média = 6,69 Moda (Aprox. 1)
Indicadores de tendência central O indicador padrão. OK para muitos conjuntos de dados Usada com frequência Muito rara - apenas usada com dados polimodais Média Mediana Moda
Indicadores de dispersão Desvio-Padrão Coeficiente de variação
Peso de camundongos (g) Animais de laboratório ração Animais selvagens alimentação natural 17 23 21 20 19 26 19 17 21 23 18 20 22 10 23 13 20 30 20 18 Total 200g Total 200g Média 20g Média 20g
Peso de camundongos (g) laboratório selvagens 30 25 20 15 10
Desvio Padrão – camundongos de laboratório Pesos Desvio Desvio da média ao quadrado 17 g -3 g 9 21 +1 1 19 -1 1 18 -2 4 22 +2 4 23 +3 9 20 0 0 30 (Soma)2 = 30 (Soma)2 = 30 = 3,33 n-1 9 3,33 = 1,83
Desvio Padrão – camundongos selvagens Pesos Desvios Desvios da média ao quadrado 23 g +3 g 9 20 0 0 26 +6 36 17 -3 9 23 +3 9 10 -10 100 13 -7 49 30 +10 100 18 -2 4 316 (Soma)2 = 316 SS = 316 = 35,11 n-1 9 35,11 = 5,93 g
Desvio-Padrão Comparação Peso médio camundongo de laboratório = 20 ± 1,83 g (± D.P.) Peso médio camundongo selvagem = 20 ± 5,93 g (± D.P.) Mesma tendência central Diferente dispersão
Coeficiente de variação C.V. = D.P. Média Pode ser expresso em porcentagem. C.V. (%) p/ camundongos selvagens=(5,93/20)x100=29,65% C.V. (%) p/ camundongos de laboratório=(1,83/20)x100=9,15%
Tendência Central Fórmula Prós Contras Média Mediana Moda Σx/ N * é precisa * é apenas um valor para os dados *Assimetria produzida pelos outliers * Média pode não ser realista Mediana Valores Ordenados, então (N+1)/2 * Não é influenciada pelos outliers * Não é boa se os dados não se aglomeram ao redor da mediana Moda Maior Frequência * Pode ser bimodal * Não precisa estar perto da metade * Imprecisa
HISTOGRAMA Os retângulos são desenhados de modo que a área de cada retângulo seja proporcional à freqüência
Histograma: conjunto de retângulos justapostos Área retângulo= base x altura = bj * fj (fj =frequência da classe) xj-1 xj X Base retângulo= xj – xj-1 = bj = amplitude da classe Se a base = 1 ...então a área = freqüência
Exemplo: Notas de exame de uma classe de 80 alunos
Notas de exame de 80 alunos: Distribuição agrupada de freqüências
Notas de exame de 80 alunos dispostas em um gráfico de barras
Box Plot ou esquema dos 5 números Mínimo 1º quartil 2º quartil (Mediana) 3º quartil Máximo
Quartis 25% Menor Valor Q1 25º Percentil Maior Valor M Q3 1º Quartil
Quartis 25% 50% Menor Valor Q1 25º Percentil Maior Valor Q1 Mediana 1º Quartil 2º Quartil
Quartis 75% 25% 50% Menor Valor Q1 25ºPercentil Q1 Q3 75º Percentil Mediana 50º Percentil Maior Valor 1º Quartil 2º Quartil 3º Quartil
Faixa = Maior Valor - Menor Valor Q1 Maior Valor M Q3 Faixa
Faixa Interquartil = Q3 - Q1 Menor Valor Q1 Maior Valor M Q3 IQR
Simetria Os valores dos dados se dispersam igualmente ao redor de um valor central Valores
Os valores dos dados são Espelho-Imagem ao redor de um ponto Simetria Os valores dos dados são Espelho-Imagem ao redor de um ponto Valores Um lado é o Espelho - Imagem do outro
Os valores se dispersam igualmente ao redor de um valor central Simetria Os valores se dispersam igualmente ao redor de um valor central Média = Mediana
Assimetria-Positiva Os valores dos dados se dispersam para a Direita
Assimetria-Positiva Mediana < Média Os valores dos dados se dispersam para a Direita Mediana < Média Média situa-se à direita da mediana
Assimetria-Negativa Os valores dos dados se dispersam para a Esquerda
Assimetria-Negativa Média < Mediana Os valores dos dados se dispersam para a Esquerda Média < Mediana Média situa-se à esquerda da mediana
Box Plot 100 95 Q3 90 Notas Metade dos dados 85 80 Q1 75 70
Box Plot 100 95 Q3 90 Notas 85 Metade dos dados M 80 Q1 75 70
Box Plot Máximo Q3 Dispersão dos Dados M Q1 Mínimo Notas 100 95 90 85 80 Q1 75 Mínimo 70
Forma da Distribuição Box-Plots Esq-Assim. Simétrica Dir-Assim. Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 1 3
Números não falam por si mesmos Tabelas Forma não discursiva de apresentar informações, nas quais o dado numérico se destaca como informação central Números não falam por si mesmos
Elementos da Tabela Título Corpo Cabeçalho Coluna indicadora
Elementos da Tabela Título: explica o que a tabela contém Corpo: formado pelas linhas e colunas de dados (números) Cabeçalho: especifica o conteúdo das colunas Coluna Indicadora: especifica o conteúdo das linhas
Causa Freqüência Acidente Abuso Suicídio Profissional Outras Ignorada Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993. Causa Freqüência Acidente Abuso Suicídio Profissional Outras Ignorada 29601 2604 7965 3735 1959 1103 Fonte: MS/FIOCRUZ/SINITOX
Título: Casos registrados... Cabeçalho: Causa Freqüência Coluna Indicadora: especificações Acidente, Abuso, Suicídio etc.. Corpo: 29601 2604 7965 3735 1959 1103
MÍNIMO de 3 TRAÇOS HORIZONTAIS PARALELOS Estruturação MÍNIMO de 3 TRAÇOS HORIZONTAIS PARALELOS O 1º p/ separar o TOPO O 2º p/ separar o CABEÇALHO O 3º p/ separar o RODAPÉ (espaço inferior da tabela destinado à fonte, às notas, chamadas...) No nosso exº: Fonte: MS/FIOCRUZ?SINTOX
Tabela desnecessária !!! Grupo Nº de ratos Sexo Idade Controle 20 M 20 a 30 dias Tratado “Tanto o grupo controle como o grupo tratado foram constituídos por 20 ratos machos com idades variando entre 20 e 30 dias”
Estatística descritiva dos pesos (g) adquiridos pelos camundongos selvagens e de laboratório 10 Média 20,00 Desvio Padrão 1,83 5,93 C. V. (%) 9,15 29,65
Exemplos- Estatística Descritiva na Literatura Odontológica
Cesário Antonio DUARTE Rev Odontol Univ São Paulo Avaliação Crítica da Aplicabilidade do Índice de O’LEARY em Relação aos Índices de GREENE-VERMILLION e de LÖE & SILNESS Cesário Antonio DUARTE Rev Odontol Univ São Paulo v.8, n.4, p.301-307, out.dez. 1994.
Índice Gengival Períodos Média Desvio Padrão 1,43 0,41 1 1,19 0,39 2 TABELA 1. Médias e desvios padrões dos índices em seis períodos de avaliação. Períodos Média Desvio Padrão 1,43 0,41 1 1,19 0,39 2 1,10 0,45 3 0,98 0,52 4 0,80 0,43 5 0,63 0,42
Investment strength as a function of time and temperature C.L. Chew, M.F. Land, C.C. Thomas, R.D. Norman Journal of Dentistry 27 (1999) 297-302
Tabela 1. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. Temperatura ambiente. Revestimento 2h 6h 12h 24h Cerafina 4,23(0,20) 6,63(0,25) 6,14(0,43) 7,55(0,35) Ceramigold 3,39(0,14) 5,31(1,19) 5,81(0,42) 8,79(0,38) Novocast 4,03(0,21) 4,08(0,24) 3,95(0,24) 4,23(0,36)
Tabela 2. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 700ºC. Revestimento 2h 6h 12h 24h Cerafina 16,24(1,76) 17,75(1,08) 16,80(1,81) 14,99(1,86) Ceramigold 14,18(1,64) 15,35(1,01) 12,20(0,50) 10,13(0,56) Novocast 4,9(0,42) 5,17(0,18) 5,29(0,25) 4,24(0,51)
Tabela 3. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 872ºC. Revestimento 2h 6h 12h 24h Cerafina 22,39(1,78) 21,09(2,42) 20,15(1,98) 22,26(1,67) Ceramigold 14,58(0,56) 13,60(1,11) 12,69(1,22) 11,23(1,05)
Tendência Central Dispersão Média Mediana Moda Tabela Histograma Box-Plot Dispersão Desvio Padrão Faixa Faixa Inter-quartil