A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura.

Apresentações semelhantes


Apresentação em tema: "Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura."— Transcrição da apresentação:

1 Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados. Os dados podem ser organizados: Em tabelas quando é importante a apresentação dos valores Em gráficos ou mapas apresentação de distribuições, tendências ou relacionamentos entre variáveis Resumidos com o uso de estatísticas. Análise Descritiva ou Análise Exploratória de Dados

2 Variável: é uma característica de interesse que se pode medir e que apresenta distintos valores Cada medida, ítem de formulário ou pergunta corresponde a uma variável que se deseja conhecer. Por exemplo: idade, sexo, pressão arterial são variáveis que podem ser medidas ou observadas. Sexo: M ou F / 0 ou 1 / 1 ou 3 Idade: qq valor fracionário a partir de 0. Análise Exploratória de Dados

3 Fisio 2001 REC INICIAIS SEXO IDADE BAIRRORESI ESCOLA2OGR ALTURA BRACO PAMS F 19 JACAREPAGUA PRIV ACPP F 21 JACAREPAGUA PUB LTK F 19 PIEDADE PRIV JAC F 22 PIEDADE PUB LSS F 19 MEIER PRIV PAGAC M 20 TIJUCA PRIV KNL F 20 TIJUCA PRIV VPR F 19 ENGENHO NOVO PRIV WFC F 21 WONA/BELFORD ROXO PUB PFS F 19 ILHA DO GOVERNADOR PRIV RRS F 19 CENTENARIO/DUQUE CAXIAS PRIV ARP F 19 VILA DA PENHA PUB AAN F 24 BAIRRO DE FATIMA/NITEROI PRIV PCCN F 21 ICARAI/NITEROI PRIV ALM F 22 PARAISO/SAO GONCALO PUB SM F 18 COPACABANA PRIV RCF F 19 CATETE PRIV TAG F 19 ICARAI/NITEROI PRIV AHM F 21 FLAMENGO PUB ASC F 18 CAMPO GRANDE PRIV MRBC F 18 TIJUCA PRIV ARP F 17 JARDIM AMERICA PRIV MRL F 17 VILA ISABEL PRIV JACG M 21 ILHA DO GOVERNADOR PRIV PLS M 20 BOTAFOGO PRIV CCD F 19 DEL CASTILHO PRIV VP F 21 OLARIA PUB PMAP F 17 MEIER PRIV VRC F 19 BRAS DE PINA PUB TSR F 20 TIJUCA PRIV PVMHB M 18 LARANJEIRAS PRIV TUP M 19 ILHA DO GOVERNADOR PRIV IAM F 19. PRIV

4 SEXO | Freq Percent F | % M | % Total | % ESCOLA2OGR | Freq Percent Cum PRIV | % 75.8% PUB | % 100.0% Total | %

5 ALTURA | Freq Percent Cum | 1 3.0% 3.0% 158 | 1 3.0% 6.1% 160 | 3 9.1% 15.2% 161 | 1 3.0% 18.2% 162 | 2 6.1% 24.2% 163 | 2 6.1% 30.3% 164 | 2 6.1% 36.4% 165 | 2 6.1% 42.4% 166 | 2 6.1% 48.5% 168 | % 60.6% 169 | 1 3.0% 63.6% 170 | % 75.8% 171 | 1 3.0% 78.8% 172 | 1 3.0% 81.8% 173 | 1 3.0% 84.8% 174 | 2 6.1% 90.9% 175 | 1 3.0% 93.9% 177 | 1 3.0% 97.0% 182 | 1 3.0% 100.0% Total | % Dificuldade de análise esta tabela não resumiu muito a informação § Variável quantitativa contínua § Distribuição de freqüências § Freqüência acumulada pode ser utilizada § 30% dos alunos têm 1,63m ou menos § a metade possui 1,66m ou menos; a outra metade, isso ou mais § 25% mais altos têm 1,70m ou mais § 3% têm 1,77m ou mais.

6 Análise Exploratória de Dados Numéricas Idade Peso Distância Salário Categóricas Sexo Raça Estado Civil Gravidade de doença Variáveis

7 Análise Exploratória de Dados Variáveis Numéricas Contínuas Altura(cm) Temperatura ( o C) Discretas N o de filhos N o de gânglios Variáveis Categóricas Ordinais Gravidade (L/M/S) Classe social (A/M/B) Incapacidade (I/lD/D) ASA Nominais Sexo Religião Raça Tipos de Variáveis

8 As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada. As variáveis podem ser medidas em quatro escalas básicas: nominal, ordinal, intervalar e de razão. Existem dois grandes grupos de variáveis: as categóricas ou qualitativas e as numéricas ou quantitativas. Basicamente, as variáveis categóricas são medidas nas escalas nominal e ordinal, enquanto que as variáveis quantitativas são mensuradas nas escalas intervalar e de razão. Análise Exploratória de Dados

9 As variáveis nominais são representadas por categorias que não mantêm necessariamente relação entre elas. Não é possível realização de operações aritméticas, como soma ou produto, sendo possível basicamente a contagem das observações em cada categoria. Exemplo: sexo, raça, diagnóstico Escalas nominal e ordinal Na escala ordinal as categorias podem ser representadas por nomes, símbolos ou números, porém há ordenação de uma categoria em relação à outra. A distância entre uma categoria e a outra não pode ser medida numericamente. Além da operação de contagem, permitem operações que envolvam ordenação (maior/menor). Exemplo: gravidade da doença

10 Na escala intervalar o valor nulo não corresponde à ausência da característica medida. A escala possui um zero arbitrário. Exemplo: temperatura - o 0 º C não corresponde `a ausência de temperatura, mas ao 0 º da escala Celsius. A escala de razão é uma escala intervalar, onde o zero corresponde à ausência da característica medida. Nesta escala, é válido afirmarmos que uma pessoa com 70Kg possui duas vezes o peso de uma criança com 35 Kg. Exemplo: massa corporal, idade, tempo, pressão arterial ou temperatura Kelvin. Escalas intervalar e de razão

11 Discretas valores inteiros. Ex: número de leitos, números de casos, número de procedimentos. Contínuas valores podem ser números fracionários e a variável pode apresentar qualquer valor pertencente ao conjunto dos números reais, só dependendo da precisão da medida. Ex: pressão arterial, peso. Geralmente, as variáveis contínuas são resultado de medição e as discretas, de contagens. Variáveis quantitativas

12 Um dos primeiros passos para análise de um conjunto de dados consiste na exploração da informação existente em cada variável separadamente, através da síntese de cada variável análise univariada. Análise Univariada Tabelas Gráficos Mapas Medidas de resumo ou Estatísticas

13 Apresentação tabular A apresentação tabular se faz mediante tabelas ou quadros (apresentam as bordas laterais fechando o conteúdo tabulado). Qualquer tipo de variável pode ser tabulada, porém há uma diferenciação na construção de tabelas dos diferentes tipos de variáveis.

14 Normas para elaboração de tabelas Toda tabela deve ser auto-explicativa Normas do IBGE para apresentação de tabelas As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita nem à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem de aparecimento. Os totais e subtotais são destacados (negrito, itálico, caracteres afastados etc). O título deve conter a descrição básica do conteúdo, local e época em que foram coletados os dados. Deverá ser mantida uniformidade quanto ao número de casas decimais.

15 Tabulação de variáveis nominais SEXOFreqüência absoluta Freqüência relativa Freqüência percentual Masculino2070,453945,39 Feminino2490,546154,61 Total4561, ,00 Distribuição de sexo dos recém-nascidos

16 Gráficos de variáveis nominais Gráfico de setores, pizza, torta Gráfico de colunas Gráfico de barras

17 Elementos de percepção visual Setores: % Somam 100%

18 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Assemelha-se à construção de tabelas de variáveis categóricas nominais Respeitar a ordem natural das categorias. Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada. Grau de Anóxia NFPFP acumulada Sem Anóxia9422,12 Moderada15736,9459,06 Severa17440,94100,00 Total425100,00 Recém-nascidos, segundo o grau de anóxia

19 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Assemelha-se à construção de tabelas de variáveis categóricas nominais Respeitar a ordem natural das categorias. Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada. Recém-nascidos, segundo o grau de anóxia

20 Tabulação de variáveis: Ordinais Quantitativas Discretas com poucos valores Consultas de pré-natal NFP acumulada , ,6937, ,6248, ,6264,06 Número de consultas de pré-natal realizadas durante a gestação dos recém-nascidos ,6978, ,1985, ,0095,94 792,8198,75 810,3199,06 900,0099, ,94100,00 Total320100,00

21 Gráfico de variáveis ordinais ou quantitativas discretas com poucos valores

22 Tabulação de variáveis quantitativas Criação de intervalos de valores (classes). Permite acrescentar freqüência percentual acumulada. Distribuição dos pesos dos prematuros , ,1012, ,7027, ,3750, ,0276, ,87100,00 Classes de pesos pm i nini fp i Fp i Total ,00

23 Gráficos de variáveis quantitativas Histograma

24 Gráficos de variáveis quantitativas Polígono

25 Gráficos de variáveis quantitativas Polígono

26 Diferentes formatos de histogramas simétrico assimétrico à esquerda assimétrico à direita truncado multimodal

27 Histogramas com classes de tamanhos diferentes

28 Medidas de resumo ou estatísticas Síntese numérica: medidas de resumo Além das tabelas de freqüências, as variáveis podem ser resumidas em medidas que informam o centro dos dados e a variabilidade dos mesmos em relação a este centro. Medidas de Posição ou de Tendência Central - média, mediana, moda Medidas de Dispersão ou de Variabilidade – amplitude, distância interquartílica, desvio médio, variância, desvio padrão e coeficiente de variação.

29 Faixa de rendapessoas% da PEA% acumulado < 1 * ,2 1 a ,457,7 2 a ,169,8 3 a ,181,9 5 a ,192,0 10 a ,696,6 20 ou ,298,8 sem declaração ,2100,0 Total da PEA *inclui os sem rendimento ,1 Média estimada = 3,3 s.m.

30 Medidas de tendência central Média Aritmética X = = Mediana x Valor x i (metros): 1,201,221,231,251,261,271,281,291,30 Ordem:1º1º 2º2º 3º3º 4º4º 5º5º 6º6º 7º7º 8º8º 9º9º 1,80 X=1,31

31 Medidas de tendência central A média aritmética é muito sensível à presença de valores extremos enquanto que a mediana não. Pode- se dizer que a mediana é mais robusta que a média. Em distribuições simétricas, a média e a mediana possuem valores iguais. simétrico assimétrico à esquerda assimétrico à direita Média=medianaMédia < medianaMédia > mediana

32 Medidas de posição Percentis - medidas que dividem um conjunto de dados em diversas partes são úteis na apresentação da distribuição de seus valores, principalmente se o conjunto de dados é não simétrico. Os percentis dividem um conjunto de dados em cem partes de igual tamanho A mediana representa o percentil 50. Quartis – 1o. e 3o. Quartis (25% e 75%) Quintis - 20%, 40%, 60% e 80%.

33 Gráficos de variáveis quantitativas Box plot

34

35

36

37

38

39 Medidas de dispersão Amplitude Desvio médio Variância Desvio padrão Coeficiente de variação Distância interquartílica

40 Dispersão ou variabilidade

41 Aluno A: Aluno B: Aluno C: Aluno D: Aluno E: Notas Medidas de dispersão

42 Amplitude A amplitude total (A t ) é apenas uma indicação aproximada da dispersão ou variabilidade. É definida como a diferença entre o maior e o menor valor do conjunto de dados. A t = valor máximo – valor mínimo Ex: 5, 5, 5, 5 A t =0 4, 4, 6, 6 A t =2 0, 5, 5, 10 A t =10 Fácil de calcular, mas leva em conta apenas dois valores, desprezando a informação das outras observações do conjunto muito sensível à presença de valores extremos. É comum apresentar-se a medida de tendência central acompanhada do valor mínimo e máximo entre parênteses e não a amplitude.

43 Nota (E)desviodesvio absolutodesvio quadrático x 1 = 0d 1 =0-5 = x 2 = 0d 2 =0-5 = x 3 = 10d 3 =10-5 = 5525 Total d i = (x i -x) = 0 da i = |x i -x| = 20 (x i -x) 2 =100 d i = x i -xda i = |x i -x|dq i = (x i -x) 2 x 4 = 10d 4 =10-5 = 5525 x=20/4=5 dma i = |x i -x| = 5 n dmq i = (x i -x) 2 = 25 n Desvio médio xixi

44 Variância Exemplo: Notas do aluno C: 4, 4, 6, 6 V A = 0 V B = 1,33 V C = 2 V D = 16,67 V E = 33,33

45 Desvio padrão Sendo a variância uma medida que expressa um desvio quadrático médio, a unidade dela é o quadrado da unidade dos dados, e isto pode causar algumas dificuldades de interpretação. Para contornar esta situação, costuma-se usar a raiz quadrada da variância, o que é denominado de desvio padrão. O desvio padrão é mais adequado porque tem a mesma unidade dos dados. Variância Desvio Padrão S 2 = (x i -x) 2 /n-1 S = (x i -x) 2 /n-1

46

47

48 A B C

49 Coeficiente de variação O desvio padrão, isoladamente, tem interpretação limitada sobre a variabilidade de um conjunto de dados. Medida de dispersão é nula sabe-se imediatamente que o conjunto de dados é composto por valores iguai. Quando deseja-se comparar uma variável entre grupos que apresentam valores com ordens de grandeza distintas. Supondo a comparação de renda entre um grupo de indivíduos desprivilegiado economicamente, com média de renda de 1 salário mínimo e desvio padrão de 1 salário mínimo, com outro grupo privilegiado economicamente, cuja média de renda é de 30 salários mínimos e mesmo desvio padrão do primeiro grupo. Grupo A Grupo B Renda (salários mínimos) 1 (1) 30 (1) média (desvio padrão) Supondo uma outra situação onde deseja-se comparar duas variáveis diferentes para um grupo de indivíduos

50 Faixas de referência §Faixa de normalidade, valores de referência ou faixa de referência §Variabilidade de determinada característica em uma população. §Auxilia na caracterização do que é típico em uma determinada população. §Empregado nos resultados de exames de laboratório §Não quer dizer que estar fora da faixa de referência seja ser doente. §Podemos usar média e desvio-padrão / percentis.

51 Faixas de referência concentração de colesterol Média ± 2 x desvio-padrão 95% Percentil 2,5 e percentil 97,5

52

53

54 Análise Bivariada Uma vez analisada e caracterizada cada variável do conjunto de dados, pode-se prosseguir a análise exploratória estudando a relação entre variáveis. É importante a análise da variável desfecho (resposta ou dependente), por exemplo, em relação aos fatores de risco e confundimentos. Esta é uma etapa importante, onde são levantadas hipóteses a serem testadas posteriormente com os métodos estatísticos específicos. Tabelas de freqüência de dupla entrada apresentação das informações de uma variável distribuídas pelas categorias de uma segunda variável

55 Duas variáveis categóricas Pré- Natal Nascido Vivo ÓbitoTotal N%N%N% Sim15554,213145,828673,1 Não3028,67571,410526,9 Total18547,320652, ,0 Óbito neonatal, segundo realização ou não de pré-natal

56 Duas variáveis categóricas

57 Hipertensão Tota l Não % linha78.7%21.3% % coluna 91.4%75.2%87.4%Sim % linha51.3%48.8% % coluna 8.6%24.8%12.6%Tota l Obeso* NãoSim 75.2%24.8%100.0% Hipertensão Tota l Não % linha78.7%21.3% % coluna 91.4%75.2%87.4 % Sim % linha51.3%48.8% % coluna 8.6%24.8%12.6 % Tota l Obeso* NãoSim 75.2%24.8%100. 0% * Obeso=sim: IMC 30 kg/m 2

58 Série histórica entre grupos Relação entre variável quantitativa discreta e categórica - análises de séries históricas, segundo grupos ou categorias, etapa importante na análise exploratória de séries de dados no tempo. N o de casos de Aids em homens e mulheres de 1984 a 1996 no Brasil

59 Variáveis quantitativa e categórica Relação entre variável categórica e variável quantitativa contínua - apresentação tabular, onde a variável quantitativa contínua é apresentada em intervalos (classes) e as freqüências absolutas e percentuais são apresentadas, segundo cada código da variável categórica. Categorias de peso, segundo o sexo dos recém-nascidos

60 Variáveis quantitativa e categórica Outra maneira de apresentar variáveis quantitativas contínuas segundo diferentes códigos de uma variável categórica é através da utilização de medidas resumo, para cada categoria. Esta fase é fundamental no levantamento de hipóteses para posterior teste estatístico SexoPeso em g MédiaDesvio Padrão Masculino1162,4271,3 Feminino1135,4257,6 Categorias de peso, segundo o sexo dos recém-nascidos

61 Duas variáveis quantitativas Relação entre variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre peso e comprimento dos recém-nascidos.

62 Duas variáveis quantitativas Diagrama de espalhamento ou scatter plot Relação entre IMC e pressão arterial sistólica – adultos I.Gov.

63 Coeficiente de correlação de Pearson

64 Mapas de pontos

65 Polígono ou estrela


Carregar ppt "Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura."

Apresentações semelhantes


Anúncios Google