A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MISSING DATA (Dados Omissos ou Dados Faltantes) Luciana Nunes

Apresentações semelhantes


Apresentação em tema: "MISSING DATA (Dados Omissos ou Dados Faltantes) Luciana Nunes"— Transcrição da apresentação:

1 MISSING DATA (Dados Omissos ou Dados Faltantes) Luciana Nunes lununes@mat.ufrgs.br http://redeabe.org.br/English_PortugueseSPE_ABE.pdf

2 Missing Data Missing data are not merely a nuisance during data analysis. Incomplete data problems can and should inspire good scientific thinking. Stef van Buuren and Rob Eisinga 2003

3  Dados faltantes são bastante comuns na prática!!!  Problemas:  Perda de eficiência nas estimativas  Perda de poder nos testes  Complicação na análise dos dados  Viés: respondentes  não respondentes INTRODUÇÃO

4  Importante: escolha da abordagem analítica adequada para bancos de dados com observações incompletas. Métodos inadequados INTRODUÇÃO conclusões erradas

5 Qual a solução?? Restringir a análise aos sujeitos com dados completos Abordagens modernas: Imputação Múltipla Métodos de máxima verossimilhança

6 Mecanismos de não resposta  MCAR (Missing Completely at Random) Dados são faltantes completamente ao acaso quando as razões para as perdas não são relacionadas a quaisquer respostas dos sujeitos, incluindo o valor faltante. Por exemplo, um tubo de amostra sanguínea do paciente que é derrubado no laboratório.

7 Mecanismos de não resposta  MAR (Missing at Random) Dados faltantes são considerados MAR quando o padrão de perda em uma variável é previsível a partir de outras variáveis no banco de dados e não é devido à variável específica na qual os dados são perdidos. Por exemplo, considere uma pesquisa na qual as mulheres são menos propensas a fornecer sua renda pessoal. Se conhecermos o sexo de todos os sujeitos e tivermos a renda para algumas mulheres, estimativas não viesadas da renda podem ser feitas. Isto porque a renda que se tem de algumas mulheres é uma amostra aleatória das rendas de todas as mulheres.

8 Mecanismos de não resposta  NMAR (Missing Not at Random) O dado faltante é não aleatório se está relacionado com os valores não observados, mesmo se controlado para outras variáveis na análise. Dados que são mais propensos a serem faltantes, em geral, são aqueles situados nos extremos da distribuição, com valores mais altos ou mais baixos do que o padrão da amostra. Um exemplo é quando sujeitos com níveis de renda muito baixos ou muito altos têm probabilidade menor de responder sobre sua renda pessoal numa entrevista.

9 Padrões de não resposta

10

11 Para entender missing data Schafer, JL, and Graham, JW. Missing data: our view of the state of the art. Psychological Methods, 2002; 7:147-177.

12 http://www.uvm.edu/~dhowell/StatPages/Mo re_Stuff/Missing_Data/Missing.html

13 http://www.nd.edu/~rwilliam/stats 2/l12.pdf

14 O que é imputação??? Técnica usada para “preencher” os dados faltantes com valores plausíveis.

15 Dados faltantes??? Variáveis Unidades                                         IMPUTAÇÃO

16 Métodos de imputação  Método da substituição (média, mediana)  Hot Deck (“doadores”)  Regressão (média predita)  Métodos para dados longitudinais Métodos de imputação única

17 Imputação única O dado ausente é preenchido uma única vez e então se utiliza o banco de dados “completo” para as análises.  A incerteza associada à imputação não é levada em conta!!!!

18 Imputação Múltipla (IM) Variáveis Unidades Imputações Conjunto de dados com m imputações       12m...

19 Idéia geral da IM Dados imputados Dados incompletos Resultados das análises Resultados finais ImputaçãoAnáliseCombinação

20 Regras de Rubin A partir de cada análise obtém-se estimativas para o parâmetro de interesse Q j, j=1,2,...,m, então a estimativa geral será: E a variância total levará em conta a variância dentro e entre as imputações.

21 Regras de Rubin E a variância total levará em conta a variância dentro e entre as imputações.

22 Proporção de dados faltantes Segundo Harrell (2001) é possível serem definidas linhas gerais para a escolha entre os métodos de imputação de acordo com a proporção de dados faltantes em qualquer uma das variáveis. Proporção  0,05  Neste caso pode ser usada imputação única ou analisar somente os dados completos. Proporção entre 0,05 e 0,15  Imputação única pode ser usada aqui provavelmente sem problemas, entretanto o uso da imputação múltipla é indicado. Proporção ≥ 0,15  A imputação múltipla é indicada na maior parte dos casos.

23 Aplicativos grátis AplicativoPágina na WEB IUIM Amelia http://gking.harvard.edu/amelia/ CAT http://www.stat.psu.edu/~jls/misoftwa.html#aut EMCOV http://methcenter.psu.edu/downloads/EMCOV.html NORM http://www.stat.psu.edu/~jls/misoftwa.html#aut MICE Free with R, commercial with S-Plus http://www.multiple-imputation.com MIXED Free with R, commercial with S-Plus http://www.stat.psu.edu/~jls/misoftwa.html#aut MX http://www.vcu.edu/mx/ PAN Free with R, commercial with S-Plus http://www.stat.psu.edu/~jls/misoftwa.html#aut

24 Aplicativos comerciais AplicativoPágina na WEB IUIM EQShttp://www.mvsoft.com/ Mplushttp://www.statmodel.com HLMhttp://www.ssicentral.com/hlm/index.html SAShttp://www.sas.com SOLAShttp://www.statsol.ie/solas/imputationtechniques.htm S-Plushttp://www.stat.psu.edu/~jls/misoftwa.html#aut SPSShttp://www.spss.com, módulo opcional Statahttp://www.stata.com, instalando ice ou mvis

25 Discussão Restringir análise aos casos completos pode levar a conclusões erradas. Na literatura tem sido recomendado que os dados faltantes sejam imputados. Imputação evita perda de poder.

26 Exemplos de artigos

27

28


Carregar ppt "MISSING DATA (Dados Omissos ou Dados Faltantes) Luciana Nunes"

Apresentações semelhantes


Anúncios Google