Análise estatística de dados da PNAD: incorporando a estrutura do plano amostral Pedro Luís do Nascimento Silva, Djalma Galvão Carneiro Pessoa e Maurício Franca Lila, Ciência & Saúde Coletiva, 7(4): ,2002.
PNAD A Pesquisa Nacional por Amostra de Domicílio (PNAD) do IBGE (Instituto Brasileiro de Geografia e Estatística) tem como objetivo o levantamento de características socioeconômicas da população. Alguns temas possuem periodicidade permanente como educação, trabalho e rendimentos. Outros são levantados de acordo com as necessidades de informação, possuindo periodicidade variável e sendo abordadas em suplementos como as questões referentes à migração, saúde, fecundidade, dentre outras características da população. As informações referentes ao acesso e utilização de serviços de saúde e ao estado de saúde são coletadas em suplementos de saúde realizados em parceria com o Ministério da Saúde e possuem periodicidade quinquenal desde 1998.
Nos anos 1998 e 2003 as pesquisas cobriram apenas a área urbana da região Norte, com exceção do estado do Tocantins que foi retratado em sua totalidade. Desse modo, as informações referentes à região Norte, envolvem apenas a parcela da população que vive na área urbana. Na PNAD 1998 foram entrevistadas pessoas em unidades domiciliares, enquanto na PNAD 2003 foram pesquisadas pessoas e domicílios. A PNAD 2008 incorporou a área rural da região Norte. Com isso foram pesquisadas pessoas e unidades domiciliares, distribuídas por todas as unidades da federação. Em todos os anos, a amostra foi restrita aos indivíduos com dez anos ou mais e com declaração de rendimento.
PNAD contínua Desde 2012 Mensal, para um conjunto restrito de indicadores relacionados à força de trabalho e somente para o nível geográfico de Brasil; trimestral, para indicadores relacionados à força de trabalho; anual, para os demais temas permanentes da pesquisa e indicadores complementares relacionados à força de trabalho; e variável, para outros temas ou tópicos dos temas permanentes a serem pesquisados com maior periodicidade ou ocasionalmente.
Na PNAD, é realizada uma estratificação geográfica na qual o país é dividido em 36 estratos naturais: (i) dezoito unidades da federação formam cada uma delas um estrato independente e (ii) as outras nove (Pará, Ceará, Pernambuco, Bahia, Minas Gerais, Rio de Janeiro, São Paulo, Paraná e Rio Grande do Sul) dão origem a dois estratos, um formado por todos os municípios da região metropolitana e outro com os demais municípios da unidade.
Nos nove estratos formados pelas regiões metropolitanas, o plano de amostragem é realizado em dois estágios e os psus (unidade primária de amostragem) são formados pelos setores censitários. Nos outros vinte e sete estratos, a amostragem é realizada em três estágios: no primeiro estágio, os municípios são os psus, que são classificados em autorepresentativos (probabilidade 1 de pertencer a amostra) e não representativos. Os não representativos passam por um processo de estratificação em que a seleção ocorre com reposição e com probabilidade proporcional ao tamanho da população no último censo demográfico. Num segundo estágio, setores censitários são selecionados em cada município por probabilidade proporcional e com reposição. Finalmente, num último estágio, em cada setor censitário são selecionadas unidades domiciliares com equiprobabilidade para investigação das características dos moradores e de habitação.
Comum a utilização de dados da PNAD para a construção e ajuste de modelos em análises secundárias usando, por exemplo, modelos de regressão, modelos de regressão logística, modelos de regressão multinomial logística. Tais análises frequentemente usam para a modelagem pacotes estatísticos que se baseiam em hipóteses válidas somente quando os dados são obtidos através de amostras aleatórias simples com reposição.
Problema O desenho amostral da PNAD incorpora todos os aspectos que definem um “plano amostral complexo”: estratificação das unidades de amostragem, conglomeração (seleção da amostra em vários estágios, com unidades compostas de amostragem), probabilidades desiguais de seleção em um ou mais estágios e ajustes de pesos amostrais para a calibração com totais populacionais conhecidos.
Consequência Dados obtidos através das amostras das PNADs não podem ser tratados como se fossem observações independentes e identicamente distribuídas (isto é, como se tivessem sido gerados por amostras aleatórias simples com reposição), como fazem os procedimentos usuais de análise disponíveis nos pacotes estatísticos padrão.
Estimativas pontuais de medidas descritivas da população: influenciadas pelos pesos distintos das observações Estimativas de variância e desvio padrão e estimativas de parâmetros para ajustes de alguns tipos de modelos: influenciados conjuntamente pela estratificação, conglomeração e pesos. Ao ignorar esses aspectos podem ser obtidos resultados incorretos tanto para as estimativas pontuais como para os respectivos desvios-padrão e níveis de significância, o que pode comprometer a qualidade de ajuste dos modelos e a interpretação dos resultados obtidos.
O que vamos fazer a respeito? IGNORAR O ideal seria, por exemplo, calcular os devios-padrão por boostrap em amostras complexas. Neder (2010) explica como fazer isso no Stata. NEDER, H. D. Análise de indicadores sociais utilizando o STATA p. Universidade Federal de Uberlândia, Uberlândia, Disponível em:. LISE_POLITICAS_SOCIAIS.pdf