Capítulo 14 Pacotes para Analisar Dados Amostrais

14.1 Introdução

Os métodos usados na coleta dos dados de pesquisas por amostragem introduzem uma complexidade na análise, que deve ser considerada na obtenção de estimativas dos parâmetros de interesse e de seus níveis de precisão associados. Ao longo deste texto foi discutido o impacto causado pela complexidade do plano amostral sobre as análises estatísticas. Foi dada ênfase em mostrar como a utilização das técnicas de análise estatística disponíveis nos pacotes estatísticos padrões de uso generalizado podem conduzir a conclusões incorretas. Foram também sugeridos ajustes dos procedimentos para o caso de dados amostrais complexos, que muitas vezes requerem pacotes especializados para serem adotados. Neste capítulo fazemos breve revisão dos pacotes computacionais especializados para a análise de dados de pesquisas amostrais complexas.

14.2 Pacotes Computacionais

Hoje em dia estão disponíveis diversos pacotes especializados para analisar dados obtidos através de pesquisas amostrais. Vários aspectos importantes podem diferenciá-los, tais como: ambiente computacional; método de estimação de variância; abrangência de planos amostrais que podem ser tratados; elenco de técnicas estatísticas disponíveis, etc.

(Carlson 1998) cita alguns aspectos importantes que influenciam na escolha de pacote computacional especializado, tanto de um ponto de vista prático quanto da facilidade de uso. De um ponto de vista prático, um pacote deve idealmente:

  • operar num ambiente computacional familiar ao usuário;

  • conter as técnicas de análise estatística requeridas;

  • ser capaz de tratar conjuntos de dados criados por pacote estatístico padrão, base de dados ou planilha, bem como arquivos em formato de texto (ASCII).

(Carlson 1998) ressalta ainda que quanto mais fácil o uso do pacote, mais fácil o seu uso inadequado. Menciona também outras características importantes, sugerindo que do ponto de vista da facilidade de uso um pacote deve ainda:

  • ter documentação bem redigida;

  • ter capacidade de lidar com planos amostrais não-padrões;

  • ter documentação técnica detalhada e completa, incluindo as fómulas usadas para as estimativas pontuais e respectivas estimativas de variância.

Para analisar dados de pesquisas amostrais, é comum criar arquivos de dados através de pacotes de uso geral tais como SAS, SPSS ou outro, e depois importá-los para uso em pacotes especializados. Pode haver, ainda, necessidade de utilizar o pacote padrão tendo como entrada deste os resultados gerados pelo pacote especializado. Sem dúvida, tais tarefas seriam facilitadas caso os pacotes de uso geral contivessem ferramentas de análise apropriadas para dados de pesquisas amostrais complexas, o que não ocorre na maioria dos casos. Uma exceção à regra parece ser o caso do pacote STATA (descrito mais adiante), que já vem com um conjunto de funções ou procedimentos para análise de dados amostrais complexos integrados à parte básica do pacote (veja (Stata 1997), cap. 36).

Por outro lado, a utilização de qualquer um desses programas especializados só se torna possível se forem incluídas no arquivo de dados variáveis que informem a estrutura do plano amostral, identificando ao menos o estrato, a UPA e o peso de cada unidade da amostra. Além disso, para maior facilidade do usuário, o arquivo deve ser ordenado por estrato e também por UPA dentro de estrato.

Essas informações devem ser fornecidas pela agência produtora dos dados. Se isto não for possível por razões de sigilo ou outras razões práticas, a agência deve prover, quando solicitada, informações tais como desvios padrões e/ou coeficientes de variação e/ou efeitos de plano amostral das estimativas de interesse. Alternativamente, pode fornecer mecanismos abreviados ou aproximados de avaliação da precisão das estimativas, tais como funções de variância generalizadas (do inglês generalised variance functions, veja (Wolter 1985), cap. 5) ou então tabelas com estimativas dos desvios padrões, CVs ou EPAs para uma grande quantidade de variáveis, ou divulgar ao menos o efeito de plano amostral médio para certos tipos de variáveis e para certos domínios de estudo.

Por último, a documentação dos arquivos de microdados de uso público deve sempre conter avisos sobre a necessidade de considerar o plano amostral no cálculo de estimativas. Para que tais avisos sejam efetivos e possam ser acatados, os usuários devem ter acesso ao conhecimento detalhado das características do plano amostral, incluindo:

  • a estratificação utilizada;

  • os estágios de amostragem;

  • os mecanismos de seleção em cada estágio, inclusive se as unidades foram selecionadas com ou sem reposição;

  • as probabilidades de seleção em cada estágio, sejam iguais ou distintas;

  • as escalas de mensuração das variáveis, se contínuas, categóricas ou ordinais;

  • as categorias e escalas de resposta, no caso de variáveis categóricas ou ordinais.

Os pacotes especializados disponíveis diferem, ainda, quanto à abrangência de métodos de análise estatística. Alguns estimam as variâncias amostrais e estatísticas relacionadas como efeitos de plano amostral, efeitos de especificação incorreta, homogeneidade intraconglomerado, só para estimadores de médias, totais e proporções para a totalidade da amostra, para domínios e diferenças entre domínios. Outros estimam também variâncias de estatísticas na regressão e na regressão logística. Quase todos fornecem testes estatísticos baseados nessas variâncias amostrais. Poucos calculam estimativas de variâncias e estatísticas de teste associadas em análise de sobrevivência, tabelas de contigência, modelos de equações generalizadas de estimação e razões padronizadas.

A seguir transcrevemos do artigo (Lepkowski and Bowles 1996) uma lista dos pacotes especializados mais utilizados para análise de dados de pesquisas amostrais.

SUDAAN

Statistical Software Center

Research Triangle Institute

3040 Cornwallis Road

Research Triangle Park

NC 27709-2194

USA

e-mail: SUDAAN@rti.org

internet: www.rti.org/patents/sudaan.html

SUDAAN (sigla de SUrvey DAta ANalysis é um pacote computacional para análise de dados correlacionados, incluindo dados de pesquisas amostrais complexas. Possibilita a estimação de várias características populacionais e de seus erros amostrais, incluindo médias, proporções, razões, quantis, tabelas cruzadas, razões de vantagens (do inglês odds ratios, além de modelos de regressão linear e logística, modelos de riscos proporcionais e análise de tabelas de contingência.

SUDAAN usa aproximações de linearização de Taylor para estimação de variâncias, e permite também empregar o método do conglomerado primário. Permite tratar o caso de seleção de unidades de primeiro estágio com ou sem reposição, incluindo componentes de variância, bem como planos de amostragem aleatória simples e amostragem estratificada de unidades elementares. SUDAAN está disponível para PCs sob DOS e também sob Windows. Também estão disponíveis versões para computadores de grande porte. Os preços variam em função do tipo de instituição, tipo e número de licenças. Por exemplo, o preço de uma só licença nova da versão 6.53 de PC do SUDAAN para empresas comerciais e agências governamentais é US$995 e a versão 7.0 de Windows custa US$1495.

Stata

Stata Corporation

702 University Drive East

College Station

TX 77840

USA

e-mail: stata@stata.com

internet: www.stata.com

Stata é um sistema computacional programável de análise estatística, que recentemente introduziu comandos para o cálculo de estimativas de desvios padrões de várias estatísticas para dados amostrais complexos. O programa está disponível em ambientes DOS e Windows com comandos por teclado. Telas e menus de ajuda estão disponíveis na versão em Windows. Stata usa aproximação de linearização de Taylor para estimação de variâncias. Seu preço de lista é US$945 para usuários comerciais e US$395 para usuários acadêmicos.

Os comandos atuais de análise incluem svymean, svytotal, svyratio, and svyprop para estimação de médias, totais, razões e proporções, além dos commandos svyreg, svylogit, e svyprobt para análise de regressão linear, logística e probit respectivamente. Os comandos svylc and svytest permitem a estimação de combinações lineares de parâmetros e testes de hipóteses. O comando svydes possibilita ao usuário descrever o plano amostral específico adotado e deve ser usado antes de qualquer dos comandos de estimação e análise citados anteriormente.

Há intenção de acrescentar comandos para estimar funções de distribuição e quantis, análise de tabelas de contingência, recursos para compensação de dados ausentes e outras análises.

WesVarPC

Westat, Inc.

1650 Research Blvd.

Rockville, MD 20850-3129

USA

e-mail: WESVAR@westat.com

internet: www.westat.com/wesvarpc/index.html

WesVarPC é um sistema computacional estatístico projetado pela Westat, Inc. para análise de dados de pesquisas amostrais complexas. O programa opera em ambiente Windows (3.1, 3.11, e 95) e é completamente comandado por menus. Seu plano amostral básico é estratificado com vários estágios de conglomeração. WesVarPC usa o método do conglomerado primário combinado com técnicas de replicação para estimação de variâncias, incluindo os métodos de jackknife, meias amostras balanceadas (do inglês balanced half samples, e a modificação de Fay do método de meias amostras balanceadas. Os dados podem ser lidos em arquivos formato ASCII, DBF, SPSS para Windows, SAS Transport, ou formato PC SAS para DOS.

WesVarPC requer que uma nova versão do conjunto de dados seja criada num formato especial WesVarPC. Para isto é necessário especificar réplicas e, se a pós-estratificação for incorporada na estimação de variâncias, pesos de réplicas devem também ser criados. WesVarPC permite a análise de tabelas de contingência, regressão linear e regressão logística. Há um sistema completo de comandos por menu para criar novas variáveis, o que amplia o conjunto de estatísticas possíveis de usar no WesVarPC. A saída tem formato de lista com uma linha para cada estatística. Este formato é adequado para publicação, e pode ser arquivado para processamento em planilha ou em outro programa.

CENVAR

International Programs Center

U.S. Bureau of the Census

Washington, DC 20233-8860, USA

e-mail :IMPS@census.gov

internet : www.census.gov/ftp/pub/ipc/www/imps.html

CENVAR é um componente do sistema computacional estatístico IMPS Integrated Microcomputer Processing System para apuração, gerenciamento e análise de dados de pesquisas complexas. Pode ser utlizado com os seguintes planos amostrais: amostragem aleatória simples; amostragem estratificada; e amostragem de conglomerados em vários estágios com probabilidades iguais ou distintas de seleção. Estes planos amostrais são todos tratados através do método do conglomerado primário combinado com a aproximação de linearização de Taylor para estimação de variâncias. CENVAR é uma versão parcial do programa PC CARP, desenvolvido pela Iowa State University, que descrevemos mais adiante.

CENVAR pode ser obtido gratuitamente através do endereço internet fornecido. Os dados devem ser lidos de arquivos em formato ASCII, com uso de um dicionário IMPS.

CENVAR pode produzir desvios padrões para estimativas de médias, proporções e totais para toda a amostra bem como para domínios especificados num formato tabular. Além disso, fornece desvios padrões, limites de confiança de \(95\%\), coeficientes de variaç% ão, efeitos de plano amostral e também tamanhos de amostras considerados nos cálculos (frequências não expandidas).

PC CARP

Sandie Smith

Statistical Laboratory

219 Snedecor Hall

Iowa State University

Ames, IA 50011

USA

e-mail : sandie@iastate.edu

internet: www.statlib.iastate.edu/survey/software/pccarp.html

PC CARP é um programa para computadores tipo PC desenvolvido pela Iowa State University para implementar métodos de análise de dados amostrais complexos (seu nome vem da sigla em inglês CARP -Complex Analysis Regression Program.

PC CARP pode ser usado para estimar desvios padrões de estimativas de totais, médias, proporções, quantis, razões e diferenças de razões, além de freqüências e estatísticas de teste para tabelas de duas entradas. PC CARP é completado por um conjunto de três outros programas que ampliam o escopo de análises disponíveis: PC CARPL para regressão logística; POSTCARP para estimativas de totais, razões e diferenças de razões via pós-estratificação; e EV CARP para análise de regressão considerando erros de medição nas variáveis preditoras. O programa opera em um ambiente DOS com comandos por teclado. Os programas são projetados para lidar com amostras estratificadas de conglomerados em vários estágios, e com correção de população finita para até dois estágios de seleção. PC CARP usa a aproximação de linearização de Taylor para estimação de variâncias. O conjunto de programas pode ser adquirido do Statistical Laboratory da Iowa State University por US \(\$300\). Os dados devem ser lidos em arquivo formato ASCII, mediante a criação de um dicionário próprio.

VPLX

Robert E. Fay

Room 3067, Bldg. 3

U.S. Bureau of the Census

Washington, DC 20233-9001

USA

e-mail: rfay@census.gov

internet: www.census.gov/sdms/www/vwelcome.html

VPLX é um programa isolado para estimação de variâncias, projetado e usado pelo US Bureau of the Census para dados de pesquisa amostrais complexas. Opera em ambiente DOS com comandos pelo teclado. O VPLX é fundamentalmente projetado para amostras estratificadas em vários estágios, e adota o método do conglomerado primário, combinado com técnicas de replicação para estimação de variâncias, incluindo procedimentos baseados nos métodos de grupos aleatórios, de jackknife, e de replicação balanceada. O VPLX pode ser obtido gratuitamente no endereço internet. Os dados devem ser lidos em arquivos formato ASCII mediante a criação de um dicionário próprio.

VPLX pode produzir desvios padrões para estimativas de médias, propor% ções e totais, tanto para a totalidade da amostra como para domínios especificados.

CLUSTERS

Vijay Verma

World Fertility Survey

105 Park Road, Teddington (Middlesex), TW11 OAW, United Kingdom

e-mail: vjverma@essex.ac.uk

CLUSTERS é um programa isolado desenvolvido originalmente pela equipe da World Fertility Survey e depois aperfeiçoado por Vijay Verma e Mick Verma. O principal plano amostral é amostragem estratificada de conglomerados em vários estágios. CLUSTERS usa o método do conglomerado primário combinado com a aproximação de linearização de Taylor para estimação de variâncias. Os dados devem ser lidos de arquivos em formato ASCII, mediante a criação de um dicionário de formato próprio. CLUSTERS pode produzir estimativas de desvios padrões para médias e proporções, para toda a amostra bem como para domínios, e também para diferenças entre domínios especificados num formato tabular. Além dos desvios padrões, CLUSTER fornece estimativas dos coeficientes de varia% ção, dos efeitos de plano amostral e tamanhos de amostras considerados nos cálculos (freqüências não expandidas), bem como estimativas de correlações intraclasse.

Epi Info

Andrew G. Dean, MD

Epidemiology Program Office, Mailstop C08

Centers for Disease Control and Prevention

Atlanta, GA 30333

U.S.A

e-mail:AGD1@epo.em.cdc.gov ou EpiInfo@cdc1.cdc.gov

internet: www.cdc.gov/epo/epi/epi.html

Epi Info é um pacote estatístico para epidemiologia, desenvolvido pelo US Centers for Disease Control and Prevention, para apuração, gerenciamento e análise de dados epidemiológicos, incluindo análise de dados de pesquisas amostrais complexas (componente CSAMPLE). Seu plano amostral básico é amostragem de conglomerados em vários estágios, através do método do conglomerado primário combinado com a aproximação de linearização de Taylor para estimação de variâncias.

Epi Info pode ser obtido gratuitamente do endereço internet fornecido. A leitura de dados pode ser feita de arquivos em formatos DBF, Lotus, ou ASCII. O pacote pode produzir estimativas de desvios padrões para estimativas de médias e proporções, tanto para a totalidade da amostra como para domínios especificados através de tabelas de duas entradas. A saída inclui apenas freqüências não expandidas, proporções e médias expandidas, desvios padrões, limites de confiança de \(95\%\) e efeitos de plano amostral.

Library survey do R

Estimativas e suas precisões podem ser obtidas por meio da library survey do R, (Lumley 2017). As funções da library survey produzem estimativas que incorporam as características do plano amostral utilizado na coleta dos dados.

A library survey contém funções para estimar:

  • Médias (svymean);
  • Totais (svytotal);
  • Razões (svyratio);
  • Quantis (svyquantile);
  • Tabelas de contingência (svytable);
  • Modelos lineares generalizados (svyglm)
  • Curvas de sobrevivência (svycoxph);
  • Testes de postos (svyranktest).

Para a amostra inteira e para domínios.

As variâncias podem ser obtidas por linearização de Taylor or por pesos replicados (BRR, jackknife, bootstrap, multistage bootstrap, ou fornecido pelo usuário).

Mais detalhes estão no site da library survey

Referências

Carlson, B. L. 1998. “Software for Statistical Analysis of Sample Survey Data.” In Encyclopaedia of Biostatistics. John Wiley.

Stata. 1997. Stata User’s Guide, Release 5. College Station, Texas: Stata Press.

Wolter, K. M. 1985. Introduction to Variance Estimation. Nova Iorque: Springer-Verlag.

Lepkowski, J., and J. Bowles. 1996. “Sampling Error Software for Personal Computers.” The Survey Statistician 35: 10–17.

Lumley, Thomas. 2017. Survey: Analysis of Complex Survey Samples. https://CRAN.R-project.org/package=survey.