Capítulo 3 Estimação Baseada no Plano Amostral

3.1 Estimação de Totais

Devido a sua importância para os desenvolvimentos teóricos em vários dos capítulos subsequentes, alguns resultados básicos relativos à estimação de totais da população finita numa abordagem baseada no plano amostral serão reproduzidos nesta seção. A referência básica usada foi a Seção 2.8 de (Särndal, Swensson, and Wretman 1992).

Consideremos o problema de estimar o vetor \(\mathbf{Y}=\sum_{i \in U}\mathbf{y}_i\) de totais das \(P\) variáveis da pesquisa na população, a partir de uma amostra observada \(a\). Naturalmente, qualquer estimador viável do total \(\mathbf{Y}\) só pode depender dos valores das variáveis de pesquisa observados na amostra, contidos em \(\mathbf{y}_{i_{1}}, \ldots , \mathbf{y}_{i_{n}}\), mas não dos valores dessas variáveis para os elementos não pesquisados.

Um estimador usual baseado no plano amostral para o total \(\mathbf{Y}\) é o estimador de Horvitz-Thompson, também chamado \(\pi\) (veja p.42 de (Särndal, Swensson, and Wretman 1992)), dado por:

\[\begin{equation} \hat{\mathbf{Y}}_\pi = \sum_{i \in a} \mathbf{y}_i / \pi_{i} . \tag{3.1} \end{equation}\]

Na abordagem baseada no planejamento amostral, as propriedades de uma estatística ou estimador são avaliadas com respeito à distribuição de aleatorização. Denotemos por \(E_p(.)\) e \(V_p(.)\) os operadores de esperança e variância referentes à distribuição de probabilidades \(p(a)\) induzida pelo planejamento amostral, que chamaremos daqui por diante de esperança de aleatorização e variância de aleatorização.

O estimador \(\pi\)-ponderado \(\mathbf{\hat{Y}}_{\pi}\) é não-viciado para o total \(\mathbf{Y}\) com respeito à distribuição de aleatorização, isto é

\[ E_p \left( \mathbf{\hat{Y}}_{\pi} \right) = \mathbf{Y} . \] Além disto, sua variância de aleatorização é dada por

\[\begin{equation} V_p \left( \mathbf{\hat{Y}}_{\pi} \right) = \sum_{ i \in U} \, \sum_{j \in U} \left( \pi _{ij} - \pi_i \pi_j \right) \frac{ \mathbf{y}_i} {\pi_i} \frac{\mathbf{y}_j ^{\prime} } {\pi_j} \; . \tag{3.2} \end{equation}\]

Uma expressão alternativa da variância de aleatorização de \(\mathbf{\hat{Y}}_{\pi}\) , válida quando o plano amostral é de tamanho fixo, é dada por

\[\begin{equation} V_p \left( \mathbf{\hat{Y}}_{\pi} \right) = -\frac{1}{2} \sum_{i \in U} \, \sum_{j \in U} \left( \pi_{ij} - \pi_i \pi_j \right) \left( \frac{\mathbf{y}_i} {\pi_i} - \frac{\mathbf{y}_j} {\pi_j} \right) \left( \frac{\mathbf{y}_i} {\pi_i} - \frac{\mathbf{y}_j} {\pi_j} \right) ^{^{\prime}}. \tag{3.3} \end{equation}\]

Note que na expressão (3.3) os termos onde \(i=j\) não contribuem para a soma. Dois estimadores são usualmente recomendados para estimar a variância de aleatorização de \(\mathbf{\hat{Y}}_{\pi}\). O primeiro é motivado pela expressão (3.2) e é dado por

\[\begin{equation} \hat{V}_p \left( \mathbf{\hat{Y}}_{\pi} \right) = \sum_{i \in a} \, \sum_{j \in a} \frac{\pi_{ij} - \pi_i \pi_j} {\pi_{ij}} \frac{\mathbf{y}_i} {\pi_i} \frac{\mathbf{y}_j^{^{\prime}}} {\pi_j} \mbox{.} \tag{3.4} \end{equation}\]

O estimador de variância em (3.4) é um estimador não-viciado da variância de aleatorização de \(\mathbf{\hat{Y}}_{\pi}\), isto é

\[\begin{equation} E_p \left[ \hat{V}_p \left( \mathbf{\hat{Y}}_{\pi} \right) \right] = V_p \left( \mathbf{\hat{Y}}_{\pi} \right) \tag{3.5} \end{equation}\]

desde que \(\pi _{ij} > 0 \quad \forall i,j \in U\), como suposto neste livro na Seção 2.4.

O segundo estimador da variância, chamado estimador de Sen-Yates-Grundy, é motivado pela expressão (3.3) e é dado por

\[\begin{equation} \hat{V}_{SYG} \left( \mathbf{\hat{Y}}_{\pi} \right) = - \frac{1}{2} \sum_{i \in a} \, \sum_{j \in a} \frac{\pi _{ij} - \pi_i \pi_j} {\pi_{ij}} \left( \frac{ \mathbf{y}_i} {\pi_i} - \frac{\mathbf{y}_j} {\pi_j} \right) \left( \frac{\mathbf{y}_i} {\pi_i} - \frac{\mathbf{y}_j} {\pi_j} \right)^{^{\prime }}. \tag{3.6} \end{equation}\]

Observe que embora as expressões da variância (3.2) e (3.3) coincidam para planos amostrais de tamanho fixo, o mesmo não vale para os estimadores de variância (3.4) e (3.6), apesar de \(\hat{V}_{SYG} \left( \mathbf{\hat{Y}}_{\pi} \right)\) ser também não-viciado para \(V_{p} \left( \mathbf{\hat{Y}}_{\pi} \right)\) para planos amostrais de tamanho fixo.

Exemplo 3.1 Amostragem Aleatória Simples Sem Reposição (AAS)

Quando o plano é amostragem aleatória simples sem reposição (AAS), as expressões apresentadas para o estimador de total, sua variância e estimadores desta variância simplificam bastante, porque as probabilidades de inclusão ficam iguais a \[ \pi_i = \frac{n}{N}\ \ \forall \ \ i \in U \mbox{,} \] e \[ \pi_{ij} = \frac{n(n-1)}{N(N-1)}\ \ \forall \ \ i \neq j \in U\;. \]

Essas probabilidades de inclusão levam às seguintes expressões para o caso AAS:

\[\begin{equation} \hat{\mathbf{Y}}_{AAS} = \frac{N}{n} \sum_{i \in a} \mathbf{y}_i = N \overline{\mathbf{y}} \mbox{ ,} \tag{3.7} \end{equation}\] \[\begin{equation} V_{AAS} \left( \mathbf{\hat{Y}}_{\pi} \right) = N^{2} \frac{1-f}{n} \frac{N}{N-1} \mathbf{S}_y \mbox{ ,} \tag{3.8} \end{equation}\] \[\begin{equation} \hat{V}_p \left( \mathbf{\hat{Y}}_{AAS} \right) = \hat{V}_{SYG} \left( \mathbf{\hat{Y}}_{AAS} \right) = N^{2} \frac{1-f}{n} \frac{n}{n-1} \mathbf{\hat{S}}_y \mbox{ ,} \tag{3.9} \end{equation}\]

onde \(f=n/N\) é a fração amostral e

\[\begin{equation} \overline{\mathbf{y}} = n^{-1} \sum_{i \in a} \mathbf{y}_i \mbox{ ,} \tag{3.10} \end{equation}\] \[\begin{equation} \mathbf{S}_y = N^{-1} \sum_{i \in U} \left( \mathbf{y}_i - \overline{\mathbf{Y}} \right) \left( \mathbf{y}_i - \overline{\mathbf{Y}} \right) ^{^{\prime }} \mbox{ ,} \tag{3.11} \end{equation}\] \[\begin{equation} \overline{\mathbf{Y}} = N^{-1} \sum_{i \in U} \mathbf{y}_i = N^{-1} \mathbf{Y} \mbox{ ,} \tag{3.12} \end{equation}\] \[\begin{equation} \widehat{\mathbf{S}}_y = n^{-1} \sum_{i \in a} \left( \mathbf{y}_i - \overline{\mathbf{y}} \right) \left( \mathbf{y}_i - \overline{\mathbf{y}} \right) ^{^{\prime }} \;. \tag{3.13} \end{equation}\]

Vários estimadores de totais estão disponíveis na literatura de amostragem, porém os que são comumente usados na prática são estimadores ponderados (lineares) da forma

\[\begin{equation} \mathbf{\hat{Y}}_w = \sum\limits_{i \in a} w_i \mathbf{y}_i \tag{3.14} \end{equation}\]

onde \(w_i\) é um peso associado à unidade \(i\) da amostra (\(i \in a\)). O estimador \(\pi\) ou de é um caso particular de \(\mathbf{\hat{Y}}_w\) em (3.14) quando os pesos \(w_i\) são da forma

\[ w_i^{HT} = \pi_i ^{-1} \quad \forall \ \ i \in a. \]

Outros dois estimadores de totais comumente usados pelos praticantes de amostragem são o estimador de razão \(\mathbf{\hat{Y}}_R\) e o estimador de regressão \(\mathbf{\hat{Y}}_{REG}\), dados respectivamente por

\[\begin{equation} \mathbf{\hat{Y}}_R = \left( \sum_{i \in a} {\ \pi_i^{-1}} \mathbf{y}_i \right) \times \left( \sum_{i \in U}x_i \right) / \left( \sum_{i \in a} {\ \pi_i^{-1}} x_i \right) \tag{3.15} \end{equation}\]

\[\begin{equation} \mathbf{\hat{Y}}_{REG} = \sum\limits_{i \in a} {\pi_i^{-1}} \mathbf{y}_i + \left( \sum\limits_{i \in U} x_i - \sum\limits_{i \in a} {\pi_i^{-1}} x_i \right) b_{xy} \tag{3.16} \end{equation}\]

onde \(x\) é uma variável auxiliar cujo total populacional \(\sum_{i \in U} x_i = X\) é conhecido e \(b_{xy}\) é um estimador dos coeficientes da regressão linear entre as variáveis de pesquisa \(\mathbf{y}\) e a variável auxiliar \(x\).

Ambos os estimadores \(\mathbf{\hat{Y}}_R\) e \(\mathbf{\hat{Y}}_{REG}\) podem ser escritos na forma \(\mathbf{\hat{Y}}_w = \sum\limits_{i \in a} w_i \mathbf{y}_i\) com pesos \(w_i\) dados respectivamente por

\[\begin{equation} w_i^R = \frac{\pi_i^{-1} \sum_{k \in U} x_k} {\sum\limits_{k \in a} \pi_k^{-1} x_k} = \frac{\pi_i^{-1} X} {\widehat{X}_{\pi}} \tag{3.17} \end{equation}\]

\[\begin{equation} w_i^{REG} = \pi_i^{-1} g_i \mbox{ ,} \tag{3.18} \end{equation}\]

onde \(\widehat{X}_{\pi} = \sum\limits_{i \in a} \pi_i^{-1} x_i\) é o estimador \(\pi\) -ponderado de \(X\) e \(g_{i} = 1 + x_{i \mbox{ }} (X - \widehat{X}_{\pi}) / \sum_{i \in a} \pi_i^{-1} x_i^2\) .

O estimador de regressão descrito em (3.16) é um caso particular do estimador de regressão generalizado, obtido quando se consideram vetores de variáveis auxiliares em vez de uma única variável auxiliar \(x\) como aqui. Outra forma de generalizar o estimador de regressão é considerar estimadores alternativos dos coeficientes de regressão em lugar do estimador simples \(b_{xy}\) empregado aqui. Para uma discussão detalhada do estimador de regressão generalizado veja (Nascimento Silva 1996), Cap.3.

Para completar a descrição dos procedimentos de inferência para médias e totais baseados em estimadores ponderados do tipo razão ou regressão, é necessário identificar estimadores para as variâncias de aleatorização correspondentes. Entretanto, os estimadores de razão e regressão são viciados sob a distribuição de aleatorização para pequenas amostras. Em ambos os casos, o vício é desprezível para amostras grandes, e estão disponíveis expressões assintóticas para as respectivas variâncias de aleatorização. Partindo destas foram então construídos estimadores amostrais das variâncias dos estimadores de razão e regressão, que podem ser encontrados na excelente revisão sobre o tema contida em (Särndal, Swensson, and Wretman 1992), Seção 6.6 e cap. 7. Apesar de sua importância para os praticantes de amostragem, a discussão detalhada desse problema não será incluída neste livro.

O problema da estimação das variâncias de aleatorização para estimadores como os de razão e regressão nos remete a uma questão central da teoria da amostragem. Trata-se dos métodos disponíveis para estimar variâncias de estimadores complexos. O caso dos estimadores de razão e regressão para totais e médias foi resolvido faz tempo, e não há muito o que discutir aqui. Entretanto, a variedade de métodos empregados para estimação de variâncias merece uma discussão em separado, pois as técnicas de ajuste consideradas neste livro para incorporar pesos e plano amostral na inferência partindo de dados de pesquisas amostrais complexas depende em grande medida da aplicação de tais técnicas.

3.2 Por que Estimar Variâncias

Em Amostragem, como de resto na Estatística Clássica, a estimação de variâncias é um componente essencial da abordagem inferencial adotada: sem estimativas de variância, nenhuma indicação da precisão (e portanto, da qualidade) das estimativas de interesse está disponível. Nesse caso, uma tentação que assola muitos usuários incautos é esquecer que os resultados são baseados em dados apenas de uma amostra da população, e portanto sujeitos a incerteza, que não pode ser quantificada sem medidas de precisão amostral.

Em geral, a obtenção de estimativas de variâncias (alternativamente, de desvios padrões ou mesmo de coeficientes de variação) é requerida para que intervalos de confiança possam ser calculados, e outras formas de inferência realizadas. Intervalos de confiança elaborados com estimativas amostrais são geralmente baseados em aproximações assintóticas da distribuição normal, tais que intervalos da forma \[ IC\left[ \widehat{\theta };\widehat{V}_{p}\left( \widehat{\theta }\right) \right] =\left[ \widehat{\theta }\pm z_{\alpha /2}\sqrt{\widehat{V}% _{p}\left( \widehat{\theta }\right) }\right] \] têm probabilidade de cobertura aproximada \(1-\alpha\).

Estimativas de variância podem ser úteis também para outras finalidades, tais como a detecção de problemas não antecipados, tais como observações suspeitas, celas raras em tabelas de contingência, etc.

A estimação de variâncias para os casos padrões de amostragem, isto é, quando os estimadores são lineares nas observações amostrais, não viciados, e todas as probabilidades de inclusão conjuntas são não nulas, é tratada em todos os livros de amostragem convencionais. Apesar disso, os pacotes estatísticos usuais, tais como SAS, SPSS, MINITAB, BMDP e outros, não oferecem rotinas prontas para estimar variâncias considerando o plano amostral, nem mesmo para estatísticas simples como estimadores de totais e médias.

Para alguns planos amostrais utilizados na prática, as probabilidades de inclusão conjuntas podem ser nulas (caso de amostragem sistemática) ou difíceis de calcular (caso de alguns esquemas de seleção com probabilidades desiguais). Nesses casos, as expressões fornecidas na Seção 3.1 para os estimadores das variâncias dos estimadores de totais não são mais válidas.

Em muitos outros casos, como se verá no restante deste livro, os parâmetros de interesse são não lineares (diferentes de totais, médias e proporções, por exemplo). Casos comuns que consideraremos mais adiante são a estimação de razões, coeficientes de regressão, etc. Nesses casos é comum que as estatísticas empregadas para estimar tais parâmetros também sejam não lineares.

Finalmente, alguns estimadores de variância podem, em alguns casos, produzir estimativas negativas da variância, que são inaceitáveis de um ponto de vista prático (tais como o estimador da expressão (3.5) para alguns esquemas de seleção com probabilidades desiguais e determinadas configurações peculiares da amostra).

Em todos esses casos, é requerido o emprego de técnicas especiais de estimação de variância. é de algumas dessas técnicas que tratam as seções seguintes deste capítulo. A seleção das técnicas discutidas aqui não é exaustiva, e um tratamento mais completo e aprofundado da questão pode ser encontrado no livro de (Wolter 1985). Discutimos inicialmente a técnica de Linearização de Taylor, em seguida uma abordagem comumente adotada para estimar variâncias para planos amostrais estratificados em vários estágios, com seleção de unidades primárias com probabilidades desiguais, denominada Método do Conglomerado Primário (do inglês Ultimate Cluster, e finalmente se discute brevemente uma técnica baseada na ideia de pseudo-replicações da amostra, denominada Jackknife. A combinação dessas três idéias suporta os desenvolvimentos teóricos dos algoritmos empregados pelos principais pacotes estatísticos especializados em estimação de variâncias de aleatorização (veja discussão no Capítulo 13.

3.3 Linearização de Taylor para Estimar variâncias

Um problema que ocorre frequentemente é o de estimar um vetor de parâmetros \(\mathbf{\theta =}\left( \theta _{1},\ldots ,\theta_{K}\right)\), que pode ser escrito na forma \[ \mathbf{\theta }=\mathbf{g}(\mathbf{Y})\;, \] onde \(\mathbf{Y}=\sum_{i\in U}\mathbf{y}_{i}=(Y_{1},\ldots ,Y_{R})^{^{\prime}}\) é um vetor de totais de \(R\) variáveis de pesquisa.

Consideremos estimadores \(\pi\)-ponderados de \(\mathbf{Y}\), isto é, estimadores da forma: \[ \widehat{\mathbf{Y}}_{\pi }=\sum_{i\in s}\mathbf{y}_{i}/\pi _{i}\;. \] Poderíamos usar \(\mathbf{\hat{\theta}}\) dado por \[ \mathbf{\hat{\theta}}=\mathbf{g}\left( \widehat{\mathbf{Y}}_{\pi }\right) =\mathbf{g}(\sum_{i\in s}\mathbf{y}_{i}/\pi _{i})\;. \] como estimador de \(\mathbf{\theta}\). No caso particular em que \(\mathbf{g}\) é uma função linear, é fácil estudar as propriedades de \(\mathbf{\hat{\theta}}\).

Assumindo então que \(\mathbf{\theta}\) é da forma

\[ \mathbf{\theta }=\mathbf{AY}\mbox{ ,} \] onde \(\mathbf{A}\) é uma matriz \(K\times R\) de constantes, o estimador \(\mathbf{\hat{\theta}}\) de \(\mathbf{\theta }\) neste caso seria

\[ \mathbf{\hat{\theta}}=\mathbf{A\hat{Y}}_{\pi }\;\;. \]

Este estimador é não-viciado e tem variância de aleatorização \[ V_{p}\left( \mathbf{\hat{\theta}}\right) =\mathbf{A}V_{p}\left( \mathbf{\hat{Y}}_{\pi }\right) \mathbf{A}^{^{\prime }}\mathbf{,} \] onde \(V_{p}\left( \mathbf{\hat{Y}}_{\pi }\right)\) é dado em (3.2) ou (3.3).

Quando \(\mathbf{g}\) é não linear, podemos usar a técnica de Linearização de Taylor (ou Método Delta) para obter aproximações assintóticas para a variância de \(\mathbf{\hat{\theta}}=\mathbf{g}\left( \widehat{\mathbf{Y}}_{\pi }\right)\). Para maiores detalhes sobre esse método, veja por exemplo p. 172 de (Särndal, Swensson, and Wretman 1992), p. 221 de (Wolter 1985) ou p. 486 de (Bishop, Fienberg, and Holland 1975).

Vamos considerar a expansão de \(\mathbf{g}\left( \mathbf{\hat{Y}}_{\pi }\right)\) em torno de \(\mathbf{Y}\), até o termo de primeira ordem, desprezando o resto, dada por:

\[\begin{equation} \mathbf{\hat{\theta}\simeq \hat{\theta}}_{L}=\mathbf{g(Y)+\Delta g(Y)}\left( \mathbf{\hat{Y}}_{\pi }\mathbf{-Y}\right) \tag{3.19} \end{equation}\]

onde \(\mathbf{\Delta g(Y)}\) é a matriz Jacobiana \(K\times R\) cuja r-ésima coluna é \(\mathbf{\partial g(Y)/}\partial Y_{r}\),
para \(r=1,\ldots,R\).

Tomando as variâncias de aleatorização dos dois lados em (3.19), e notando que no lado direito o único termo que tem variância de aleatorização \(\mathbf{\Delta g(Y)}\left( \mathbf{\hat{Y}}_{\pi }\mathbf{-Y}\right)\) é uma função linear de \(\mathbf{\hat{Y}}_{\pi}\), segue imediatamente que \[\begin{equation} V_{p}\left( \mathbf{\hat{\theta}}\right) \mathbf{\simeq \Delta g(Y)} V_{p}\left( \mathbf{\hat{Y}}_{\pi }\right) \mathbf{\Delta g(Y)}^{^{\prime }} \tag{3.20} \end{equation}\]

onde \(V_{p}\left( \mathbf{\hat{Y}}_{\pi }\right)\) é dado em (3.2). Um estimador consistente de \(V_{p}\left( \mathbf{\hat{\theta}}\right)\) é dado por

\[\begin{equation} \hat{V}_{p}\left( \mathbf{\hat{\theta}}\right) =\mathbf{\Delta g(\hat{Y}}_{\pi }\mathbf{)}\hat{V}_{p}\left( \mathbf{\hat{Y}}_{\pi }\right) \mathbf{\Delta g\mathbf{(\hat{Y}}_{\pi }\mathbf{)}}^{^{\prime }}, \tag{3.21} \end{equation}\]

onde \(\hat{V}_{p}\left( \mathbf{\hat{Y}}_{\pi }\right)\) é dado em (3.4). Um outro estimador consistente seria obtido substituindo \(\hat{V}_{p}\left( \mathbf{\hat{Y}}_{\pi }\right)\) por \(\hat{V}_{SYG}\left( \mathbf{\hat{Y}}_{\pi }\right)\) dado em (3.6) na expressão (3.21).

Linearização de Taylor pode ser trabalhosa, porque para cada parâmetro/estimador de interesse são requeridas derivações e cálculos específicos. Felizmente, grande parte das situações de interesse prático estão hoje cobertas por pacotes estatísticos especializados na estimação de medidas descritivas e parâmetros de modelos, e suas respectivas variâncias de aleatorização empregando o método de linearização, de modo que essa desvantagem potencial tende a se diluir.

Linearização de Taylor pode não ser imediatamente possível, pois as quantidades de interesse podem não ser expressas como funções de totais ou médias populacionais (este é o caso de quantis de distribuições, por exemplo).

Exemplo 3.2 Matriz de covariância para um vetor de razões

Para ilustrar a aplicação dos resultados anteriores, consideremos o problema de estimar a matriz de covariância de um vetor de razões. Sejam \(\mathbf{Y}=\left( Y_{1},\ldots Y_{u}\right) ^{^{\prime }}\) e \(\mathbf{X}=\left( X_{1},\ldots ,X_{u}\right) ^{^{\prime }}\) vetores de totais e consideremos o vetor de razões \(\mathbf{R=}\left( \frac{Y_{1}}{X_{1}},\ldots ,\frac{Y_{u}}{X_{u}}\right) ^{\prime }.\) Conhecendo estimativas das matrizes \(V_{p}\left( \mathbf{\hat{Y}}_{\pi }\right)\), \(V_{p}\left( \mathbf{\hat{X}}_{\pi }\right)\) e \(COV_{p}\left( \mathbf{\hat{Y}}_{\pi }\mathbf{;\hat{X}}_{\pi }\right)\), queremos calcular a matriz de variância de \[ \widehat{\mathbf{R}}\mathbf{=}\left( \frac{\hat{Y}_{1\pi }}{\hat{X}_{1\pi }},\ldots ,\frac{\hat{Y}_{u\pi }}{\hat{X}_{u\pi }}\right) ^{^{\prime }}. \]

Consideremos a função \(\mathbf{g}:\textbf{R}^{2u}\rightarrow \textbf{R}^{u}\) dada por \[ \mathbf{g}\left( \mathbf{y},\mathbf{x}\right) =\left( \frac{y_{1}}{x_{1}},\ldots ,\frac{y_{u}}{x_{u}}\right) \] onde \(\mathbf{y=}\left( y_{1},\ldots ,y_{u}\right) ^{^{\prime }}\) e \(\mathbf{x=}\left( x_{1},\ldots,x_{u}\right) ^{^{\prime }}\). A matriz jacobiana de \(\mathbf{g}\left( \mathbf{y},\mathbf{x}\right)\) é a matriz \(u\times 2u\) dada por \[ \mathbf{\Delta g}\left( \mathbf{y},\mathbf{x}\right) =\left[ \begin{array}{lll} diag\left( \frac{1}{x_{1}},\ldots ,\frac{1}{x_{u}}\right) & & diag\left( -\frac{y_{1}}{x_{1}^{2}},\ldots ,-\frac{y_{u}}{x_{u}^{2}}\right) \end{array} \right] \;\mbox{.} \]

Seja \(\mathbf{D}_{\mathbf{x}}=diag(x_{1},\ldots ,x_{u})\) a matriz diagonal de dimensão \(u\times u\) formada a partir do vetor \(\mathbf{x=}\left( x_{1},\ldots ,x_{u}\right) ^{^{\prime }}\). Usando essa notação, podemos escrever o vetor \(\widehat{\mathbf{R}}\) de estimadores das razões como \[ \widehat{\mathbf{R}}\mathbf{=}\left( \frac{\hat{Y}_{1\pi }}{\hat{X}_{1\pi }},\ldots ,\frac{\hat{Y}_{u\pi }}{\hat{X}_{u\pi }}\right) ^{^{\prime }}=\mathbf{g}\left( \mathbf{\hat{Y}}_{\pi },\mathbf{\hat{X}}_{\pi }\right) \] e a correspondente matriz jacobiana como \[ \mathbf{\Delta g}\left( \mathbf{\hat{Y}}_{\pi },\mathbf{\hat{X}}_{\pi }\right) =\left[ \begin{array}{lll} \mathbf{\mathbf{D}_{\widehat{\mathbf{R}}}D}_{\mathbf{\hat{Y}}_{\pi }}^{-1} &\left. {}\right. & \mathbf{-\mathbf{D}_{\widehat{\mathbf{R}}}D}_{\mathbf{\hat{X}}_{\pi }}^{-1} \end{array} \right] \;. \]

A partir deste resultado, aplicando (3.21) podemos escrever: \[\begin{eqnarray*} && \begin{array}{lll} \widehat{V}_{p}\left( \widehat{\mathbf{R}}\right) & \doteq & \left[ \begin{array}{lll} \mathbf{\mathbf{D}_{\widehat{\mathbf{R}}}D}_{\mathbf{\hat{Y}}_{\pi }}^{-1} & \left. {}\right. & \mathbf{-\mathbf{D}_{\widehat{\mathbf{R}}}D}_{\mathbf{\hat{X}}_{\pi }}^{-1} \end{array} \right] \end{array} \\ && \begin{array}{lll} & & \times \left[ \begin{array}{cc} \widehat{V}_{p}\left( \mathbf{\hat{Y}}_{\pi }\right) & \widehat{COV}_{p}\left( \mathbf{\hat{Y}}_{\pi }\mathbf{,\hat{X}}_{\pi }\right) \\ \widehat{COV}_{p}\left( \mathbf{\hat{X}}_{\pi }\mathbf{,\hat{Y}}_{\pi }\right) & \widehat{V}_{p}\left( \mathbf{\hat{X}}_{\pi }\right) \end{array} \right] \end{array} \\ && \begin{array}{lll} & & \times \left[ \begin{array}{l} \mathbf{D}_{\mathbf{\hat{Y}}_{\pi }}^{-1}\mathbf{\mathbf{D}_{\widehat{ \mathbf{R}}}} \\ -\mathbf{D}_{\mathbf{\hat{X}}_{\pi }}^{-1}\mathbf{\mathbf{D}_{\widehat{ \mathbf{R}}}} \end{array} \right] \end{array} \;\;. \end{eqnarray*}\] Efetuando os produtos das matrizes em blocos obtemos \[\begin{eqnarray} \widehat{V}_{p}\left( \widehat{\mathbf{R}}\right) &=&\mathbf{\mathbf{D}_{ \widehat{\mathbf{R}}}}\left[ \mathbf{D}_{\mathbf{\hat{Y}}_{\pi }}^{-1}% \widehat{V}_{p}\left( \mathbf{\hat{Y}}_{\pi }\right) \mathbf{D}_{\mathbf{ \hat{Y}}_{\pi }}^{-1}+\mathbf{D}_{\mathbf{\hat{X}}_{\pi }}^{-1}\widehat{V} _{p}\left( \mathbf{\hat{X}}_{\pi }\right) \mathbf{D}_{\mathbf{\hat{X}}_{\pi }}^{-1}\right] \mathbf{\mathbf{D}_{\widehat{\mathbf{R}}}} \nonumber \\ &&-\mathbf{\mathbf{D}_{\widehat{\mathbf{R}}}}\left[ \mathbf{D}_{\mathbf{\hat{ Y}}_{\pi }}^{-1}\widehat{COV}_{p}\left( \mathbf{\hat{Y}}_{\pi }\mathbf{,\hat{ X}}_{\pi }\right) \mathbf{D}_{\mathbf{\hat{X}}_{\pi }}^{-1}\right. \tag{3.22} \\ &&+\left. \mathbf{D}_{\mathbf{\hat{X}}_{\pi }}^{-1}\widehat{COV}_{p}\left( \mathbf{\hat{X}}_{\pi }\mathbf{,\hat{Y}}_{\pi }\right) \mathbf{D}_{\mathbf{ \hat{Y}}_{\pi }}^{-1}\right] \mathbf{\mathbf{D}_{\widehat{\mathbf{R}}}}\;\; \mbox{,} \nonumber \end{eqnarray}\]

que fornece o resultado desejado, isto é, uma expressão de estimador para a matriz de variância do estimador \(\widehat{\mathbf{R}}\) do vetor de razões de interesse.

3.4 Método do Conglomerado Primário

A ideia central do Método do Conglomerado Primário (do inglês Ultimate Cluster) para estimação de variâncias para estimadores de totais e médias em planos amostrais de múltiplos estágios, proposto por (Hansen, Hurwitz, and Madow 1953), é considerar apenas a variação entre informações disponíveis no nível das unidades primárias de amostragem (UPAs), isto é, dos conglomerados primários, e admitir que estes teriam sido selecionados com reposição da população. Esta ideia é simples, porém bastante poderosa, porque permite acomodar uma enorme variedade de planos amostrais, envolvendo estratificação e seleção com probabilidades desiguais (com ou sem reposição) tanto das unidades primárias como das demais unidades de amostragem. Os requisitos fundamentais para permitir a aplicação deste método são que estejam disponíveis estimadores não viciados dos totais da variável de interesse para cada um dos conglomerados primários selecionados, e que pelo menos dois destes sejam selecionados em cada estrato (se a amostra for estratificada no primeiro estágio).

Embora o método tenha sido originalmente proposto para estimação de totais, pode ser aplicado também para estimar (por linearização) quantidades populacionais que possam ser representadas como funções de totais, conforme discutido na Seção 3.3. De fato, esse método fornece a base para vários dos pacotes estatísticos especializados em cálculo de variâncias considerando o plano amostral, tais como SUDAAN, CENVAR, STATA ou PC-CARP (veja discussão no Capítulo 10).

Para descrever o método, considere um plano amostral em vários estágios, no qual \(n_{h}\) unidades primárias de amostragem (UPAs) são selecionadas no estrato \(h,\) \(h=1,\ldots ,H\). Denotemos por \(\pi_{hi}\) a probabilidade de inclusão na amostra da unidade primária de amostragem (conglomerado primário) \(i\) do estrato \(h\), e por \(\widehat{Y}_{hi}\) um estimador não viciado do total \(Y_{hi}\) da variável de pesquisa \(y\) no \(i\)-ésimo conglomerado primário do estrato \(h\), \(h=1,\ldots ,H\). Então um estimador não viciado do total \(Y=\sum_{h=1}^{H}\sum_{i=1}^{N_{h}}Y_{hi}\) da variável de pesquisa \(y\) na população é dado por \[ \widehat{Y}_{CP}=\sum_{h=1}^{H}\sum_{i=1}^{n_{h}}\widehat{Y}_{hi}/\pi _{hi} \] e um estimador não viciado da variância de aleatorização correspondente por \[\begin{equation} \widehat{V}_{p}\left( \widehat{Y}_{CP}\right) =\sum_{h=1}^{H}\frac{n_{h}} {n_{h}-1}\sum_{i=1}^{n_{h}}\left( \frac{\widehat{Y}_{hi}}{\pi _{hi}}- \frac{\widehat{Y}_{h}}{n_{h}}\right) ^{2} \tag{3.23} \end{equation}\]

onde \(\widehat{Y}_{h}=\sum_{i=1}^{n_{h}}\widehat{Y}_{hi}/\pi _{hi}\) para \(h=1,\ldots ,H\). (Veja por exemplo, (Shah et al. 1993), p. 4).

Embora muitas vezes a seleção das unidades primárias possa ter sido feita sem reposição, o estimador de Conglomerados Primários aqui apresentado pode fornecer uma aproximação razoável da correspondente variância de aleatorização. Isso ocorre porque planos amostrais sem reposição são em geral mais eficientes que planos com reposição de igual tamanho. Tal aproximação é largamente utilizada pelos praticantes de amostragem para estimar variâncias de quantidades descritivas usuais tais como totais e médias (com a devida adaptação) devido à sua simplicidade, comparada com a complexidade muito maior envolvida com o emprego de estimadores de variância que tentam incorporar todas as etapas de planos amostrais em vários estágios. Uma discussão sobre a qualidade dessa aproximação e alternativas pode ser encontrada em (Särndal, Swensson, and Wretman 1992), p. 153.

3.5 Métodos de Replicação

A ideia de usar métodos indiretos ou de replicação para estimar variâncias em amostragem não é nova. (Mahalanobis 1939), (Mahalanobis 1944) e (Deming 1956) foram os precursores e muitos desenvolvimentos importantes se seguiram. Hoje em dia várias técnicas baseadas nessa ideia são rotineiramente empregadas por praticantes de amostragem, e inclusive formam a base para pacotes especializados de estimação tais como WesVarPC (veja (Westat 1996)).

A ideia básica é construir a amostra de tamanho \(n\) como a união de \(G\) amostras de tamanho \(n/G\) cada uma, selecionadas de forma independente e usando o mesmo plano amostral, onde \(G\) é o número de replicações. Nesse caso, se \(\theta\) é o parâmetro-alvo, e \(\widehat{\theta}_{g}\) é um estimador não viciado de \(\theta\) baseado na \(g\)-ésima replicação \((g=1,\ldots ,G)\), segue-se que \[ \widehat{\theta }_{R}=\frac{1}{G}\sum_{g=1}^{G}\widehat{\theta }_{g} \] é um estimador não viciado de \(\theta\) e

\[\begin{equation} \widehat{V}_{R}\left( \widehat{\theta }_{R}\right) =\frac{1}{G\left( G-1\right) }\sum_{g=1}^{G}\left( \widehat{\theta }_{g}-\widehat{\theta } _{R}\right) ^{2} \tag{3.24} \end{equation}\]

é um estimador não viciado da variância do estimador (de replicação) \(\widehat{\theta }_{R}\) .

Note que desde que as replicações sejam construídas de forma independente conforme indicado, os estimadores \(\widehat{\theta }_{R}\) e \(\widehat{V}_{R}\left( \widehat{\theta }_{R}\right)\) são não viciados qualquer que seja o plano amostral empregado para selecionar a amostra de cada replicação, o que faz desta uma técnica flexível e genérica. Além disso, a abordagem de replicação é bastante geral, pois os estimadores aos quais se aplica não precisam ser necessariamente expressos como funções de totais, como ocorre com a técnica de linearização discutida na Seção 3.3. Apesar destas vantagens, a aplicação prática desta técnica de forma exata é restrita porque em geral é menos eficiente, inconveniente e mais caro selecionar \(G\) amostras independentes com o mesmo esquema, se comparado à seleção de uma única amostra de tamanho \(n\) diretamente. Além disto, se o número de replicações \(G\) for pequeno, o estimador de variância pode ser instável. Uma pesquisa importante e de grande porte em que esta ideia é aplicada exatamente é a pesquisa de preços para formar o índice de Preços ao Consumidor (do inglês Consumer Price Index - CPI do (Labor Statistics 1984), p. 22, que utiliza duas replicações (meias amostras) para formar a amostra pesquisada.

Mesmo quando a amostra não foi selecionada exatamente dessa forma, a construção de replicações a posteriori para fins de estimação de variâncias em situações complexas é também uma ideia simples de aplicar, poderosa e flexível, por acomodar uma ampla gama de planos amostrais e situações de estimação de interesse. Quando as replicações são construídas após a pesquisa (a posteriori), mediante repartição (por sorteio) da amostra pesquisada em \(G\) grupos mutuamente exclusivos de igual tamanho, estas são chamadas de replicações dependentes ou grupos aleatórios (do inglês random groups). As expressões fornecidas para o estimador de replicação e sua variância são também empregadas nesse caso como uma aproximação, mas não possuem as mesmas propriedades do caso de replicações independentes.

É importante observar que a repartição da amostra em grupos aleatórios a posteriori precisa considerar o plano amostral empregado e pode não ser possível em algumas situações. Idealmente, tal repartição deve ser feita respeitando estratos e alocando unidades primárias inteiras (isto é, com todas as respectivas unidades subordinadas). (Wolter 1985),p. 31], discute algumas regras sobre como fazer para respeitar o plano amostral ao fazer a repartição da amostra a posteriori, porém recomendamos que o interessado no uso dessa técnica exerça cautela.

Além da modificação da interpretação das replicações no caso de serem formadas a posteriori, é comum também nesse caso empregar um estimador para o parâmetro \(\theta\) baseado na amostra completa (denotado \(\widehat{\theta }\)), e um estimador de variância mais conservador que o estimador \(\widehat{V}_{R}\left( \widehat{\theta }_{R}\right)\) anteriormente apresentado, dado por \[\begin{equation} \widehat{V}_{RG}\left( \widehat{\theta }\right) =\frac{1}{G\left( G-1\right) }\sum_{g=1}^{G}\left( \widehat{\theta }_{g}-\widehat{\theta }\right) ^{2}\;. \tag{3.25} \end{equation}\]

Um exemplo de aplicação desta técnica pode ser encontrado na forma recomendada para estimação de variâncias a partir das Amostras de Uso Público do Censo Demográfico Brasileiro de 80 (veja (IBGE 1985)).

Nesta seção descreveremos uma outra dessas técnicas baseadas em replicações, talvez a mais conhecida e popular, o método de jackknife. Este método foi originalmente proposto por (Quenoille 1949) e (Quenoille 1956) como uma técnica para redução de vício de estimadores, num contexto da Estatística Clássica. A ideia central consiste em repartir a amostra (a posteriori, como no caso do método dos grupos aleatórios) em \(G\) grupos mutuamente exclusivos de igual tamanho \(n/G\). Em seguida, para cada grupo formado calcular os chamados pseudo-estimadores dados por \[ \widehat{\theta }_{\left( g\right) }=G\widehat{\theta }-\left( G-1\right) \widehat{\theta }_{g} \] onde \(\widehat{\theta }_{g}\) é um estimador de \(\theta\) obtido da amostra após eliminar os elementos do grupo \(g\), empregando a mesma forma funcional adotada no cálculo do estimador \(\widehat{\theta}\) que considera a amostra inteira. A estimação da variância por esse método pode então ser feita de duas maneiras alternativas, usando um dos estimadores dados por \[\begin{equation} \widehat{V}_{J1}\left( \widehat{\theta }\right) =\frac{1}{G\left( G-1\right) }\sum_{g=1}^{G}\left( \widehat{\theta }_{\left( g\right) }-\widehat{\theta } _{J}\right) ^{2} \tag{3.26} \end{equation}\] ou \[\begin{equation} \widehat{V}_{J2}\left( \widehat{\theta }\right) =\frac{1}{G\left( G-1\right) }\sum_{g=1}^{G}\left( \widehat{\theta }_{\left( g\right) }-\widehat{\theta } \right) ^{2} \tag{3.27} \end{equation}\]

onde \(\widehat{\theta }_{J}=\frac{1}{G}\sum_{g=1}^{G}\widehat{\theta }_{\left( g\right)}\) é um estimador pontual jackknife para \(\theta\), alternativo ao estimador da amostra inteira \(\hat{\theta}\).

Observação. A descrição do método jackknife aqui apresentada não cobre o caso de planos amostrais estratificados, que é mais complexo. Para detalhes sobre este caso, consulte (Wolter 1985), pág. 174.

Observação. O estimador \(\widehat{V}_{J2}\left( \widehat{\theta }\right)\) é mais conservador que o estimador \(\widehat{V}_{J1}\left( \widehat{\theta }\right)\).

Observação. É comum aplicar a técnica fazendo o número de grupos igual ao tamanho da amostra, isto é, tomando \(G=n\) e portanto eliminando uma observação da amostra de cada vez ao calcular os pseudo-valores. Essa regra deve ser aplicada considerando o número de unidades primárias na amostra (UPAs) quando o plano amostral é em múltiplos estágios, pois as UPAs devem sempre ser eliminadas com todas as unidades subordinadas.

Os estimadores de variância do método jackknife fornecem resultado idêntico aos dos estimadores usuais de variância quando aplicados para o caso de estimadores lineares nas observações amostrais. Além disso, suas propriedades são razoáveis para vários outros casos de estimadores não lineares de interesse (veja, por exemplo, (Cochran 1977), p. 321 e (Wolter 1985), p. 306. A situação merece maiores cuidados para o caso de quantis ou estatísticas de ordem, tais como a mediana e o máximo, pois neste caso essa técnica não funciona bem (Wolter 1985), p. 163.

O pacote WesVarPC (Westat 1996) baseia suas estimativas de variância principalmente no método jackknife, embora também possua uma opção para usar outro método conhecido como de replicações de meias amostras balanceadas (do inglês balanced half-sample replication).

3.6 Laboratório de R

Vamos utilizar dados da Pesquisa de Padrão de Vida (PPV) do IBGE para ilustrar alguns métodos de estimação de variâncias. Vamos considerar a estimação da proporção de analfabetos na faixa etária acima de 14 anos. Os dados da pesquisa encontram-se no data frame . A variável analf2 é indicadora da condição de analfabetismo na faixa etária acima de 14 anos e a variável faixa2 é indicadora da faixa etária acima de 14 anos. Queremos estimar a proporção de analfabetos na faixa etária acima de 14 anos na região Sudeste. Antes apresentamos o método de estimação de variância por linearização de Taylor

Vamos criar duas variáveis:

analf - variável indicadora da condição de analfabetismo: v04a01 ou v04a02 igual a 2;
faixa - variável indicadora de faixa etária entre 7 e 14 anos.

library(survey)
library(anamco) 
ppv_dat <- ppv # carrega dados
# cria objeto de desenho
ppv_plan<-svydesign(ids = ~nsetor, strata = ~estratof,
data = ppv_dat, nest = TRUE, weights = ~pesof)
# atualiza objeto de desenho com novas variáveis
ppv_plan<-update(ppv_plan,
  analf=(v04a01 == 2 | v04a02 == 2)*1,
  faixa=(v02a08 >= 7 & v02a08 <= 14) *1,
  analf.faixa= (analf==1 & faixa==1)*1
)

Como estamos interessados em estimativas relativas à Região Sudeste, vamos restringir o desenho a esse domínio:

ppv_se_plan <- subset(ppv_plan, regiao == 2)

Vamos estimar os totais das variáveis analf.faixa e faixa:

analf_faixa_tot_est<-svytotal(~analf.faixa+faixa ,ppv_se_plan )
Vcov.Y1.Y2<-vcov(analf_faixa_tot_est)

Substituindo os valores na expressão (3.21), obtemos a estimativa da variância da razão de totais das variáveis analf.faixa e faixa.

y1hat<-coef(analf_faixa_tot_est)[1]
y2hat<-coef(analf_faixa_tot_est)[2]
Var.raz<-(1/y2hat)*(1/y2hat)*Vcov.Y1.Y2[1,1]+2*(1/y2hat)*(-y1hat/y2hat^2)*Vcov.Y1.Y2[1,2]+
(-y1hat/y2hat^2)*(-y1hat/y2hat^2)*Vcov.Y1.Y2[2,2]
# estimativa do desvio-padrão
sqrt(Var.raz)

##  faixa 
## 0,0118

Podemos calcular diretamente o desvio-padrão:

svyratio(~analf.faixa, ~faixa, ppv_se_plan)

## Ratio estimator: svyratio.survey.design2(~analf.faixa, ~faixa, ppv_se_plan)
## Ratios=
##             faixa
## analf.faixa 0,119
## SEs=
##              faixa
## analf.faixa 0,0118

A estimativa do desvio-padrão obtida por meio da função svyratio coincide com a obtida diretamente pelo método de linearização, e é igual a 0,012. O método default para estimar variâncias usado pela library survey (Lumley 2017) do R é o de linearização de Taylor.

A library survey dispõe de métodos alternativos para a estimação de variância. Vamos utilizar os métodos de replicação de Jackknife e de Bootstrap para estimar esta variância de razão. Inicialmente, vamos converter o objeto de desenho ppv1_se_plan em um objeto de desenho de replicação de tipo Jackknife, contendo as réplicas de pesos que fornecem correspondentes réplicas de estimativas.

ppv_se_plan_jkn<-as.svrepdesign(ppv_se_plan,type="JKn")
svyratio(~analf.faixa, ~faixa, ppv_se_plan_jkn)

## Ratio estimator: svyratio.svyrep.design(~analf.faixa, ~faixa, ppv_se_plan_jkn)
## Ratios=
##             faixa
## analf.faixa 0,119
## SEs=
##        [,1]
## [1,] 0,0118

Para o tipo Bootstrap, temos:

ppv_se_plan_boot<-as.svrepdesign(ppv_se_plan,type="bootstrap")
svyratio(~analf.faixa, ~faixa, ppv_se_plan_boot)

## Ratio estimator: svyratio.svyrep.design(~analf.faixa, ~faixa, ppv_se_plan_boot)
## Ratios=
##             faixa
## analf.faixa 0,119
## SEs=
##       [,1]
## [1,] 0,011

Vamos apresentar mais detalhes sobre a obtenção dos estimadores de Jackknife e Bootstrap na library survey (Lumley 2017). A classe do objeto ppv_se_plan_jkn é svyrep.design e ele contém as seguintes componentes:

class(ppv_se_plan_jkn)

## [1] "svyrep.design"

names(ppv_se_plan_jkn)

##  [1] "repweights"       "pweights"         "type"            
##  [4] "rho"              "scale"            "rscales"         
##  [7] "call"             "combined.weights" "selfrep"         
## [10] "mse"              "variables"        "degf"

A componente repweights é uma lista com duas componentes: weights e index. A componente weights é uma matriz de dimensão \(276 \times 276\), onde \(276\) é o número de conglomerados primários do plano amostral da PPV na região Sudeste. A partir desta matriz, podemos obter \(276\) réplicas de pesos de desenho de Jackknife.

ppv_se_dat<-ppv_se_plan_jkn$variables
nrow(ppv_se_dat)

## [1] 8903

ncong<-sum(with(ppv_se_dat,tapply( nsetor,estratof, function(t) length(unique(t)))))
ncong

## [1] 276

O argumento compress da função as.svrepdesign permite especificar se, na saída da função, a matriz weights será na forma comprimida ou não. Na aplicação feita foi usado o valor default que é a forma comprimida. A forma não comprimida da matriz weights tem 8903 linhas e 276 colunas. A forma comprimida permite economizar memória, e pode ser facilmente convertida para a forma não comprimida, utilizando-se a componenteindex.

No método jackknife, cada um dos conglomerados primários é removido, e a réplica correspondente dos pesos é o produto do peso amostral original por um fator apropriado, definido da forma a seguir. Suponhamos que foi removido um conglomerado no estrato \(h\), então os pesos do plano amostral serão multiplicados por:

\(0\) para as unidades no conglomerado removido;
\(m_h/(m_h-1)\) para unidades pertencentes a outros conglomerados do estrato \(h\);
\(1\) para unidades em estratos \(h'\neq h\).

Podemos obter a matriz de fatores de correção do peso amostral na forma não comprimida da seguinte maneira:

fact_peso_comp_mat<-ppv_se_plan_jkn$repweights[[1]]
ind_cong <-ppv_se_plan_jkn$repweights[[2]]
fat_pesos_mat<- fact_peso_comp_mat[ind_cong,]
str(fat_pesos_mat)

##  num [1:8903, 1:276] 0 0 1,06 1,06 1,06 ...

Podemos obter matriz de réplicas de pesos multiplicando cada coluna dessa matriz pelos pesos do plano amostra:

rep_pesos_mat<-weights(ppv_se_plan)*fat_pesos_mat

Utilizando esta matriz de réplicas de pesos, podemos obter réplicas correspondentes de estimativas da razão.

rep_est_raz<-numeric(ncol(rep_pesos_mat))
for (i in 1:ncol(rep_pesos_mat)){
rep_est_raz[i]<-sum(rep_pesos_mat[,i]*ppv_se_dat$analf.faixa)/sum(rep_pesos_mat[,i]*ppv_se_dat$faixa)
}

A partir destas réplicas de estimativas da razão, finalmente estimamos a variância:

mean_raz<-mean( rep_est_raz[ppv_se_plan_jkn$rscales>0])
var_jack_raz<- sum((rep_est_raz-mean_raz)^2*ppv_se_plan_jkn$rscales)*ppv_se_plan_jkn$scale
round(sqrt(var_jack_raz),5)

## [1] 0,0118

A library survey (Lumley 2017) fornece uma função para estimar a variância de uma função de totais a partir das réplicas de pesos:

var_raz_rep<-withReplicates(ppv_se_plan_jkn, function(w,ppv_se_dat) sum(w*ppv_se_dat$analf.faixa)/sum(w*ppv_se_dat$faixa))
var_raz_rep

##      theta   SE
## [1,] 0,119 0,01

Resultado que coincide com a estimativa obtida pela aplicação da função svyratio.

A vantagem de utilizar métodos de replicação é a facilidade com que estimamos a variância de qualquer característica da população, cujo estimador pontual é conhecido. Por exemplo, se quisermos estimar a variância da razão das taxas de analfabetos nas faixas etárias de 0 a 14 anos e acima de 14 anos podemos usar as mesmas réplicas de pesos:

withReplicates (ppv_se_plan_jkn,function(w,ppv_se_dat) with(ppv_se_dat,
(sum(w*(analf==1&faixa==1))/sum(w*(faixa==1)))/(sum(w*(analf==1&faixa==0))/sum(w*(faixa==0)))
))

##      theta   SE
## [1,] 0,504 0,05

O erro padrão da razão entre razões estimada no exemplo anterior pode ser estimado por linearização de Taylor, usando-se a função svycontrast() da library survey:

# cria variáveis dummies: 
ppv_se_plan <- update(ppv_se_plan,
num1 = as.numeric(analf==1 & faixa==1),
num2 = as.numeric(analf==1 & faixa==0),
den1 = as.numeric (faixa == 1),
den2 = as.numeric(faixa == 0)
)
# estima totais e matriz de covariância de estimativas de totais
comp.tot <- svytotal(~num1+num2+den1+den2, ppv_se_plan)  

# estima razão de razões:  
svycontrast(comp.tot, quote((num1/den1)/(num2/den2)))

##          nlcon   SE
## contrast 0,504 0,05

Referências

Särndal, C-E., B. Swensson, and J. H. Wretman. 1992. Model Assisted Survey Sampling. Nova Iorque: Springer-Verlag.

Nascimento Silva, P. L. D. 1996. “Utilizing Auxiliary Information for Estimation and Analysis in Sample Surveys.” PhD thesis, University of Southampton, Department of Social Statistics.

Wolter, K. M. 1985. Introduction to Variance Estimation. Nova Iorque: Springer-Verlag.

Bishop, Y. M. M., S. E. Fienberg, and P. W. Holland. 1975. Discrete Multivariate Analysis: Theory and Practice. Massachusets: The MIT Press.

Hansen, M. H., W. N. Hurwitz, and W. G. Madow. 1953. Sample Survey Methods and Theory. Nova Iorque: John Wiley; Sons.

Shah, B. V., R. E. Folsom, L. M. LaVange, S. C. Wheeless, K. E. Boyle, and R. L. Williams. 1993. “Statistical Methods and Mathematical Algorithms Used in Sudaan.”

Mahalanobis, P. C. 1939. “A Sample Survey of the Acreage Under Jute in Bengal.” Sankhya 4: 511–31.

Mahalanobis, P. 1944. “On Large-Scale Sample Surveys.” Philosophical Transactions of the Royal Society of London B 231: 329–451.

Deming, W. E. 1956. “On Simplifications of Sampling Design Through Replication with Equal Probabilities and Without Stages.” Journal of the American Statistical Association 51: 24–53.

Westat. 1996. A User’s Guide to WesVarPc, Version 2.0. Mariland: Westat, Inc.

Labor Statistics, US Bureau of. 1984. “BLS Handbook of Methods - Volume Ii - the Consumer Price Index.” BLS Bulletin 2134-2. Washington DC.

IBGE. 1985. “Amostra de Uso Público Do Censo Demográfico de 1980 - Metodologia E Manual Do Usuário.” Rio de Janeiro: IBGE.

Quenoille, M. H. 1949. “Problems in Plane Sampling.” Annals of Mathematical Statistics 20: p. 355–75.

Quenoille, M. 1956. “Notes on Bias in Estimation.” Biometrika 43: 353–60.

Cochran, W. G. 1977. Sampling Techniques. Nova Iorque: John Wiley.

Lumley, Thomas. 2017. Survey: Analysis of Complex Survey Samples. https://CRAN.R-project.org/package=survey.