抽样调查:不等概抽样

Posted 江景景景页

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抽样调查:不等概抽样相关的知识,希望对你有一定的参考价值。

第5部分 不等概抽样

不等概抽样

等概率抽样和不等概抽样的区别:在等概抽样中,每个总体单元都具有相同的入样概率;不等概抽样赋予每个单元与其规模(或辅助变量)成比例的入样概率,使得大单元入样概率大、小单元入样概率小,然后在估计中采用不同的权数来进行弥补。

  • 当总体单元之间差异不大时,简单随机抽样简便、有效。
  • 如果总体单元之间差异大时,简单随机抽样的效果不好。
  • 如果每个总体单元的入样意愿与其所处的层有关,则无偏估计量会有较大的方差。

不等概抽样的适用情况:

  • 抽样单元在总体中所占的地位不一致。
  • 调查的总体单元与抽样总体的单元不一致(如调查职工家庭,但抽样单元是职工,可能存在双职工家庭)。
  • 不等概抽样可用于改善等概抽样的估计量。

不等概抽样的特点与优缺点:

  • 不等概抽样的使用前提时,每个单元必须有确定的入样概率,在抽样设计时就要设定好。
  • 优点是提高估计精度,减少抽样误差。
  • 缺点是编制抽样框的过程有时要复杂一些。

不等概抽样的分类:

  1. 放回不等概抽样

    每次在总体中,对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,再进行下一次抽样。

    这使得每一次抽样过程都是从同一个总体独立出来的,某个单元可能在样本中多次出现,但此时对这个单元的调查只进行一次,而计算时按抽中次数计算。

    典型方式:\\(\\mathrm{PPS}\\)抽样,即与规模大小成比例(probability proportional to size)的抽样,规模的定义可以由多种方式完成。

  2. 不放回不等该抽样

    每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本不放回总体,对总体中剩下的单元进行下一次抽样。抽取出的样本是不独立的。

    抽取方法有:逐个抽取法,重抽法,全样本抽取法,系统抽样法。

    典型方式:\\(\\mathrm{\\pi PS}\\)抽样,假设总体中第\\(i\\)个单元被包含到样本的概率用\\(\\pi_i\\)表示,若\\(\\pi_i\\)与单元规模大小成比例,则这种抽样方式称为\\(\\mathrm{\\pi PS}\\)抽样。

简单的放回不等概抽样

概述

符号定义:

  • 要抽取的样本容量\\(n\\),总体中含有的个体数\\(N\\)

  • 总体中第\\(i\\)个单元\\(Y_i\\)的规模度量\\(M_i\\)

  • 总体的总规模\\(\\displaystyle{M_0=\\sum_{i=1}^{N}M_i}\\)

  • 每次抽样中,\\(Y_i\\)被抽中的概率\\(Z_i\\),如果是\\(\\mathrm{PPS}\\)抽样,则有

    \\[Z_i=\\frac{M_i}{M_0}=\\frac{M_i}{\\sum\\limits_{i=1}^{N}M_i}. \\]

对总体总值的估计量:汉森-赫维茨(Hansen-Hurwitz)估计量。

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{y_i}{Z_i}. \\]

如果是\\(\\mathrm{PPS}\\)抽样,则

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{y_i}{Z_i}=\\frac{M_0}{n}\\sum_{i=1}^{n}\\frac{y_i}{M_i}. \\]

HH统计量的期望、方差

定理:\\(\\hat Y_{HH}\\)是总体总值\\(Y\\)的无偏估计量,即

\\[\\mathbb{E}(\\hat {Y}_{HH})=Y. \\]

可先计算只抽取一个样本时,\\(y_i/Z_i\\)的期望,为

\\[\\mathbb{E}\\left(\\frac{y_i}{Z_i}\\right)=\\sum_{i=1}^{N}Z_i\\frac{Y_i}{Z_i}=Y, \\]

再由不放回抽样时每个样本的独立性,有

\\[\\mathbb{E}(\\hat{Y}_{HH})=\\frac{1}{n}\\sum_{i=1}^{n}\\mathbb{E}\\left(\\frac{y_i}{Z_i}\\right)=\\frac{1}{n}\\sum_{i=1}^{n}Y=Y. \\]

要注意到每一个\\(Z_i\\)是与\\(Y_i\\)相联系的量,因此当实际抽中\\(Y_i\\)时,可以将其观测值视为\\(Y_i/Z_i\\),再按照离散分布列,加权计算期望即可。

定理:\\(\\hat Y_{HH}\\)的方差为

\\[\\mathbb{D}(\\hat Y_{HH})=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2. \\]

类似地,可以先计算每一个\\(y_i/Z_i\\)的方差,再由样本间的同分布独立性计算整体方差,为

\\[\\mathbb{D}\\left(\\frac{y_i}{Z_i} \\right)=\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2,\\\\ \\mathbb{D}(\\hat Y_{HH})=\\mathbb{D}\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{y_i}{Z_i} \\right)=\\frac{1}{n}\\mathbb{D}\\left(\\frac{y_i}{Z_i} \\right)=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2. \\]

HH统计量方差的无偏估计

定理:当\\(n>1\\)时,\\(\\mathbb{D}(\\hat Y_{HH})\\)的无偏估计为

\\[v(\\hat Y_{HH})=\\frac{1}{n}\\frac{1}{n-1}\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-\\hat Y_{HH} \\right)^2,\\\\ \\mathbb{E}(v(\\hat Y_{HH}))=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2. \\]

不妨记\\(t_i\\)\\(Y_i\\)的入样次数,则\\(\\displaystyle{\\sum_{i=1}^{N}t_i=n}\\)\\(t_i\\sim B(n, Z_i)\\)\\((t_i,t_j)\\)服从多项分布,且

\\[\\mathbb{E}(t_i)=nZ_i,\\quad \\mathbb{D}(t_i)=nZ_i(1-Z_i),\\\\ \\mathbb{E}(t_it_j)=n(n-1)Z_iZ_j,\\\\ \\mathrm{cov}(t_i,t_j)=-nZ_iZ_j. \\]

要证明定理,即证明

\\[\\mathbb{E}\\left[\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-\\hat Y_{HH} \\right)^2 \\right]=(n-1)\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2=n(n-1)\\mathbb{D}(\\hat{Y}_{HH}). \\]

注意到

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{y_i}{Z_i}, \\]

所以

\\[\\begin{aligned} \\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-\\hat Y_{HH} \\right)^2=\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i} \\right)^2-n\\hat Y_{HH}^2=\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-Y \\right)^2-n(\\hat Y_{HH}-Y)^2 \\end{aligned}, \\]

这里\\(\\displaystyle{\\mathbb{E}\\left(\\frac{y_i}{Z_i} \\right)=\\mathbb{E}(\\hat Y_{HH})=Y}\\),于是

\\[\\begin{aligned} \\mathbb{E}\\left[\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-\\hat Y_{HH} \\right)^2 \\right]&=\\mathbb{E}\\left[\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-Y \\right)^2-n(\\hat Y_{HH}-Y)^2 \\right]\\\\ &=\\mathbb{E}\\left[\\sum_{i=1}^{N}t_i\\left(\\frac{y_i}{Z_i}-Y \\right)^2 \\right]-n\\mathbb{D}(\\hat Y_{HH})\\\\ &=\\sum_{i=1}^{N}\\mathbb{E}(t_i)\\left(\\frac{y_i}{Z_i}-Y \\right)^2-n\\mathbb{D}(\\hat Y_{HH})\\\\ &=n\\sum_{i=1}^{N}Z_i\\left(\\frac{y_i}{Z_i}-Y \\right)^2-n\\mathbb{D}(\\hat{Y}_{HH})\\\\ &=n^2\\mathbb{D}(\\hat{Y}_{HH})-n\\mathbb{D}(\\hat{Y}_{HH})\\\\ &=n(n-1)\\mathbb{D}(\\hat{Y}_{HH}), \\end{aligned} \\]

原式得证。

推论:如果是\\(\\mathrm{PPS}\\)抽样,则由\\(Z_i=\\dfrac{M_i}{M_0}\\),有

\\[v(\\hat{Y}_{HH})=\\frac{1}{n(n-1)}\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-\\hat Y_{HH} \\right)^2=\\frac{M_0^2}{n(n-1)}\\sum_{i=1}^{n}\\left(\\frac{y_i}{M_i}-\\frac{\\hat Y_{HH}}{M_0} \\right)^2. \\]

放回不等概多阶段抽样

放回不等概整群抽样

在等概率整群抽样中,每一个群被抽中的概率相等,如果每个群规模相等则等概整群抽样的效果较好;如果群的规模不等,则一般使用不等概整群抽样抽取群,按与群规模\\(M_i\\)成比例的\\(\\mathrm{PPS}\\)抽样,第\\(i\\)个群的总值为\\(\\displaystyle{y_i=\\sum_{j=1}^{M_i}y_{ij}}\\)

\\(\\mathrm{PPS}\\)总体总值的估计量为

\\[\\hat Y=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{y_i}{Z_i}=\\frac{M_0}{n}\\sum_{i=1}^{n}\\frac{y_i}{M_i}=M_0\\bar{\\bar y}. \\]

推论:由汉森-赫维茨估计量的性质,有

  1. \\(\\hat Y\\)\\(Y\\)的无偏估计。

  2. \\(\\hat Y\\)的方差为

    \\[\\mathbb{D}(\\hat Y)=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2=\\frac{M_0}{n}\\sum_{i=1}^{N}M_i(\\bar Y_i-\\bar{\\bar Y})^2. \\]

  3. \\(\\mathbb{D}(\\hat Y)\\)的无偏估计为

    \\[v(\\hat Y)=\\frac{1}{n(n-1)}\\sum_{i=1}^{n}\\left(\\frac{y_i}{Z_i}-Y \\right)^2=\\frac{M_0^2}{n(n-1)}\\sum_{i=1}^{n}(\\bar{y}_i-\\bar{\\bar y})^2. \\]

只需注意到\\(\\displaystyle{Y=\\sum_{i=1}^{N}Y_i}\\),再将每一个群视为一个个体,最后取\\(\\displaystyle{Z_i=\\frac{M_i}{M_0}}\\)即可。

由上述过程可知,在抽取样本之前,必须获得各群规模\\(M_i\\)的信息。

放回不等概两阶段抽样

两阶段放回不等概抽样是两阶段整群抽样的推广,先按照放回不等概整群抽样的方式抽中\\(n\\)个一级单元,对抽中的第\\(i\\)个单元,再抽取\\(m_i\\)个二级单元(如果某个初级单元被重复抽中多次,则对其二级单元抽取多个独立样本)。

此时,由于没有对抽中的初级单元作普查,所以先构造初级单元总值\\(Y_i\\)的无偏估计\\(\\hat Y_i\\)(构造方式不限,故抽样方式也不限),再构造汉森-赫维茨估计量为

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{\\hat Y_i}{Z_i}. \\]

推论:由汉森赫维茨估计量的性质以及两阶段抽样的特点,有

  1. \\(\\hat Y_{HH}\\)\\(Y\\)的无偏估计。

  2. \\(\\hat Y_{HH}\\)的方差为

    \\[\\mathbb{D}(\\hat Y_{HH})=\\frac{1}{n}\\left[\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2+\\sum_{i=1}^{N}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i} \\right]. \\]

  3. \\(\\mathbb{D}(\\hat Y_{HH})\\)的无偏估计为

    \\[v(\\hat Y_{HH})=\\frac{1}{n(n-1)}\\sum_{i=1}^{n}\\left(\\frac{\\hat Y_i}{Z_i}-\\hat Y_{HH} \\right)^2. \\]

由于\\(\\hat {Y}_i\\)\\(Y_i\\)的无偏估计,所以\\(\\displaystyle{\\mathbb{E}_2\\left(\\frac{\\hat Y_i}{Z_i} \\right)=\\frac{Y_i}{Z_i}}\\),即

\\[\\mathbb{E}(\\hat Y_{HH})=\\mathbb{E}_1\\left[\\frac{1}{n}\\sum_{i=1}^{n}\\mathbb{E}_2\\left(\\frac{\\hat Y_i}{Z_i}\\right)\\right]=\\mathbb{E}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)=Y. \\]

并且可得两个关键等式:

\\[\\mathbb{E}_2(\\hat Y_{HH})=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i},\\quad \\mathbb{D}_2(\\hat Y_{HH})=\\frac{1}{n^2}\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2}, \\]

由两阶段抽样定理,与第一阶段简单不等概抽样的性质,有

\\[\\begin{aligned} \\mathbb{D}(\\hat Y_{HH})&=\\mathbb{D}_1\\mathbb{E}_2(\\hat Y_{HH})+\\mathbb{E}_1\\mathbb{D}_2(\\hat Y_{HH})\\\\ &=\\mathbb{D}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)+\\mathbb{E}_1\\left(\\frac{1}{n^2}\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2} \\right)\\\\ &=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2+\\frac{1}{n}\\sum_{i=1}^{N}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2}. \\end{aligned} \\]

这里,前一部分是汉森-赫维茨估计量的方差,后一部分是汉森-赫维茨估计量的均值。

对于\\(v(\\hat Y_{HH})\\),在下面的\\((*)\\)式中将两个关键等式代入,可得

\\[\\begin{aligned} \\mathbb{E}(v(\\hat Y_{HH}))&=\\frac{1}{n(n-1)}\\mathbb{E}_1\\mathbb{E}_2\\left[\\sum_{i=1}^{n}\\left(\\frac{\\hat Y_i}{Z_i}-\\hat Y_{HH} \\right)^2 \\right]\\\\ &=\\frac{1}{n(n-1)}\\mathbb{E}_1\\mathbb{E}_2\\left[\\sum_{i=1}^{n}\\left(\\frac{\\hat Y_i}{Z_i} \\right)^2-n(\\hat Y_{HH}^2) \\right]\\\\ &=\\frac{1}{n(n-1)}\\mathbb{E}_1\\left[\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)+[\\mathbb{E}_2(\\hat Y_i)]^2}{Z_i^2}-n\\{\\mathbb{D}_2(\\hat Y_{HH})+[\\mathbb{E}_2(\\hat Y_{HH}) ]^2 \\} \\right]\\\\ &\\stackrel{*}{=}\\frac{1}{n(n-1)}\\mathbb{E}_1\\left[\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2}+\\sum_{i=1}^{n}\\frac{Y_i^2}{Z_i^2}-\\frac{1}{n}\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2}-\\frac{1}{n}\\left(\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)^2 \\right]\\\\ &=\\frac{1}{n^2}\\mathbb{E}_1\\left[\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2} \\right]+ \\frac{1}{n-1}\\mathbb{E}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i^2}{Z_i^2} \\right)-\\frac{1}{n-1}\\mathbb{E}_1\\left[\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)^2 \\right] \\end{aligned} \\]

对第一项,有

\\[\\frac{1}{n^2}\\mathbb{E}_1\\left[\\sum_{i=1}^{n}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2} \\right]=\\frac{1}{n}\\mathbb{E}_1\\left[\\frac{1}{n}\\sum_{i=1}^{n}\\frac{\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i}}{Z_i} \\right]=\\frac{1}{n}\\sum_{i=1}^{N}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i}, \\]

后一个等号实际上是从\\(\\displaystyle{\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i^2}}\\)中分离出入样概率\\(Z_i\\)后,剩下的部分视为样本观测值,从而\\(\\displaystyle{\\sum_{i=1}^{N}\\frac{\\mathbb{D}_2(\\hat Y_i)}{Z_i}}\\)成为此式中汉森-赫维茨统计量所估计的“总体总值”。同时,可以注意到此部分是\\(\\mathbb{D}(\\hat Y_{HH})\\)的后一部分。

对第二项,用同样的分离方式,可得到

\\[\\frac{1}{n-1}\\mathbb{E}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i^2}{Z_i^2}\\right)=\\frac{1}{n-1}\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i}, \\]

而从第三项,因\\(\\displaystyle{\\mathbb{E}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)=Y}\\),结合\\(\\displaystyle{\\sum_{i=1}^{N}Y_i=Y}\\)\\(\\displaystyle{\\sum_{i=1}^{N}Z_i=1}\\),有

\\[\\begin{aligned} \\frac{1}{n-1}\\mathbb{E}_1\\left[\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)^2 \\right]&=\\frac{1}{n-1}\\left[\\mathbb{D}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)+Y^2 \\right]\\\\ &=\\frac{1}{n-1}\\left[\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2+Y^2 \\right]\\\\ &=\\frac{1}{n(n-1)}\\sum_{i=1}^{N}\\left(\\frac{Y_i^2}{Z_i}-2YY_i+Z_iY^2 +nY^2\\right)\\\\ &=\\frac{1}{n(n-1)}\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i^2}+\\frac{1}{n}Y^2 \\end{aligned} \\]

于是第二项与第三项相减,恰好得到

\\[\\begin{aligned} &\\quad \\frac{1}{n-1}\\mathbb{E}_1\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i^2}{Z_i^2}\\right)-\\frac{1}{n-1}\\mathbb{E}_1\\left[\\left(\\frac{1}{n}\\sum_{i=1}^{n}\\frac{Y_i}{Z_i} \\right)^2 \\right]\\\\ &=\\frac{1}{n-1}\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i}-\\frac{1}{n(n-1)}\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i}-\\frac{1}{n}Y^2\\\\ &=\\frac{1}{n}\\left(\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i}-Y^2 \\right)\\\\ &=\\frac{1}{n}\\sum_{i=1}^{N}Z_i\\left(\\frac{Y_i}{Z_i}-Y \\right)^2. \\end{aligned} \\]

这恰好是\\(\\mathbb{D}(\\hat Y_{HH})\\)的前一部分。综上,就得到

\\[\\mathbb{E}(v(\\hat Y_{HH}))=\\mathbb{D}(\\hat Y_{HH}). \\]

两阶段放回不等概抽样中自加权统计量的设计

依前述,在两阶段放回不等概抽样中,有

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{\\hat Y_{i}}{Z_i}, \\]

如果第二阶段采用简单随机抽样,则

\\[\\hat Y_{HH}=\\frac{1}{n}\\sum_{i=1}^{n}\\frac{1}{Z_i}\\frac{M_i}{m_i}\\sum_{j=1}^{m_i}y_{ij}, \\]

如果希望\\(\\hat Y_{HH}\\)是自加权的(即统计量是样本总值或样本均值的一个常数倍),则需要\\(\\displaystyle{\\frac{M_i}{nm_iZ_i}=K}\\),这里\\(K\\)是常数,更具体地有\\(K\\equiv\\dfrac{1}{f_0}\\)\\(f_0\\)为总体中任意一个二级单元被抽中的概率,即

\\[f_0=nZ_i\\frac{m_i}{M_i}:=nZ_if_{2i}. \\]

\\(\\mathrm{PPS}\\)抽样,有\\(Z_i=M_i/M_0\\),所以只要\\(m_i=m\\)为常数,\\(\\dfrac{M_i}{nm_iZ_i}=\\dfrac{M_0}{nm}\\)就是常数,此时

\\[\\hat Y_{\\mathrm{PPS}}=\\frac{M_0}{nm}\\sum_{i=1}^{n}\\sum_{j=1}^{m}y_{ij},\\\\ v(\\hat Y_{\\mathrm{PPS}})=\\frac{M_0^2}{n(n-1)}\\sum_{i=1}^{n}(\\bar y_i-\\bar{\\bar y})^2. \\]

多阶段放回不等概抽样概述

多阶段放回不等概抽样的方式一般是:对除最后一阶段的每一阶段,采用与单元大小成比例的不等概抽样(\\(\\mathrm{PPS}\\)抽样),对最后一阶段的抽样采用等概抽样。

以三阶段抽样为例:

  • 总体有\\(N\\)个初级单元,第\\(i\\)个初级单元被抽中的概率为\\(Z_i\\)\\(\\displaystyle{\\sum_{i=1}^{N}Z_i=1}\\)
  • \\(i\\)个初级单元有\\(M_i\\)个二级单元,第\\(i,j\\)个二级单元被抽中的概率为\\(Z_{ij}\\)\\(\\displaystyle{\\sum_{j=1}^{M_i}Z_{ji}}=1\\)
  • \\(i,j\\)个二级单元有\\(K_{ij}\\)个三级单元,第\\(i,j,u\\)个三级单元被抽中的概率为\\(Z_{iju}\\)\\(\\displaystyle{\\sum_{u=1}^{K_{ij}}}Z_{iju}=1\\)
  • 各阶样本量分别为\\(n,m,k\\)(定值,与单元无关)

此时,对总体总值\\(Y\\)的无偏估计为

\\[\\hat Y=\\frac{1}{nmk}\\sum_{i=1}^{n}\\frac{1}{Z_i}\\sum_{j=1}^{M_i}\\frac{1}{Z_{ij}}\\sum_{u=1}^{K_{ij}}\\frac{1}{Z_{iju}}\\cdot y_{iju}. \\]

定义\\(\\displaystyle{Y_{ij}=\\sum_{u=1}^{K_{ij}}Y_{iju}}\\)\\(\\displaystyle{Y_{i}=\\sum_{j=1}^{M_i}Y_{ij}=\\sum_{j=1}^{M_i}\\sum_{u=1}^{K_{ij}}Y_{iju}}\\),则\\(\\hat Y\\)的方差为

\\[\\begin{aligned} \\mathbb{D}(\\hat Y)&=\\frac{1}{n}\\left(\\sum_{i=1}^{N}\\frac{Y_i^2}{Z_i}-Y^2 \\right)\\\\ &\\quad+\\frac{1}{nm}\\sum_{i=1}^{N}\\frac{1}{Z_i}\\left(\\sum_{j=1}^{M_i}\\frac{Y_{ij}^2}{Z_{ij}}-Y_{i}^2 \\right)\\\\ &\\qquad+\\frac{1}{nmk}\\sum_{i=1}^{N}\\frac{1}{Z_i}\\sum_{j=1}^{M_i}\\frac{1}{Z_{ij}}\\left(\\sum_{u=1}^{K_{ij}}\\frac{Y_{iju}^2}{Z_{iju}}-Y_{ij}^2 \\right). \\end{aligned} \\]

定义\\(\\displaystyle{\\hat Y_i=\\frac{1}{Z_i}\\left[\\frac{1}{m}\\sum_{j=1}^{m}\\frac{1}{Z_{ij}}\\left(\\frac{1}{k}\\sum_{u=1}^{k}\\frac{y_{iju}}{Z_{iju}} \\right) \\right]}\\)\\(\\mathbb{D}(\\hat Y)\\)的无偏估计为

\\[v(\\hat Y)=\\frac{1}{n(n-1)}\\sum_{i=1}^{n}(\\hat Y_{i}-\\hat Y)^2, \\]

为使\\(\\hat Y\\)是自加权的,使前两阶段抽样采用\\(\\mathrm{PPS}\\)抽样,最后一阶段按放回的等概率抽样进行,则此时

\\[Z_i=\\frac{\\sum\\limits_{j=1}^{M_i}K_{ij}}{\\sum\\limits_{i=1}^{N}\\sum\\limits_{j=1}^{M_i}K_{ij}}=\\frac{\\sum\\limits_{j=1}^{M_i}K_{ij}}{M_0},\\quad Z_{ij}=\\frac{K_{ij}}{\\sum\\limits_{j=1}^{M_i}K_{ij}},\\quad Z_{iju}=\\frac{1}{K_{ij}},\\\\ \\hat Y=\\frac{M_0}{nmk}\\sum_{i=1}^{n}\\sum_{j=1}^{m}\\sum_{u=1}^{k}y_{iju}=M_0\\bar{\\bar{\\bar y}},\\\\ v(\\hat Y)=\\frac{M_0^2}{n(n-1)}\\sum_{i=1}^{n}(\\bar{\\bar y}_i-\\bar{\\bar{\\bar y}})^2. \\]

不放回不等概抽样

概述

在不放回不等概抽样中,每个单元\\(Y_i\\)的入样概率为\\(\\pi_i\\),任意两个单元\\(Y_i,Y_j\\)同时入样的概率为\\(\\pi_{ij}\\),统称为包含概率。应注意\\(\\pi_i\\ne Z_i\\),仅当\\(n=1\\)\\(\\pi_i=Z_i\\)

\\[\\sum_{i=1}^{N}\\pi_i=n,\\\\ \\sum_{j=1,j\\ne i}^{N}\\pi_{ij}=(n-1)\\pi_i,\\\\ \\sum_{i=1}^{N}\\sum_{j>i}^{N}\\pi_{ij}=\\frac{1}{2}n(n-1). \\]

第一个式子代表所有单元的入样概率之和为\\(n\\),这是因为一共需要抽取\\(n\\)个样本。

第二个式子代表,\\(Y_i\\)和其他所有单元一起入样的概率之和为\\((n-1)\\pi_i\\),可以将其看作两个独立事件,其一是\\(Y_i\\)入样,概率为\\(\\pi_i\\);其二是在剩余的单元中抽取\\(n-1\\)个样本,故入样概率之和是\\(n-1\\)

第三个式子代表,所有两个单元一起入样的概率之和为\\(\\displaystyle{\\frac{1}{2}n(n-1)}\\),只需对第二个式子关于\\(i\\)求和再除以\\(2\\)去重。

严格的\\(\\mathrm{\\pi PS}\\)抽样:如果每个单元的入样概率与其大小或规模\\(M_i\\)严格成正比,即\\(\\displaystyle{Z_i=\\frac{M_i}{M_0}}\\)\\(\\pi_i=nZ_i\\),则这种抽样称为严格的\\(\\mathrm{\\pi PS}\\)抽样。

  • 只有在\\(n=2\\)时,严格的\\(\\mathrm{\\pi PS}\\)抽样才有一些简单实用的方法。
  • 对于\\(n>2\\)时,可以通过分层,在每层中进行严格的\\(n=2\\)\\(\\mathrm{\\pi PS}\\)抽样。

HT估计量的期望、方差

对于不放回不等概抽样,对总体总值\\(Y\\)的估计采用霍维茨-汤普森(Horvitz-Thompson)估计量:

\\[\\hat Y_{HT}=\\sum_{i=1}^{n}\\frac{y_i}{\\pi_i}=\\sum_{i=1}^{N}\\alpha_i\\frac{Y_i}{\\pi_i}. \\]

这里\\(\\alpha_i\\)是代表\\(Y_i\\)入样的示性变量,类似第一部分中对简单随机抽样的讨论,有

\\[\\mathbb{E}(\\alpha_i)=\\pi_i,\\quad \\mathbb{D}(\\alpha_i)=\\pi_i(1-\\pi_i),\\\\ \\mathbb{E}(\\alpha_i\\alpha_j)=\\pi_{ij},\\\\ \\mathrm{cov}(\\alpha_i,\\alpha_j)=\\mathbb{E}(\\alpha_i\\alpha_j)-\\mathbb{E}(\\alpha_i)\\mathbb{E}(\\alpha_j)=\\pi_{ij}-\\pi_i\\pi_j. \\]

定理:如果\\(\\pi_i>0,i=1,2,\\cdots ,N\\),则

  1. \\(\\hat Y_{HT}\\)\\(Y\\)的无偏估计,\\(\\mathbb{E}(\\hat Y_{HT})=Y\\)

  2. \\(\\hat Y_{HT}\\)的方差为

    \\[\\mathbb{D}(\\hat Y_{HT})=\\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j}Y_{i}Y_j. \\]

    \\(n\\)固定时,有

    \\[\\mathbb{D}(\\hat Y_{HT})=\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{Y_i}{\\pi_i}-\\frac{Y_j}{\\pi_j} \\right)^2. \\]

注意到这里只有\\(\\alpha_i\\)是随机变量,且\\(\\mathbb{E}(\\alpha_i)=\\pi_i\\),所以

\\[\\mathbb{E}(\\hat Y_{HT})=\\sum_{i=1}^{N}\\mathbb{E}(\\alpha_i)\\frac{Y_i}{\\pi_i}=\\sum_{i=1}^{N}Y_i=Y. \\]

对于方差,有

\\[\\begin{aligned} \\mathbb{D}(\\hat Y_{HT})&=\\mathbb{D}\\left(\\sum_{i=1}^{N}\\alpha_i\\frac{Y_i}{\\pi_i} \\right)\\\\ &=\\sum_{i=1}^{N}\\frac{Y_i^2\\mathbb{D}(\\alpha_i)}{\\pi_i^2}+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{Y_iY_j}{\\pi_i\\pi_j}\\mathrm{cov}(\\alpha_i,\\alpha_j)\\\\ &=\\sum_{i=1}^{N}\\frac{(1-\\pi_i)}{\\pi_i}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j}Y_{i}Y_j. \\end{aligned} \\]

特别当\\(n\\)固定时,对给定的\\(i\\)

\\[\\sum_{j\\ne i}^{N}(\\pi_{ij}-\\pi_i\\pi_j)=\\sum_{j\\ne i}^{N}\\pi_{ij}-\\pi_i\\sum_{j\\ne i}^{N}\\pi_j=(n-1)\\pi_i-\\pi_i(n-\\pi_i)=-\\pi_i(1-\\pi_i), \\]

于是

\\[\\begin{aligned} \\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i}Y_i^2&=\\sum_{i=1}^{N}\\frac{\\pi_i(1-\\pi_i)Y_i^2}{\\pi_i^2}\\\\ &=\\sum_{i=1}^{N}\\sum_{j\\ne i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{Y_i^2}{\\pi_i^2} \\right)\\\\ &=2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\left(\\pi_i\\pi_j-\\pi_{ij} \\right)\\left(\\frac{Y_i^2}{\\pi_i^2}+\\frac{Y_j^2}{\\pi_j^2} \\right),\\\\ \\mathbb{D}(\\hat Y_{HT})&=\\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_{ij}-\\pi_i\\pi_j)\\frac{Y_i}{\\pi_i}\\frac{Y_j}{\\pi_j}\\\\ &=2\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{Y_i^2}{\\pi_i^2}+\\frac{Y_j^2}{\\pi_j^2}-2\\frac{Y_{i}Y_j}{\\pi_i\\pi_j} \\right)\\\\ &=2\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{Y_i}{\\pi_i}-\\frac{Y_j}{\\pi_j} \\right)^2. \\end{aligned} \\]

这说明,要使估计量的方差\\(\\mathbb{D}(\\hat Y_{HT})\\)小,应使\\(\\displaystyle{\\frac{Y_i}{\\pi_i}}\\)之间的差异尽可能小。

HT统计量方差的无偏估计

定理:如果\\(\\pi_i>0\\)\\(\\pi_{ij}>0\\),则\\(\\mathbb{D}(\\hat Y_{HT})\\)的无偏估计为

\\[v(\\hat Y_{HT})=\\sum_{i=1}^{n}\\frac{1-\\pi_i}{\\pi_i^2}y_i^2+2\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j\\pi_{ij}}y_iy_j. \\]

如果\\(n\\)固定,则\\(v(\\hat Y_{HT})\\)也可以用

\\[v_{YGS}(\\hat Y_{HT})=\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2. \\]

\\(n=2\\)时,\\(v_{YHS}(\\hat Y_{HT})>0\\),否则无论是哪一种无偏估计,都有可能出现负值。

类似科恩菲尔德法,只需将\\(y_i\\)改成\\(\\alpha_iY_i\\),并利用\\(\\alpha_i\\)的相关性质:\\(\\displaystyle{\\mathbb{E}(\\alpha_i)=\\pi_i,\\mathbb{E}(\\alpha_i\\alpha_j)=\\pi_{ij}}\\)即可。

\\[\\begin{aligned} v(\\hat Y_{HT})&=\\sum_{i=1}^{n}\\frac{1-\\pi_i}{\\pi_i^2}y_i^2+2\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j\\pi_{ij}}y_iy_j \\\\ &=\\sum_{i=1}^{N}\\alpha_i\\frac{1-\\pi_i}{\\pi_i^2}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\alpha_{i}\\alpha_j\\frac{\\pi_{ij}-\\pi_{i}\\pi_j}{\\pi_i\\pi_j\\pi_{ij}}Y_iY_j\\\\ \\mathbb{E}(v(\\hat Y_{HT}))&=\\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i^2}Y_i^2\\mathbb{E}(\\alpha_i)+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j\\pi_{ij}}Y_iY_j\\mathbb{E}(\\alpha_i\\alpha_j)\\\\ &=\\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j}Y_iY_j\\\\ &=\\mathbb{E}(\\hat Y_{HT}). \\end{aligned} \\]

\\(n\\)固定时,类似有

\\[\\begin{aligned} \\mathbb{E}(v_{YGS}(\\hat Y_{HT}))&=\\mathbb{E}\\left[\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2 \\right]\\\\ &=\\mathbb{E}\\left[\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2\\alpha_i\\alpha_j \\right]\\\\ &=\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2\\mathbb{E}(\\alpha_i\\alpha_j)\\\\ &=\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2\\\\ &=\\mathbb{D}(\\hat Y_{HT}). \\end{aligned} \\]

\\(\\mathrm{\\pi PS}\\)抽样方法

常用的\\(\\mathrm{\\pi PS}\\)方法有:布鲁尔方法,水野法,不严格\\(\\mathrm{\\pi PS}\\)抽样法。

  1. 布鲁尔(Brewer)方法

    要求:对总体所有的单元,都有\\(Z_i\\le \\dfrac{1}{2}\\),只抽取\\(n=2\\)个单元。

    步骤:按与\\(\\displaystyle{\\frac{Z_i(1-Z_i)}{1-2Z_i}}\\)成比例的概率抽取第一个单元\\(j\\),再按与\\(\\dfrac{Z_i}{1-Z_j}\\)成比例的概率抽取第二个单元。

    相关计算:

    \\[\\pi_i=2Z_i,\\quad \\pi_{ij}=\\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\\left(1+\\sum\\limits_{i=1}^{N}\\dfrac{Z_i}{1-2Z_i} \\right)}.\\\\ \\hat Y_{B}=\\frac{y_i}{\\pi_i}+\\frac{y_j}{\\pi_j}=\\frac{1}{2}\\left(\\frac{y_i}{Z_i}+\\frac{y_j}{Z_j} \\right),\\\\ v_{YGS}(\\hat Y_{B})=\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{y_i}{\\pi_i}-\\frac{y_j}{\\pi_j} \\right)^2. \\]

  2. 水野(Midzunol)法

    要求:每个单元的大小满足\\(M_i\\ge\\dfrac{(n-1)M_0}{n(N-1)}\\),抽取\\(n>2\\)个单元。

    步骤:以概率\\(Z_i^*=\\dfrac{n(N-1)Z_i}{N-n}-\\dfrac{n-1}{N-1}\\)抽取第一个样本单元,在剩下的\\(N-1\\)个单元中不放回等概率抽取\\(n-1\\)个样本单元。

    相关计算:

    \\[\\pi_i=nZ_i,\\\\ \\pi_{ij}=\\frac{n-1}{N-1}\\left[\\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\\frac{n-2}{N-n} \\right]. \\]

  3. 非严格\\(\\mathrm{\\pi PS}\\)抽样——耶茨-格伦迪(Yates-Grundy)逐个抽取法

    要求:\\(n\\)是不固定的而是随机的;或是非严格不放回的;或是\\(\\pi_i\\approx nZ_i\\)的。

    步骤:以\\(Z_i\\)抽取第一个样本单元,再以\\(\\dfrac{Z_i}{1-Z_1}\\)抽取第二个样本单元,再以\\(\\dfrac{Z_i}{1-Z_1-Z_2}\\)抽取第三个样本单元……以此类推,直到抽出\\(n\\)个样本单元。

    相关计算:Yates-Grundy逐个抽取法常常不采用HT估计量,而使用Raj估计量。设\\(y_1,\\cdots,y_n\\)为按抽中顺序排列的样本单元指标值,\\(Z_1,\\cdots,Z_n\\)为对应的抽中概率,令

    \\[\\left\\{\\begin{array}{} t_1=\\dfrac{y_1}{Z_1},\\\\ t_2=y_1+\\dfrac{y_2}{Z_2}(1-Z_1), \\\\ \\cdots \\\\ t_n=y_1+y_2+\\cdots+y_{n-1}+\\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\\cdots-Z_{n-1}). \\end{array}\\right. \\\\ \\hat Y_{\\text{Raj}}=\\frac{1}{n}\\sum_{i=1}^{n}t_i,\\\\ v(\\hat Y_{\\text{Raj}})=\\frac{1}{n(n-1)}\\sum_{i=1}^{n}(t_i-\\hat Y_{\\text{Raj}})^2. \\]

两阶段不放回不等概抽样概述

抽样方式:在两阶段抽样中,第一阶段采用不放回不等概方法抽取初级单元\\(\\mathrm{PSU}\\),第\\(i\\)\\(\\mathrm{PSU}\\)的包含概率为\\(\\pi_i\\),第\\(i\\)个和第\\(j\\)\\(\\mathrm{PSU}\\)同时入样的包含概率为\\(\\pi_{ij}\\);第二阶段采用简单随机抽样,对不同\\(\\mathrm{PSU}\\)的抽样相互独立,则总体总值\\(Y\\)的HT估计量为

\\[\\hat Y_{HT}=\\sum_{i=1}^{n}\\frac{\\hat Y_i}{\\pi_i}=\\sum_{i=1}^{N}\\alpha_i\\frac{\\hat Y_i}{\\pi_i}. \\]

\\(\\hat Y_i\\)\\(Y_i\\)的无偏估计,\\(\\hat Y_{HT}\\)\\(Y\\)的无偏估计。

定理:

  1. \\(\\mathbb{E}(\\hat Y_{HT})=Y\\)

  2. \\(\\displaystyle{\\mathbb{D}(\\hat Y_{HT})=\\sum_{i=1}^{N}\\frac{1-\\pi_i}{\\pi_i}Y_i^2+2\\sum_{i=1}^{N}\\sum_{j>i}^{N}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_i\\pi_j}Y_iY_j+\\sum_{i=1}^{N}\\frac{\\mathbb{D}(\\hat Y_i)}{\\pi_i}}\\)

  3. \\(n\\)固定时,\\(\\displaystyle{\\mathbb{D}(\\hat Y_{HT})=\\sum_{i=1}^{N}\\sum_{j>i}^{N}(\\pi_i\\pi_j-\\pi_{ij})\\left(\\frac{Y_i}{\\pi_i}-\\frac{Y_j}{\\pi_j} \\right)^2+\\sum_{i=1}^{N}\\frac{\\mathbb{D}(\\hat Y_i)}{\\pi_i}}\\)

  4. \\(\\mathbb{D}(\\hat Y_{HT})\\)的无偏估计为

    \\[v(\\hat Y_{HT})=\\sum_{i=1}^{n}\\frac{1-\\pi_i}{\\pi_i^2}\\hat Y_i^2+2\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_{ij}-\\pi_i\\pi_j}{\\pi_{ij}\\pi_i\\pi_j}\\hat Y_i\\hat Y_j+\\sum_{i=1}^{n}\\frac{v(\\hat Y_i)}{\\pi_i},\\\\ v_{YGS}(\\hat Y_{HT})=\\sum_{i=1}^{n}\\sum_{j>i}^{n}\\frac{\\pi_i\\pi_j-\\pi_{ij}}{\\pi_{ij}}\\left(\\frac{\\hat Y_i}{\\pi_i}-\\frac{\\hat Y_j}{\\pi_j} \\right)^2+\\sum_{i=1}^{n}\\frac{v(\\hat Y_i)}{\\pi_i}. \\]

以上是关于抽样调查:不等概抽样的主要内容,如果未能解决你的问题,请参考以下文章

应用统计学简单随机抽样的区间估计和样本容量的确定

应用统计学简单随机抽样的区间估计和样本容量的确定

应用统计学简单随机抽样的区间估计和样本容量的确定

常见概率抽样方法及其适用场景总结(简单随机抽样分层抽样整群抽样系统抽样)

抽样函数是冲激脉冲函数吗

HIVE数据抽样