分层随机抽样 联系客服

发布时间 : 星期四 文章分层随机抽样更新完毕开始阅读f7195915a21614791711282b

??Ny?200?39.5?400?105?750?165?1500?24?209650 Y?hhh?1441?f221?fh2h?)??Nv?y???Nv(Ys?Nsh?5.93?108 ?hhhnhnhh?1h?1h?1L2hL2h?)?v(Y?)?23208 s(Y??ts(Y?)?209650?2?23208 Y七、对总体比例的估计

对于分层随机抽样,总体比例P的简单估计量:pst??Whph

h?1L对于分层随机抽样,如果ph是Ph的无偏估计(h?1,2,?,L),则pst是P的无偏估计即E(pst)?P。则pst的方差为:V?pst???Wh2V?ph?

h?1L对于分层随机抽样,pst是P的无偏估计,V?ph??Nh?nhPhQh,Nh?1?Nh,

Nh?1nh1因而pst的方差为:V?pst???WV?ph??2Nh?12hLL2?Nh?nh?PhQh Nh?Nh?1nhh?1L2LPQ?Nh?nh?PhQh1Nh??Wh2?1?fh?hh ??2nhNhnhh?1h?1N对于分层随机抽样,V?pst?的一个无偏估计为:

1v?pst???Wv?ph??2Nh?12hL2?1?fh?2L2?Nhphqh ??W1?fs??hhhn?1nhh?1h?1hL例2:在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得如下数据

(单位:台),要估计该地区居民拥有家庭电脑的比例及估计的标准差。

层 1 2 3 4

居民户总数

样本户拥有家庭电脑情况

1 0 0 1 1

2 0 1 1 0

3 0 0 0 0

4 1 0 0 0

5 0 0 0 0

6 0 0 0 0

7 0 0 1 0

8 1 0 0 0

9 0 1 1 0

10 0 0 0 0

200 400 750 1500

解:由上表可得,p1?0.2;p2?0.2;p3?0.4;p4?0.1 对各层层权及抽样比的计算结果:

W1?N1200N400??0.07018W2?2??0.14035N2850N2850 N1500N3750W4?4??0.52632??0.26316N2850N2850

n110n10??0.05f2?2??0.025N1200N4002 n410n10??0.0067f3?3??0.0133N41500N3750

W3?f1?f4?各层估计量的方差:

v?p1???1?f1?p1q1pq?0.0169v?p2???1?f2?22?0.0173n1?1n2?1

v?p3???1?f3?p3q3pq?0.0263v?p4???1?f4?44?0.0099n3?1n4?1

414 因此,该地区居民拥有家庭电脑比例的估计为:pst??Whph??Nhph

Nh?1h?11(200?0.2?400?0.2?750?0.4?1500?0.1)?0.2 2850

=

1估计量的方差为:v?pst??2N?Nv?p?

2hhh?14=

12222(200?0.0169?400?0.0173?750?0.0263?1500?0.0099)?0.005 22850估计量的标准差为:s(pst)?v(pst)?0.07

八、各层样本量的分配

在分层随机抽样中,样本量在各层中的不同分配方式会对估计量的精度产生一定的影响,这一方面是由于层的规模大小不同或在总体中所占有的“地位”不

2同,另一方面是因为各层的层内方差Sh不同。这些都会影响估计量的精度。从22LWh2ShWhSh分层随机抽样中总体均值估计量的方差表达式V(yst)??可以??nhNh?1h?1L2看出,等式右端第一项与各层样本量nh有关,同时还与Wh2Sh相关。那么nh的分

配遵循怎样的规则才能使V(yst)尽可能小,有以下几种分配思路:(1)常数分配;

22(2)与层内方差Sh成比例的分配;(3)与层权Wh2成比例的分配;(4)与Wh2Sh2成比例的分配。实际研究表明,等额分配的效果相对较差;与层内方差Sh成比

例的分配适用于要求每层的估计量都达到相当精度的情况;与层权Wh2成比例的

2分配(比例分配)和与Wh2Sh成比例的分配(内曼最有分配)效果相对较好。

例3:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及估计的标准差。 按照nh?nwh分配

层 居民户数

权数

方差sh 常数分配 与权数Wh成比例 与WhSh成正比

1 2 3 4

200 400 750 1500 0.070175 1624 0.140351 2166 0.263158 8205 0.526316 193 10 10 10 10 3 6 11 20 3 7 23 7

九、按比例分配

按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.

nhNhnn??Wh fh?h??f nNNhN对于分层随机抽样,按比例分配总体均值的估计是:(yprop与yst是一个意思)

ypropLnhn1??Whyh??yh??hh?1h?1nh?1nnhLL1Lnh1nyhi???yhi??yi?y(自加权) ?nh?1i?1ni?1i?1nh可以从上式看出,此时总体均值Y的估计量就是样本均值y。由此可推出总体总

NLnhN1?量Y的估计:Yprop?Nyprop???yhidefy?y,y为n个样本总量。

nh?1i?1nf(注!总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配

的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。)

对于分层随机抽样,按比例分配总体比例的估计是:pprop1L?p??ah

nh?n1?fh21?fV?yprop???WV?yh???WhhSh?nnhnh?1h?1L2hL2WS?hh? h?1L所以有:V(yprop)??Wh?1LhS2hn??Wh?1LLh2ShNhh

1?fV?pprop??Nn2NhPhQh1?f??nh?1Nh?1L?WPQh?1h

十、最优分配

在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。

设总费用函数为:CT?c0??chnh,式中CT为总费用;c0为与样本量无关

h?1L的固定费用;ch为在第h层中抽取单元的平均费用。从该式中可以看出,只有

?cnh?1Lhh是与各层样本量nh有关的费用。我们的目标是同时权衡费用和方差两个

指标,在方差给定时使费用尽可能小,或在费用给定时使方差尽可能小,因此构

2Wh2Sh造目标函数如下:C?V??(CT?c0)?(V??)式中,(CT?c0)代表总费用中

Nh?1L2Wh2Sh受各层样本量nh影响的部分;(V??)代表方差中受各层样本量nh影响的

Nh?1L部分。

1、对于分层随机抽样,若费用函数为C?c0??chnh,则最有分配为:

h?1LWSchNSchnh ?Lhh?Lhhn?WhShch?NhShchh?1h?1由此得出如果某一层单元数较多、内部差异较大、费用比较省则对这一层的样本量要多分配一些。 2、内曼分配

如果每层抽样的费用相同,最优分配可简化为:

nh?nWhShL?nhNhSh?WShh?1?NShh?1L

h