统计量与抽样分布 联系客服

发布时间 : 星期四 文章统计量与抽样分布更新完毕开始阅读3fef2f2d1611cc7931b765ce050876323012741c

第1章 统计量与抽样分布

数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。

数理统计的内容包括:如何收集、整理数据资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断。后者就是我们所说的统计推断问题。本书只讲述统计推断的基本内容。

在概率论中,我们所研究的随机变量,它的分布都是假设已知的,在这一前提下去研究它的性质、特点和规律性,例如求出它的数字特征,讨论随机变量函数的分布,介绍常用的各种分布等。在数理统计中,我们研究的随机变量,它的分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断的。

1.1 基本概念

1.1.1 总体与个体 在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员称为个体。这是一个比较形象的说法。例如:我们研究一家工厂的某种产品的废品率,这种产品就是我们的总体,而每件产品则是个体。又如把某市每户居民人数的全体看成总体,一户的人数便是个体。再如研究电大学生学习“高等数学”的期末考试成绩情况,全体学员的期末考试成绩构成总体,而每个学员的成绩则为个体。个体与总体就好像集合论中的元素与集合之间的关系。这里所讲的产品的废品率、居民户的人数、学员的考试成绩,它们的取值都是不同的,即每个个体所取的值是不同的。在试验中抽取某个个体所观察得到的数值X就是一个随机变量,因而我们用X的分布去描述总体分布情况。以后我们把总体与随机变量X可能取值的全体所组成的集合等同起来,并把随机变量X的分布称为总体的分布,即总体分布就是设定的表示总体的随机变量X的分布。总体的分布一般说来是未知的,有时虽已知总体分布的类型(如正态分布),但不知道分布中所含的参数,有时连分布所属的类型也不能肯定。统计学的任务就是对总体的未知分布进行推断。

1.1.2 总体与样本

前面指出,作为统计研究对象的总体的分布一般来说是未知的。为了获得对总体分布的知识,一般的方法是对总体进行抽样观察。通常的做法是从它的全部产品中随机地抽取一些样品,在统计学上称为样本。

例1.1.1 研究某地区N个农户的年收入。在这里,总体即指这N个农户,如果我们从这N个农户中随机地抽出n个农户作为调查对象,那么,n个农户他们年收入的n个数字

就是样本。

在上面的例子中,总体是很直观的,是看得见,摸得着的。但是客观情况并不总是这样。

例1.1.2 用一把尺子去量一个物体的长度,假定n次测量值为X1,X2,?,Xn。 显然,在这个问题中,我们把测量值X1,X2,?,Xn看成了样本,但是,总体是什么呢?事实上,这里没有一个现实存在的个体的集合可以作为我们的总体。可是,我们可以这样考虑,既然n个测量值X1,X2,?,Xn是样本,那么总体就应该理解为一切所有可能的测量值的全体。

这种类型的总体的例子不胜枚举。例如:为研究某种安眠药的药效,让n个病人同时服用此药,记录下他们各自服药后的睡眠时间比未服药前延长的小时数X1,X2,?,Xn。这些数字就是样本。总体就是设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体。

例1.1.3 在例1.1.1中,若农户年收入以万元计,假定N户中收入X为:0.5,0.8,1,1.2,1.5的农户个数分别为n1,n2,n3,n4,n5,这里n1+n2+n3+n4+n5=N,则总体X的分布为离散型分布,其分布律为

X pi

例1.1.4 在例1.1.2中,假定物体的真正长度为? (未知)。一般说来测量值X,也就是我们的总体,取?附近值的概率要大一些,而离?愈远的值被取到的概率就小一些。如果测量过程没有系统性误差,那么X取大于?和小于?的概率也会相等。在这样的情况下,人们往往认为X服从均值为?的正态分布。假定其方差为?,则?反映了测量的精度。于是,总体X的分布为N(?,?),记为X~N(?,?)。

22220.5 0.8 1 1.2 1.5 n1 Nn2 Nn3 Nn4 Nn5 N这里有一个问题,即物体长度的测量值总是在它的真正长度?的附近,它根本不可能取到负值,而随机变量取值在(-∞,+∞)上,那么怎么可以认为测量值服从正态分布呢?要回答这个问题,需要用到正态分布的一条性质。

对于正态变量X~N(?,?2)

P???3??X???3???99.7%

即X落在区间(??3?,??3?)之外的概率不超过0.003,可见这个概率是非常小

的。显然X落在(??4?,??4?)之外的概率也就更小了。

比如,假定物体长度?=10厘米,测量误差约为0.01厘米,则?2=0.012,这时,(??3?,??3?)=(9.9997,10.0003),于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计。可见,用正态分布N(10,0.012)去描述测量值是适当的。

另外,正态分布取值范围是无限区间(-∞,+∞),还可以解决规定测量值取值范围上的困难。如若不然,我们用一个定义在有限区间(a和b)的随机变量来描述测量值,那么a和b到底取什么值,测量者事先很难确定。再退一步,即便我们能够确定出a和b,却仍很难找出一个定义在(a和b)上的非均匀分布能够用来恰当地描述测量值,与其这样,还不如我们干脆就把取值区间放大到(-∞,+∞),并采用正态分布去描述测量值,这样既简化了问题又不致引起较大的误差。

如果总体所包含的个体数量是有限的,则称该总体为有限总体,其分布是离散型的,如例1.1.3。如果总体所包含的个体数量是无限的,则称该总体为无限总体,其分布可以是连续型的,如例1.1.4。在数理统计中,研究有限总体比较困难,因为它的分布是离散型的,且分布律与总体所含个体数量有关系。所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析。例如,我们研究某大城市年龄在1到10岁之间儿童的身高。显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的。因此,这个总体只能是有限总体。总体分布也只能是离散型分布。然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并且通常用正态分布来逼近这个总体的分布。当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计。

1.1.3 样本的二重性

样本的一个重要性质是它的二重性。假设X1,X2,?,Xn是从总体X中抽取的样本,在一次具体的观测或试验中,它们是一批测量值,是一些已知的数。这就是说,样本具有数的属性。这一点比较容易理解。但是,另一方面,由于在具体的试验或观测中,受到各种随机因素的影响,在不同的观测中样本取值可能不同。因此,当脱离开特定的具体试验或观测时,我们并不知道样本X1,X2,?,Xn的具体取值到底是多少,因此,可以把它们看成随机变量。

这时,样本就具有随机变量的属性。样本X1,X2,?,Xn既可被看成数又可被看成随机变量,这就是所谓的样本二重性。这里需要特别强调的是,以后凡是我们离开具体的一次观测或试验来谈及样本X1,X2,?,Xn时,它们总是被看成随机变量,关于样本的这个基本的认识对理解后面的内容十分重要。

既然样本X1,X2,?,Xn被看作随机变量,自然就需要研究它们的分布。在前面测量物体长度的例子中,如果我们是在完全相同的条件下,独立地测量了n次,把这n次测量结果,即样本记为X1,X2,?,Xn,那么我们完全有理由认为,这些样本相互独立且有相同分布,其分布与总体分布N(?,?)相同。推广到一般情况,如果我们在相同条件下对总体X进行n次重复的独立观测,那么都可以认为所获得的样本X1,X2,?,Xn是独立同分布的变量,这样的样本称为简单随机样本,简称为样本。在统计文献中,通常把n称为样本大小,或样本容量,或样本数,而把X1,X2,?,Xn称为一组容量为n的样本或一个样本(这是把

2X1,X2,?,Xn看成一个整体)。

1.2充分统计量与完备统计量

1.2.1 样本的联合分布函数

为了今后讨论方便,我们约定,以大写英文字母Xi表示随机变量,而以相应的小写英文字母xi表示它的观察值,并称样本X1,X2,?,Xn的一组具体的观察值x1,x2,?,xn为样本值,全体样本值组成的集合称为样本空间?。

设总体X的分布函数为F(x),则由前面知识,我们知道样本X1,X2,?,Xn的分布函数为

F(x1,x2,?,xn)??F(xi)

i?1n并称之为样本的联合分布函数。

假设总体X具有概率密度函数f(x), 则由于样本X1,X2,?,Xn是相互独立且与X同分布,于是样本的联合概率密度函数为

g(x1,x2,?,xn)?

?f(x)。

ii?1n例 1.2.1 假设某大城市居民的收入服从正态分布N(?,?2),其概率密度函数为