某高校在校生体测成绩的统计分析 联系客服

发布时间 : 星期一 文章某高校在校生体测成绩的统计分析更新完毕开始阅读ca8aa06568eae009581b6bd97f1922791688bef8

天津科技大学2014届本科生毕业论文

分析所要解决的问题。

本文主要对数据中的13个学院学生的身高进行了单因素一元方差分析和非参数方差分析,其中单因素一元方差分析,样本数据应满足方差分析的几个基本假定,即(1)所有样本均来自正态总体(2)这些正态总体具有相同的方差(3)所有观测值相互独立,即独立抽样。在前两个假定基本满足的情况下,一般认为方差分析检验(ANOVA test)是稳健的。

(1)单因素方差分析的数学模型。设因素A有k个水平,对应试验指标的k个总体,记为?1, ?2, ?, ?k,它们的分布为

?i~N(?i, ?2), i?1,2,?,k. (2-1)

今从这k个总体中各自独立地抽取一个样本,取自?i的样本记为

Xi1,Xi2,?,Xini, i?1,2,?,k. 列表如表2-1所示。

表 2-1 单因素方差分析的样本数据

组别 样本 样本均值 样本方差 ?1 ?2 ? X11,X12,?,X1n1 X21,X22,?,X2n2 ? X1 X2 ? S12 2 S2? ?k 其中 Xk1,Xk2,?,Xknk 1Xi?niniXk Sk2 1ni Xij, S?(Xij?Xi)2, i?1,2,?,k. (2-2)??ni?1j?1j?12i单因素方差分析的数学模型为

X??i??ij??ij, i?1,?,k, j?1,?,ni. (2-3) ?iid2???ij ~ N(0,?)其中iid表示独立同分布。欲检验因素A对试验指标有无显著影响,相当于检验

H0:?1??2????k, H1:?1,?2,?,?k不全相等. (2-4)

原假设H0成立表示因素A对试验指标无显著影响。令

1k????i, ?i??i??, i?1,2,?,k.

ki?1则(2-3)式可改写为

?Xij????i??ij??iid, i?1,?,k, j?1,?,ni. (2-5) ??ij~N(0,?2)????1??2????k?0(2-4)式等价于

5

天津科技大学2014届本科生毕业论文

H0:?1??2????k?0, H1:至少存在一个?i?0

这里的?i (i?1,2,?,k)称为因素A的第i个水平所引起的效应,可以看成Ai对总平均?的“贡献”大小。若?i?0,称Ai的效应为正,若?i?0,称Ai的效应为负。

(2)单因素方差分析的原理,作(2-4)式的假设检验,应从分析样本数据的差异入手,数据的差异可分为系统偏差和随机误差,来自不同总体样本数据之间的差异称为系统偏差,来自同一总体样本数据之间的差异称为随机误差。样本数据之间的差异通常用离差平方和(样本观测数据与总均值的差的平方和)来表示,方差分析就是将样本数据的总的离差平方和分解为两部分,一部分为因素所造成的离差平方和,即系统偏差,又称为组间离差平方和;另一部分为随机因素所造成的离差平方和,即随机误差,又称为组内离差平方和。然后根据两部分平方和构造检验统计量,推导统计量所服从的分布,最后写出拒绝域。直观上可以这样理解:若总离差平方和中主要是组间离差平方和,组内离差平方和所占比重非常小,则可认为各组数据之间的差异是显著的,即因素对试验指标的影响是显著的;若总离差平方和中主要是组内离差平方和,组间离差平方和所占比重非常小,则可认为因素对试验指标的影响是不显著的。

(3)离差平方和及自由度的分解,从模型(2-5)式可以看出

Xij????i??ij, i ? (2-6) ?1,k,j,? ? ni 1,上式左边表示每一个样本观测数据与总均值的偏差,这个偏差被分成两部分,其中?i表示由因素A的不同水平所引起的系统偏差,?ij表示随机误差。令

1kni1kn??ni, X???Xij??niXini?1j?1ni?1i?1k

用X作为?的估计,Xi?X作为?i的估计,Xij?Xi作为?ij的估计,则(2-6)式为

Xij?X?Xi?X?Xij?Xi, i?1,?,k, j?1,?,ni.

记SST表示总离差平方和,则

knikniSST????Xij?X?????Xi?X?Xij?Xi?

22i?1j?1ki?1j?1ni??ni?Xi?X?????Xij?Xi?.

22i?1i?1j?1k令

SSA??ni?Xi?X?, SSE????Xij?Xi?.

22i?1i?1j?1kkni可以看出,SSA为因素A所造成的离差平方和,称为组间离差平方和,SSE为随

6

天津科技大学2014届本科生毕业论文

机因素所造成的离差平方和,称为组内离差平方和。这样就有如下平方和分解式

SST?SSA?SSE.

为了构造检验统计量并推导其分布,引入如下定理。 在以上记号下,对于模型(2-5)式,有以下结论成立。 ·

SSE?2~?2(n?k);

SSA~?2(k?1), SST~?2(n?1),SSE与SSA相互独立。

· 原假设H0成立时,

?2?2对于(2-4)式的假设检验,构造检验统计量

F?SSA/(k?1)MSA?.

SSE/(n?k)MSE其中MSA?SSA/(k?1)称为组间均方离差平方和,MSE?SSE/(n?k)称为组内均方离差平方和。由定理可知,当原假设H0成立时,

F?SSA/(k?1)MSA?~F(k?1, n?k).

SSE/(n?k)MSE直观上可以看出,当统计量F的观测值大于某个临界值时,应拒绝原假设H0,所以对于给定的显著性水平?,拒绝域为

W??F?F?(k?1, n?k)?.

其中F?(k?1, n?k)为F(k?1, n?k)分布的上侧?分位数。

(4)单因素方差分析表

根据以上过程列出单因素方差分析表,如表2-2所示。

表 2-2 单因素方差分析表

来源 组间 组内 总计 平方和 自由度 均方离差 F值 临界值F? SSA SSE SST k?1 n?k MSA?SSA/(k?1) F?MSA/MSE F?(k?1, n?k) MSE?SSE/(n?k) n?1 方差分析表很直观地展现了方差分析的过程,通过对比F值与临界值

F?(k?1, n?k)的大小,作出最后的结论。也可以将表格最后一列的临界值换成检验的p值,其中p?P?F?F的观测值?。对于给定的显著性水平?,当p??时,应拒绝原假设H0,即认为因素A对试验指标有显著影响,并且p值越小,显著性越强;当p??时,应接受原假设H0,即认为因素A对试验指标无显著影响。 非参数方差分析不要求样本来自于正态总体,也不要求正态总体具有相同的

7

天津科技大学2014届本科生毕业论文

方差,即不要求正态性和方差性假定。当样本不满足这正态性和方差性的假定时,就要采取基于秩的非参数检验,本文中主要用Kruskal-Walls检验。MATLAB工具箱中提供了kruskalwalls函数,用来做单因素非参数方差分析。检验的原假设是:k个独立样本来自于相同的总体。当原假设成立时,并且样本容量足够大时,检验统计量H近似服从自由度为k-1的?2分布,即

R212*?jj?1njkH?N*(N?1)?3*(N?1)??2*(K?1) (2-7)

k其中,k为样本数,n为第j个样本的样本容量,N??nj,Rj(jj=1,2,...,k)j?1为第j个样本的秩和。对于给定的显著性水平?,当H的观测值大于或等于

??2*(K?1),拒绝原假设,表示k个独立样本来自于不同的总体,或者说k个

【16】 样本有显著性差异。

2.3 回归分析

在客观世界中变量之间的关系普遍存在。变量之间的关系一般说可以分为非确定性和确定性这两种。非确定性关系即所谓相关关系。例如人的身高和体重之间存在着关系,一般来说越高体重越重,有时同样身高的人,体重也是不一样的,之所以有这种关系,是因为我们涉及的变量是随机变量。确定性关系是指变量之间的关系可以用函数表达。回归分析研究的是相关关系的一种数学工具,这种工具能从一个变量取得值去估计另一个变量所取的值。用来认识事物的内在规律和

【16】 本质属性。

(1)一元回归模型

设有两个变量x和y,其中x是可以精确测量或控制的非随机变量,y是随机变量,假定随机变量y与可控变量x之间存在线性相关关系,建立y与x的数学模型如下:

?y?a?bx?? , (2-8) ?2??~N(0,?) .其中未知参数a,b和?2都不依赖于x。称(2.8)式为y关于x的一元线性回归模型,其中b称为回归系数。由一元线性回归模型可知,当x固定时,y~N(a?bx,?2),令?(x)?E(y|x)?a?bx,它是x固定时随机变量y的数学期望。直线

Y??(x)?a?bx近似表示了y与x的线性相关关系,称?(x)为y关于x的回归函

数,称Y??(x)?a?bx为y关于x的理论回归方程。 (2) 参数的最小二乘估计

8