多元复习资料《精华版》 联系客服

发布时间 : 星期二 文章多元复习资料《精华版》更新完毕开始阅读b36c458dec3a87c24028c46c

多元统计分析考试内容

最后成绩作业50% 考试50%

考试一共八道题 分三大类(卷面值100分 最后折合成50分) 一 计算题 (每题12分)

1 计算性的判别分析题 主要用Fisher判别法 要掌握公式的方法原理 2 聚类分析题 主要应用两种聚类法:系统聚类法和模糊聚类法

题中会给出距离或相关系数矩阵直接计算 老师强调要看清题意 不要做无用功! 3

如何将非线性函数形式用线性回归的方法将其线性化 写出其过程 可能不涉及计算 二 简答(简答哦 不要长篇大论免得后面的题没时间做 主要作概略性总结即可)

在这一部分中主要有三道题(分值分别10 10 12)老师没有具体给出三道题的题目 只是举了些例子 回答问题的主要思路是:统计分析方法的基本思想,基本原理与应用,在应用中要注意的问题 个别要回答与其他方法的对比 举的主要例子有(个人以为前两个比较重要):

1 回归分析模型:回归方程的基本假定,涉及到回归分析方程系数为何作显著性检验 统计性的依据是什么(方差分析) 给出一个回归分析方程如何作显著性检验

2 判别分析:判别分析的优良性 两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析 (2)误判率

下面的几个例子 主要也是按上面的思路回答 因子分析 聚类分析(不会四种方法一块考,会选其中某个或某两个) 主成分分析的基本思想 可以做什么应用及在应用中要选几个主成分 对应分析的基本思想 三 发挥题(每题16分)

这个部分老师会给出问题的背景及所问的问题,个人结合自己所学的几种分析方法 选择适合的作分析 没有标准答案,只要能自圆其说即可 注意:第一步一定要先指出自己所用的分析方法 老师没有说具体会考什么题只是说不会考很专业的 自由发挥 简单提到一个例子就是教学评价的问题 也没有说用什么方法 他说不同的人会采用不同的方法 一道题不会只有一种解决方法.

题量大,做不完

1 计算题

1.1 计算性的判别分析题 主要用Fisher判别法 要掌握公式的方法原理

处理概率分布未知的判别问题中的最著名的方法。

聚类分析和判别分析都是分类问题,他们的不同之处在于,是否事先已知研究对象的分类,实际应用中有时需要将两种方法联合起来使用。

1.2 聚类分析题 主要应用两种聚类法:系统聚类法和模糊聚类法 题中会给出距离或相关系数矩阵直接计算

1.3如何将非线性函数形式用线性回归的方法将其线性化 写出其过程 可能不涉及计算 2简答题

2.1回归分析模型: ⑴回归方程的基本假定?

①回归函数的线性假设②误差项的等方差假设 ③误差项的独立性假设④误差项的正态分布的假设 ⑵涉及到回归分析方程系数为何作显著性检验?

在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验. 回归方程通过了显著性检验并不意味着每一个自变量xi(i?1,2,???,p)都对应变量y有显著的影响,可能其中的某个或某些

自变量对应变量的影响并不显著,我们自然希望从回归方程中剔除那些对应变量影响并不显著的自变量,从而建立一个较为简单有效的回归方程,这就需要对每一个自变量进行考察.显然,若某个自变量对应变量无影响,那么在线性回归模型中,它的系数为零.那么我们就检验选取的自变量的影响是否显著等价于

1

检验假设H0:?i?0H1:?i?0

根据t分布的定义,有t??i?cii???t(n?p?1),这里???2SSE,对于给定的显著性水平,当t?t?(n?p?1)时,

n?p?12我们拒绝H0,反之就接受H0,在SPSS软件的输出结果中,可以直接从P值看出检验结果,那么我们拒绝的P值区间是多少呢? ⑶ 统计性的依据是什么?给出一个回归分析方程如何作显著性检验? 统计性的依据方差分析

对于多元线性回归作显著性检验就是要看自变量x1,x2,???,xp从整体上对随机变量y是否有明显的影响,即检验假设

???p?0??H0:?1??2?? ?H:至少有某个??0,1?i?p?i?1如果H0被接受,则表明y与x1,x2,???,xp之间不存在线性关系,为了说明如何进行检验,我们要首先建立方差分析表.

在进行显著性的检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验.F统计量是:

F?MSRSSR/p?

MSESSE/(n?p?1)?F(p,n?p?1),给定显著性水平

α,查F分布表得临界值F1??(p,n?当H0为真时,Fp?1),计算F的观测值,若

F0?F1??(p,n?p?1),则接受H0,即认为在显著性水平α之下,认为y与x1,x2,???,xp之间线性关系不显著.

利用P值法作显著性检验十分方便,这里的P值是P⑷回归分析和相关分析的区别和联系?

相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合与渗透,但仍有差别,主要是:

①相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他的变量相联系,并可由回归方程进行控制和预测

②在相关分析在中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位

③在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量,也可以是非随机变量.一般来说,只有存在相关关系,才可以进行回归分析,相关程度越高,回归分析的结果就越可靠. ⑸运用回归分析解决问题时,回归变量的选择理论依据是什么?选择回归变量时应注意哪些问题? ① 从拟合角度考虑,可以采用修正的复相关系数达到最大的准则。 准则1:修正的复相关系数Ra达到最大。因为:

2Ra?1?,若p??,则拒绝H0,反之接受H0. ?F?F0?,定显著性水平α.

2MSE2从这个关系式容易看出,Ra达到最大时,MSE达到最小。

SST/(n?1)② 从预测的角度考虑,可以采用预测平方和达到最小的准则以及Cp准则 准则2:预测平方和PRESSp达到最小

2

准则3:(Cp准则):定义Cp统计量为Cp?SSEpMSE(x1,x2,???xp)?(n?2p?2)要求选择Cp小,且Cp?p小的回归方程。

③ 从极大似然估计的角度考虑,可以采用赤池信息量准则(AIC准则) 准则4:赤池信息量达到最小

AIC?nln(SSEp)?2p选择AIC值最小的回归方程为最优回归方程。

自变量的选择问题可以看成是应该采用全模型预还是选模型的问题

??全模型正确误用选模型:全模型相应参数?为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有

较小的方差。

选模型正确误用全模型:全模型的参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型的相应方差。上述结论说明丢掉那些对因变量影响不大的,或虽有影响,但难于观测的自变量是有利的。 (6)逐步回归方法的基本思想与步骤

逐步回归的基本思想是有近进有出,具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量,又不能剔出老变量为止。

基本步骤:

?1?①对于每个自变量xi(1?i?m),拟合m个一元线性回归模型,若Fi1?FE,则所选择含自变量xi1的回归模型为当前模

型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著

?2?②在第一步的基础上,再将其余的m?1个自变量分别加入到此模型中,得到m?1二元回归方程,若Fi1?2?量xi2引入模型,进一步考察xi2引入模型后,xi1对y的影响是否仍然显著,Fi1?FE则将自变

?FD,则剔除xi1。

③在第二步的基础上,再将其余的m?2个自变量分别加入到此模型中,拟合各个模型并计算偏F统计量值,与FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被删除。

重复以上的步骤,直到没有新的变量能进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程,最后,一个模型即为所求的最优回归模型。 (7)残差分析

残差分析的思想以及意义?残差分析的用途?残差分析要解决的问题?基本步骤是什么?

(8) 判别分析:判别分析的优良性 两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析 (2)误判率

2.2因子分析

⑴.因子分析的基本思想?

因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低.每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子.对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量. 2.3聚类分析

⑴系统聚类的基本思想:

先将待聚类的n个样品(或者变量)各自看成一类,公有n类,然后按照事先选定的方法计算每两类之间的聚类统计,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,既得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得到n-2类;如此继续下去,每次重复都减少一类,直到最后所有的样品(或者变量)归为一类为止. ⑵模糊聚类的基本步骤:

3

①选定一种计算距离或相似系数的公式 距离矩阵或者相似系数矩阵(不一定是模糊矩阵) ②由观测数据矩阵计算样品间的距离dij(1?i,或者相似系数矩阵R?(rij)n?n

③将距离矩阵或相似系数矩阵中的元素压缩到0与1之间,形成模糊矩阵2.4主成分分析的基本思想 可以做什么应用及在应用中要选几个主成分?

主成分分析的基本思想:通过构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含的信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法.

解决的问题:

①研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性:

②随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定的程度是存在着重叠的.

T??lili?1T一般地,在约束条件?之下,使得Var(Yi)达到最大,由此li确定的Yi?liXTCovY,Y?l?lk?0,k?1,2,???,i?1???iki?j?n)或者变量间的相似系数rij(1?i,j?m),形成距离矩阵D?(dij)n?nA?(aij)

X1,X2,???Xp的第i个主成分.

2.5主成分分析与因子分析的区别和联系??? 1区别:

⑴主成分分析仅仅是一种数据变换,不假定数据阵有什么样的结构形式而因子分析假定数据阵有特定的模型,是其中的因子,满足特定的条件,当这些条件不满足时,因子分析就可能是虚假的.

⑵两种方法的侧重点不同:主成分分析重点在于从观测变量的主成分的变换上,而因子分析的重点在于从公共因子的特殊因子的观测变量的变换上,

⑶主成分分析变换是可逆的,而因子分析不要求

⑷两者实际应用范围也有所不同,主成分分析主要是应用在综合评价和指数筛选上,而因子分析除这两个作用外,还可用语对样品和变量的分类. 2联系:

主成分分析是特殊形式的因子分析,主成分分析的数学模型是Y?LTX,而因子分析的数学模型为

X?AF??.当因子

分析数学模型的特殊因子?的影响微不足到,可以忽略,并且F中的个分量均为正交,就形成了特定的因子分析.

这两个数学模型的含义是不同的,但是从因子分析求解主因子的过程中可以看到,当特殊因子变差,贡献为零时,主因子分析和主成分分析完全等同作用.因此,当主因子模型成立,而且特殊因子变差贡献很小的情况下,我们就可以期待主成分分析和因子分析会给出相同的结果,从而利用主成分分析发求因子模型的解.当特殊因子贡献较大时,因子分析是把公共因子和特殊因子严格区分开来,而主成分分析则把这些因子不加区别的混在一起,作为主成分被保留或舍弃,故这时用主成分分析保留的因子并不是纯粹的公共因子. 3共同点:

两个都是将多个变量指标化为少数几个变量指标的一种使用多元统计方法,用意在于重新组合数据,使变量的维数降低,而有关信息损失尽可能的小,以便在低维空间顺利研究有关问题.两种方法都可以在SPSS中的因子分析过程(Factor)实现.

三 、发挥题(每题16分)

这个部分老师会给出问题的背景及所问的问题,个人结合自己所学的几种分析方法 选择适合的作分析 没有标准答案,只要能自圆其说即可 注意:第一步一定要先指出自己所用的分析方法 老师没有说具体会考什么题只是说不会考很专业的 自由发挥 简单提到一个例子就是教学评价的问题 也没有说用什么方法 他说不同的人会采用不同的方法 一道题不会只有一种解决方法

非线性转换为线性回归的题目 4