应用多元统计分析讲稿(朱建平) 联系客服

发布时间 : 星期日 文章应用多元统计分析讲稿(朱建平)更新完毕开始阅读71679c115f0e7cd184253678

即有T2?T1?0或T1?T2?0。这时,我们可以构造求第二主成分的目标函数,即

?2(T2,?,?)?T2?ΣT2??(T2?T2?1)?2?(T1?T2) (6.9)

??2?T2对目标函数?2(T2,?,?)求导数有:

?2ΣT2?2?T2?2?T1?0 (6.10)

?T???T?用T1?左乘(6.10)式有 T1?ΣT2??TT10 121由于T1?ΣT2?0,T1?T2?0,那么,?T1?T1?0,即有??0。从而(Σ??I)T2?0 (6.11) 而且 T2?ΣT2?? (6.12)

这样说明,如果X的协差阵Σ的特征根为?1??2????p?0。由(6.12)知道Y2的最大方差值为第二大特征根?2,其相应的单位化的特征向量为T2。

针对一般情形,第k主成分应该是在Tk?Tk?1且Tk?Ti?0或Ti?Tk?0(i?k)的条件下,使得

D(Yk)?Tk?ΣTk达到最大的Yk?Tk?X。这样我们构造目标函数为

k?1i?1?k(Tk,?,?i)?Tk?ΣTk??(Tk?Tk?1)?2??i(Ti?Tk) (6.13)

对目标函数?k(Tk,?,?i)求导数有:

??k?Tk?2ΣTk?2?Tk?2??iTi?0

i?1k?1 (6.14)

?T??T(??用Ti?左乘(6.14)式有 Ti?ΣTk??Tikii?1k?1)T?i0 i即有?iTi?Ti?0,那么,?i?0(i?1,2,?k?1)。从而(Σ??I)Tk?0 (6.15),而且Tk?ΣTk?? (6.16)

对于X的协差阵Σ的特征根?1??2????p?0。由(6.15)和(6.16)知道Yk的最大方差值为第k大特征根?k,其相应的单位化的特征向量为Tk。综上所述,设X?(X1,?,Xp)?的协差阵为Σ,其特征根为

?1??2????p?0,相应的单位化的特征向量为T1,T2,?,Tp。那么,由此所确定的主成分为Y1Y2?T2?X?T1?X,

,?,Ym?Tm?X,其方差分别为Σ的特征根。

第三节 主成分的性质

一、主成分的一般性质

??1设Y?(Y1,Y2,?,Yp)?是X的主成分,由Σ的所有特征根构成的对角阵为Λ????0??0?? (6.17) ??p??主成分可表示为Y?T?X (6.18)

性质1 主成分的协方差矩阵是对角阵。

证明:实际上,由(6.3)式知E(Y)?E(T?X)?T?μ ,D(Y)?T?D(X)T?T?ΣT?Λ (6.19) 性质2 主成分的总方差等于原始变量的总方差。

证明:由矩阵“迹”的性质知tr(Λ)?tr(T?ΣT)?tr(ΣTT?)?tr(Σ)

ppipiipi?1所以

??i?1???i?1 (6.20) 或 ?D(Yi)??D(Xi) (6.21)

i?1性质3 主成分Yk与原始变量Xi的相关系数为?(Yk,Xi)?载荷量)。

证明:事实上?(Yk,Xi)?Cov(Yk,Xi)D(Yk)D(Xi)?Cov(Tk?X,eiX)?k?iitki (6.22)并称之为因子负荷量(或因子

?k?ii 其中的ei?(0,?,0,1,0,?,0),它是除第i个元素为1外其他元素均为0的单位向量。而

Cov(Tk?X,eiX)?Tk?Σei?ei?(ΣTk)?ei?(?kTk)??kei?Tk??ktki

所以?(Yk,Xi)?p?k?iitki。

性质4

??i?12(k?1,2,?,p)。 (Yk,Xi)??ii??k,

证明:只须将(6.22)代入左边式子整理化简即可。

二、主成分的方差贡献率

由性质2可以看出,主成分分析把p个原始变量X1,X2,?,Xp的总方差tr(Σ)分解成了p个相互独立

p的变量Y1,Y2,?,Yp的方差之和??k。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个

k?1主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称?k??kp??k?1k

(6.23)为第k个主成分Yk的贡献率。第一主成分的贡献率最大,这表明Y1?T1?X综合原始变量

X1,X2,?,Xmpp的能力最强,而Y2,Y3,?,Yp的综合能力依次递减。若只取m(?p)个主成分,则称

k?m???k?1k为主成分Y1,?,Ym的累计贡献率,累计贡献率表明Y1,?,Ym综合X1,X2,?,Xp的?? (6.24)

k?1能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。

第四节 主成分方法应用中应注意的问题

一、实际应用中主成分分析的出发点

我们前面讨论的主成分计算是从协方差矩阵Σ出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常将各原始变量作标准化处理,即令

Xi?*Xi?E(Xi)D(Xi) i?1,?,p (6.25)

)?的协方差矩阵就是X的相关系数矩阵R。实际应用中,X的相关系数矩阵R可以显然,X*?(X1*,?,X*p通过(2.13)式,利用样本数据来估计。

这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。

因此,在实际应用中,主成分分析的具体步骤可以归纳为: 1. 将原始数据标准化;

2. 建立变量的相关系数阵;

****3. 求R的特征根为?1*????p?0,相应的特征向量为T1,T2,?,Tp;

4. 由累积方差贡献率确定主成分的个数(m),并写出主成分为Yi*,m, ?(Ti)?X, i?1,2?二、如何利用主成分分析进行综合评价

人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。

对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。

设Y1,Y2,?,Yp是所求出的p个主成分,它们的特征根分别是?1,?2,?,?p,将特征根“归一化”即有

wi??im i?1,2?,p,

i??i?1记为W?(w1,w2,?wp)?,由Y?T?X,构造综合评价函数为

Z?w1Y1?w2Y2???wpYp?W?Y?W?T?X?(TW)?X (6.26)

令TW?wk*?1,并代入(6.26)式,有Z?(w*)?X (6.27)

这里我们应该注意,从本质上说综合评价函数是对原始指标的线性综合,从计算主成分到对之加权,经过两次线性运算后得到综合评价函数。