浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别 - 图文 联系客服

发布时间 : 星期三 文章浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别 - 图文更新完毕开始阅读108a32a3001ca300a6c30c22590102020640f2d2

浅谈主成分分析与因子分析

1、主成分分析

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。

1.1基本思想

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。

1.2计算步骤

设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。

(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再

除以这个指标的标准差。

(2)建立变量的相关系数阵:。

(3)求R的特征根及相应的单位特征向量。

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取

前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合

信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前

k个主成分基本包含了全部测量指标所具有的信息。

1.3算法原理

a1p??a11......x1p??x11......???x......?a......ax212p?212p?A??X???..........?..........?....?.......????anp?xnp????an1......? ?xn1......?标准化,得(1)对资料阵

aij?(xij?Xj)/1(xij?xj)2n i=1,2……n, j=1,2,……P。

其中

(2)求出相关矩阵

nr1p??r11......??r......r212p?R???..............???rpp???rn1......?

nrjk??(aij?aj)(aik?ak)/i?1?(ai?1nij?aj)2?(ai?1ik?ak)2式中i为标本编号,j,k=1,

1naj??aijni?12,…P。其中,。

此相关矩阵为一对称矩阵,所以在下面的计算中取上三角阵R上=?r11r12...r1p???r...r222p????...??rpp?????? (3)求出R上的特征及特征向量。

求R上矩阵的特征值及特征向量有许多方法,特征方程法、迭代法等 (4)求出主成分。

将求出的特征值按大小依次排列,使得

?1??2?...??p,根据i?1??/??ii?1mpi?85%原则确定m,并依次排列特征向量

u1,u2,....um就可得出我们所需的主成分。

1.4主要性质

主成分性质主要包括以下几点: (1)设p个n维随机向量X1,X2….Xp协方差矩阵为∑,∑的特征值为λ1≥λ2≥…≥λp>0,相应的单位特征向量为:

?1,?2,...?p,则x的主成分可表示

为:Fi=μ’iX=μi1X1+μi2X2+…+μipXp, i=1,2,…,p 记μi=(μi1,μi2,…μip)T

(2)p个主成分均值为0,且p个主成分不相关。

(3)主成分的方差之和与原始变量的方差之和相等,也就是说,经过变化后,变量间的变异性没有改变,信息没有损失。

?k?(4) 称

?k??i?1p??i?1mi?????i?1i?1pkii为第k个主成分的方差贡献率,称

i为前k个主

成分的累积方差贡献率。

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到85%,明取前k个主成分基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有利于对实际问题的分析和研究。

?Y,X?1k?ik?i?kk(i=1,2,...p)

(5) 若Fi=μ’iX是数据矩阵x的主成分则

是Yi与Xk的相关系数。

1.5主成分分析方法应用实例

实例:对流域系统的主成分分析

下表给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。

分析过程:

① 将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。

② 由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。