管理研究方法论 第五节 因子分析 联系客服

发布时间 : 星期三 文章管理研究方法论 第五节 因子分析更新完毕开始阅读cf3d683067ec102de2bd8963

第五节 因子分析

一、因子分析的基本原理

因子分析是用少数几个因子去研究多个原始指标之间关系的一种多元统计方法。它的基本思想是找出决定原始指标的内在的主要的因素,以简化人们的认识,找出决定事物特性的主要原因,对比较复杂的事物进行比较研究。 1.因子模型

设有p个指标,x1,x2???xp,每个指标已经标准化,设每个指标可以表示为以下形式:

x1=a11F1+a12F2+??????+a1mFm+ε1 x2= a21F1+a22F2+??????+a2mFm+ε2 ????????????????? xp=aP1F1+aP2F2+??????+aPmFm+εP

式中的Fj(j=1,2,3,???m)称为公共因子,(每个变量都与它们有关)。它们是不可观测的,其意义要根据具体问题来解释。εi 称为特殊因子,它们与公共因子彼此独立。aij是第i个指标在第j个公共因子上的系数,称为因子荷载。 A=( aij)p×m称为荷载因子矩阵。

因子分析的主要任务之一就是根据一组原始数据,确定变量的荷载矩阵。 2.因子荷载矩阵A的统计意义

(1)aij是第i个指标xi与第j个公共因子Fj的相关系数。

A中第i行的各个元素(因子荷载)说明了第i个指标xi依赖于各个公共因子的程度;第j列元素说明第j个公共因子Fj与各个指标的联系程度。因此常根据该列绝对值较大的因子荷载所对应的指标来解释这个公因子的意义。即这个因子是决定哪个指标的。 (2)A中第i行元素的平方和

h??a2ij?1m2ij称为指标x的共同度。

由于各特殊因子与所有的公共因子之间是独立的,而且各个指标和公共因子均已经标准化,所以有

var(x)??avar(F)?var(?)2ij?1ijjim 即

1?h?var(?)2ii 该式说明,指标xi的方差由两部分组成:第一部分为共同度hi2,它刻划全部公共因子对指标xI的总方差的贡献,它越大,说明该指标的全部原始信息被m个公共因子概括程度越高,m个公共因子对该指标的描述就越有效。第二部分是单个指标所特有的方差。

p2 (3)A中第j列元素的平方和

jij i?1

表示第j个公共因子Fj对原始指标所提供的方差贡献之和。它是衡量各个公共因子相

g??a对重要性的一个尺度。

由于各个原始指标都已经标准化,所以原始指标提供的总方差

?var(xi)?i?1pp

p j2? jiji?1

为第j个公共因子的方差贡献率。方差贡献率αj越大,说明第j个公共因子Fj越重要。 若前m个公共因子的方差贡献率占到总方差的相当大的比例(如80%以上),那末就可以认为这m个公共因子较好的概括了原指标。即原指标的信息可用这m个因子的信息近似代替。

3.因子荷载矩阵A的估计

给定p个指标的n组观察值X=(xij)n×p

如何从X出发,确定较少的m个公共因子,估计出因子荷载,建立因子模型是因子分析首先要解决的问题。

估计因子荷载的方法常用的有主成份分析法,主因子方法和最大似然函数法。 根据主成份分析原理,根据p个指标的n组观察值可以通过转换变为p个主成份:

Y=U’X U为正交矩阵。

y1=u11x1+u21x2+??+up1xp y2=u12x1+u22x2+??+up2xp ??????????? y2=u1mx1+u2mx2+??+upmxp ??????????? yp=u1px1+u2px2+??+uppxp

取前面m个主成份。(这m个主成分的方差贡献率占了很大比重,如80%以上) 由上式 X=UY

x1=u11y1+u12y2+??+u1pyp x2=u21y1+u22y2+??+u2pyp ??????????? xm=um1y1+um2y2+??+umpyp ??????????? xp=up1y1+up2y2+??+uppyp

1 121122 2g1???app?YX?UY??U,U???Y?????UY?UY?式中U1 是与前m个主成份对应的U的那一部分。

x1=u11y1+u12y2+??+u1mym+u1m+1ym+1+?+u1pyp x2=u21y1+u22y2+??+u2mym+ u2m+1ym+1+?+u2pyp ???????????

Xp=up1y1+up2y2+??+upmym + upm+1ym+1+?+uppyp

记上式右边的第二部分为ε 则上式就可以写成

X=U1Y1+ε

则上式已经符合因子分析模型的形式,即Y=(y1.y2,??ym)’可以看作是m个公共因子,但是yi没有标准化,其方差为λi,均值为0。

为使得Y标准化,作变换 ii

i

F?y?

yi??iFi

A?(?1u1,?2u2,......?mum)

u1=(u11,u21,??up1)’ u2=(u12,u22,??up2)’

um=(u1m,u2m??upm)’

λ11/2u11, λ21/2u12 ?+λm1/2u1m λ11/2u21, λ21/2u22,??λm1/2u2m A= ?????????????? λ11/2up1, λ21/2up2??λm1/2upm

则有X=AF+ε

x1=λ11/2u11,F1+λ21/2u12 F2?+λm1/2u1mFm x2=λ11/2u21F1+λ21/2u22,F2??+λm1/2u2mFm ?????????????????? xp=λ11/2up1F1+λ21/2up2F2??+λm1/2upmFm

满足因子分析模型的要求。

确定公共因子的个数有两种方式:一是有前m个公共因子的累计方差贡献率不低于某一阈值(如85%)来确定,或只取特征根大于或等于1的公共因子。 4.因子旋转

符合因子模型要求的因子荷载矩阵A不是唯一的,公共因子也不是唯一的。 事实上设Γ为任意一个正交矩阵(ΓΓ’=I)则

X=AΓΓ’F=(AΓ)(Γ’F)

则AΓ也满足因子荷载矩阵的要求,Γ’F的各个份量也可以作为公共因子。

利用这一特性,当公共因子和因子荷载矩阵不便于解决实际问题时,可以设法找一个矩阵Γ,使得变换后的荷载矩阵AΓ与公共因子Γ’F有比较鲜明的意义。这种方法叫作因子旋转。为了达到这个目的,一般要设法使得旋转变换后,因子荷载矩阵的元素的绝对值向两极分化(行向和列向)。这样便于解释因子的意义。常用的方法叫作“方差最大正交旋转”。 如果正交旋转后公共因子的意义仍不明显,可以作斜交旋转。

5.因子得分

由于公共因子能够充分反映原始指标内部的依赖关系,因子用公共因子代替原始指标更能反映研究对象的性质。因此有时需要反过来将m个公共因子表示为原来的p个原始指标的线性组合,即

jj11j22jpp

来计算各个样本的公共因子得分,从而便于对各个样本进行综合评价。 估计因子得分的方法常用的是Thomson因子得分。

二、利用SPSS或SAS进行因子分析 1.用SPSS进行因子分析

多孩率 节育率 初中以上人口比率 人均国民收入 城镇人口比率 1 .94 89.89 64.51 3577 73.08 2 2.58 92.32 55.41 2981 68.65 3 13.46 90.71 38.20 1148 19.08 4 12.46 90.04 45.12 1124 27.68 5 8.94 90.46 41.83 1080 36.12 6 2.80 90.17 50.64 2011 50.86 7 8.91 91.43 46.32 1383 42.65 8 8.82 90.78 47.33 1628 47.17 9 .80 91.47 62.36 4822 66.23 10 5.94 90.31 40.85 1696 21.24 11 2.60 92.42 35.14 1717 32.81 12 7.07 87.97 29.51 933 17.90 13 14.44 88.71 29.04 1313 21.36 14 15.24 89.43 31.05 943 20.40 15 3.16 91.21 37.85 1372 27.34 16 9.04 88.76 39.71 880 15.52 17 12.02 87.28 38.76 1248 28.91

F??x??x?.....??x