判别分析-四种方法 联系客服

发布时间 : 星期一 文章判别分析-四种方法更新完毕开始阅读e1c610ed81c758f5f61f671f

另外在筛选变量过程中,要计算许多行列式,在建立判别函数时往往还要算逆矩阵,因此需要有一套方便的计算方法,这就是消去变换法(见后面附录)。

(1)引入变量的检验统计量

假定计算l步,并且变量x1,x2?,xL已选入(L不一定等于l),今考察第l+1步添加一个新变量xr的判别能力,此时将变量分成两组,第一组为前L个已选入的变量,第二组仅有一个变量xr,此时L+1个变量的组内离差阵和总离差阵仍分别为E和T。

?e11e12?e1Le1r??e?e?eeL121222L2r???L?EE12????E??11????

1?E??21E22???ee?eeL2LLLr??L1??er1er2?erLerr????E21?(e1r,e2r,?eLr)' 其中 E12?t11?tL1??21L?TT12????T??111?T?21T22????tL1??tr1??T21?(t1r,t2r,?,tLr) 其中 T12(1)由于 E?E11err

t12t22?tr2?t1L?t2L??trrtL2?tLLt1r?t2r???? ?tLr?trr??其中

(1)?1?1?1err?E22?E21E11E12?E22?E21E11E12?err?Er1E11E1r

(注意:上式行列式里是一个数,所以可去掉行列式符号,又r相当于2。) 同理

(l) T?T11trr其中 于是 即

(l)?1?1trr?T22?T21T11T12?Trr?Tr1T11T1r

ET?(l)E11err(1)T11trr

?L?1??L??L?1??L?1(l)err(l)1?Arerr所以 ? 其中Ar?(l)

Artrr将上式代入Rao近似式中得到引入变量的检验统计量:

1?Arn?l?kF1r??~F(k?1,n?l?k)

Ark?1若F1r?Fa(k?1,n?l?k),则x1判别能力显著,我们将判别能力显著的变量中最大的变量(即使Ar为最小的变量)作为入选变量记为xl?1。

值得强调的是:不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去变换,比如说,不妨设第一个引入的变量是x1,这时就要对E和T同时进行消去第一列的变换得到E(1)和T(1),接着考虑引入第二个变量,经过检验认为显著的变量,不妨设是x2,

(2)(2)这时就要对E(1)和T(1)同时进行消去第二列的变换得到E和T,对剔除变量也如此。

(2)剔除变量的检验统计量

考察对已入选变量xr的判别能力,可以设想已计算了l步,并引入了包括xr在内的某L个为量(L不一定等于l)。今考察拟在第l+1步剔除变量xr的判别能力,为方便起见,可以

(l)trr(l)(l)trr?err(l)err 25

假设xr是在第l步引入的,也即前l-1步引进了不包括xr在内的l-1个变量。因此问题转化为考察第l步引入变量xr(在其它l-1个变量已给定时)的判别能力,此时有

Ar?(l?1)err(l?1)trr

对相应的E(l)、T(l),再作一次消去变换有:

(l)(l)?erjerr i?r,j?r?(l)(l)(l)(l)?i?r,j?r?eij?eirerjerr (l?1) eij??(l) i?r,j?r?1err ?(l)(l)? i?r,j?r??eirerr (l)(l)?trjtrr i?r,j?r?(l)(l)(l)(l)?tij?tirtrjtrr i?r,j?r?(l?1) tij??

(l) i?r,j?r?1trr ?(l)(l)? i?r,j?r??tirtrr 于是

Ar?(l)1err1(l)trr?(l)trr(l)err

从而得到剔除变量的检验统计量:

F2r?1?Arn?(L?1)?m?~F(k?1,n?(L?1)?k) Arm?1在已入选的所有变量中,找出具有最大Ar(即最小F2r)的一个变量进行检验。若

F2r?Fa,则认为xr判别能力不显著,可把它从判别式中剔除。

3 具体计算步骤 (1)准备工作

i)计算各总体中各变量的均值和总均值以及E?(eij)p?p和T?(tij)p?p

ii)规定引入变量和剔除变量的临界值F进和F出(取临界值F进?F出?0,以保证逐步筛选变量过程必在有限步后停止)在利用电子计算机计算时,通常临界值的确定不是查分布表,而是根据具体问题,事先给定。由于临界值是随着引入变量或剔除变量的个数而变化的,但是当样本容量n很大时,它们的变化甚微,所以一般取F进?F出?Fa,如果想少选入几个变量可取F进?F出?10,8,等等。如果想多选入变量可取F进?F出?1,0.5,等等,显然如果取F进?F出?0则全部变量都被引入。

(2)逐步计算

假设已计算l步(包括l=0),在判别式中引入了某L个变量,不妨设x1,x2,?,xL,则第l+1步计算内容如下:

i)计算全部变量的“判别能力”

对未选入变量xi计算Ai?对已选入变量xj计算Aj?(l)eii(l)tii(l)tii i?L?1,?,P

j?1,?,L (l)eiiii)在已入选变量中考虑剔除可能存在的最不显著变量,取最大的Aj(即最小的F2j)。

假设Ar?max{Aj},这里j?L表示xj属已入选变量。作F检验:剔除变量时统计量为:

j?L 26

F2r?1?Arn?k?(L?1)? Ark?1(l)若F2r?F出,则剔除xr,然后对E和T(l)作消去变换。

若F2r?F出,则从未入选变量中选出最显著变量,即要找出最小的Ai(即最大的F1i)。假设Ar?min{Ai},这里i?L表示xi属于未入选变量。作F检验:引入变量时统计量为

i?LF1r?1?Arn?k?L? Ark?1若F1r?F进,则引入xr,然后对E(l)和T(l)作消去变换。

在第l+1步计算结束后,再重复上面的i)、ii)直至不能剔除又不能引入新变量时,逐

步计算结束。

(3)建立判别式,对样品判别分类

经过第二步选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设共计算l+1步,最终选出L个变量,设判别式为:

(g)yg?l1qg?C0??Ci?1L(g) gixi ?1,?,k

将每一个样品x?(x1,?,xp)?(x可以是一个新样品,也可以是原来n个样品之一。)分别代入k个判别式yg中去。若y(h/x)?max?y(g/x)?,则x?第h总体。

1?g?k顺便指出两点:(1)在逐步计算中,每步都是先考虑剔除,后考虑引入,但开头几步一

般都是先引入,而后才开始有剔除,实际问题中引入后又剔除的情况不多,而剔除后再重新引入的情况更少见。(2)由算法中可知用逐步判别选出的L个变量,一般不是所有L个变量组合中最优的组合(因为每次引入都是在保留已引入变量基础上引入新变量)。但在L不大时,往往是最优的组合。

例1 再次利用人文发展指数的三项指标作逐步判别分析。

(1)计算两类各变量的均值、总均值、组内离差阵、总离差阵如下:

分类均值 第一类 第二类 x1 75.88 70.44 73.16 x2 94.08 91.74 92.91 x3 5343.4 3430.2 4386.8 总 均 值

组内离差阵为:

173.704?4447??123.04?

W?S1?S2??173.704532.9?11568.78?????4447?11568.782100372??总离差阵为:

T???(Xa?1k?12na(a)k(a)?X)?(Xk?X)

206.0721572.52??197.02?

??206.07547.06?185.24????21572.52?185.24112512077.6??(2)逐步计算

27

设引入变量的临界值为F1,剔除变量的临界值为F2,今取F1 =F2 =2。 第一步:(L = 0)

W123.04A1?11??0.6245

t11197.02532.9?0.9741

547.062100372 (最小) A3??0.1867

11251207.6本步无剔除,考虑引进x3

1?A3n?m?l1?0.186710?2?0????34.8542 F?A3m?10.18672?1F1?F2?2,故引进变量x3。

A2?对矩阵W、T同时对x3作消去变换得W(1)及T(1)如下:

x1 x1 113.6246 149.2101 -0.002117244 155.6579 206.4252 0.0019174 x2 x3 x1 x2 x3 x2 149.2101 469.1795 -0.005507967 206.4252 547.05695 -1.6464E-05 x3 0.002117244 0.005507967 4.76106E-07 -0.0019174 16464E-05 8.88793E-08 W(1) T(1) 第二步:(L=1)

113.6246?0.72996(最小)

155.6579469.1795A2??0.8576

547.05695A1?本步无剔除(因只引进一个变量x3),考虑引进变量x1,

1?A110?2?1F???2.5896

A12?1 F?F1?2 故引进变量x1。

对矩阵W(1)、T(1)同时对x1作消去变换得W(1)、T(1)如下:

x1 x1 0.00801 -1.31318 1.86337E-05 0.006424345 -1.326146 -1.23177E-05 x2 x3 x1 x2 1.31318 273.2392 -0.0027276 1.326146 273.3069 -0.002559 x3 1.86337E-05 0.0027276 5.15558E-07 -1.23177E-07 0.002559 1.12497E-07 W(2) T(2) x2 x3 第三步,(L=2)

对已入选的变量计算:A1?0.006424345?0.72996(最大)

0.008801 28