数据分析5.5实验报告 - 图文 联系客服

发布时间 : 星期日 文章数据分析5.5实验报告 - 图文更新完毕开始阅读77ce6280b9d528ea81c7798f

5.5 考察鸢尾属植物中三个不同品种的话的如下四个形状指标: X1:萼片长度;X2萼片宽度;X3:花瓣长度;X4:花瓣宽度。

重这三个品种(记为1,2,3)各选取50株,测得上述指标的取值如表5.10所示。假如三个品种的着、这4个指标均服从4维正态分布,且先验概率相等,按下列要求进行Bayes判别分析:

表5.10 鸢尾属植物三个不同品种的话的形状数据 编号 品种 编号 品种 x3 x3 x1 x1 x2 x4 x2 x4 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 50 46 46 51 55 48 52 49 44 50 44 47 48 51 48 50 50 43 58 51 49 51 50 46 57 50 54 52 55 49 54 50 44 47 33 34 36 33 35 31 34 36 32 35 30 32 30 38 34 30 32 30 40 38 30 35 34 32 44 36 34 42 42 31 39 34 29 32 14 14 10 17 13 16 14 14 13 16 13 16 14 16 19 16 12 11 12 19 14 14 16 14 15 14 15 15 14 15 17 15 14 13 2 3 2 5 2 2 2 1 2 6 2 2 3 2 2 2 2 1 2 4 2 2 4 2 4 2 4 1 2 2 4 2 2 2 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 66 52 60 50 55 58 62 59 60 67 63 56 63 61 64 51 57 61 56 69 55 55 66 68 67 64 67 63 69 65 65 58 68 62 29 27 34 20 24 27 29 30 22 31 23 30 25 28 29 25 28 29 29 31 25 23 30 28 30 28 31 28 31 30 30 27 32 34 46 39 45 35 37 39 43 42 40 47 44 41 49 47 43 30 41 47 36 49 40 40 44 48 50 56 56 51 51 52 55 51 59 54 13 14 16 10 10 12 13 15 10 15 13 13 15 12 13 11 13 14 13 15 13 13 14 14 17 22 24 15 23 20 18 19 23 23 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 46 51 50 49 54 54 51 48 48 45 57 51 54 51 52 53 65 62 59 61 60 56 57 63 70 64 61 55 54 58 55 50 67 56 58 60 57 57 49 56 57 31 34 35 31 37 39 35 34 30 23 38 38 34 37 35 37 28 22 32 30 27 25 28 33 32 32 28 24 30 26 26 23 31 30 27 29 26 19 24 27 30 15 15 13 15 15 13 14 16 14 13 17 15 17 15 15 15 46 45 48 46 51 39 45 47 47 45 40 38 45 40 44 33 44 45 41 45 35 42 33 42 42 2 2 3 1 2 4 3 2 1 3 3 3 2 4 2 2 15 15 18 14 16 11 13 16 14 15 13 11 15 12 12 10 14 15 10 15 10 13 10 13 12 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 77 67 76 49 67 59 63 64 79 67 77 63 72 61 61 64 62 77 63 58 72 71 64 60 63 77 60 69 74 56 73 67 65 69 72 65 64 68 57 58 63 38 33 30 25 30 30 25 32 38 33 28 27 32 30 26 28 28 30 34 27 30 30 31 30 29 26 22 32 28 28 29 25 30 31 36 32 27 30 25 28 33 67 57 66 45 52 51 50 53 64 57 67 49 60 49 56 56 48 61 56 51 58 59 55 48 56 69 50 57 61 49 63 58 58 54 61 51 53 55 50 51 60 22 25 21 17 23 18 19 23 20 21 20 18 18 18 14 21 18 23 24 19 16 21 18 18 18 23 15 23 19 20 18 18 22 21 25 20 19 21 20 24 25 (1)只考虑指标X2和X4,并假定各总体协方差矩阵不全相等,给出误判率的回代

估计和交叉确认估计;

(2)只考虑指标X2和X4,并假定各总体协方差矩阵相等,写出线性判别函数,给

出误判率的回代估计和交叉确认估计并于(1)中结果作比较;

(3)假定有新样品xo?(x2,x4)T?(35,18)T,在(1),(2)之下,该样品非别被判归哪个总

体?

(4)利用全部4个指标重复(1)和(2)的分析,结果如何?是否所用指标越多,分类效

果越好?在尝试其他几个指标组合,情况有如何?

解:(1)

误判率的回代估计: 误判率的交叉确认估计:

由以上结果可以看出,当只考虑指标X2和X4,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有7个误判:将第52号的样品由品种2误判为品种3;第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第100号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2;第124号的样品由品种3误判为品种2;第130号的样品由品种3误判为品种2。误判的回代估计p和交叉确认估计p为:

?*r?*c7??p???0.0467 p150

*r*c(2)当各总体协方差矩阵相等,即?1??2??3??,只需把程序中pool=no改为pool=yes,运行结果整理如下:线性判别函数为:

???56.63828?3.38648Wx2?2.06379x41???37.41765?1.79074Wx2?1.76415x42

误判率的回代估计: 误判率的交叉确认估计:

???60.17687?1.45182Wx2?3.70086x43

由以上结果可以看出,当只考虑指标X2和X4,并假定各总体协方差矩阵相等的情况下,求出线性判别函数,并利用函数对样本进行回代估计和交叉确认估计,均误判现象,其中, 用回代发法,共有5个误判现象:将第53号样品由品种2误判为品种3;第103号样品由品种3误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的回代估计为:

5??p?0.033 3150*r 用交叉确认法,共有6个误判现象:将第53号样品由品种2误判为品种3;第100号样品由品种2误判为品种3;第103号样品由品种32误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的交叉确认法为:

6??p?0.04

150*c 很显然,当各总体协方差矩阵相等时,误判率的回代估计和交叉确认估计都比各总体协方差矩阵不全相等时的低。

(3)在各总体协方差矩阵不全相等情况下,新样品xo?(x2,x4)T?(35,18)T被判归品种2; 而在各总体协方差矩阵相等的情况下,新样品xo?(x2,x4)T?(35,18)T被判归品种3。 (4)首先是假设各总体协方差矩阵不全相等情况,考虑全部指标,结果如下: 误判率的回代估计: 误判率的交叉确认估计:

由以上结果可以看出,考虑全部指标X1X2X3X4,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。误判的回代估计p和交叉确认估计p为:

**??p?pc? r?*r?*c3?0.002150

接着是假设各总体协方差矩阵相等情况,考虑全部指标,可求出其线性判别函数为:

???84.1184?2.1066x?2.15311Wx2?1.66392x3?1.60979x411

???72.40277?1.60676Wx1?0.59094x2?0.50419x3?0.71657x42???104.23783?1.26525Wx1?0.30428x2?1.26711x3?2.14831x4 3

误判率的回代估计: 误判率的交叉确认法:

由以上结果可以看出,考虑全部指标X1X2X3X4,并假定各总体协方差矩阵相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。误判的回代估计p和交叉确认估计p为:

?*r?*c3??p???0.002 p150

*r*c

由此可得,在考虑全部4个指标下,各总体协方差矩阵不全相等和相等情况下回代估计和交叉确认估计结果一样,而且,分类效果比只考虑2个指标要好。