大型超市购物篮分析 联系客服

发布时间 : 星期三 文章大型超市购物篮分析更新完毕开始阅读9f8358d6e53a580216fcfef3

运用SPSS软件处理数据,并计算出各个商品被购买的次数,此处列出50中商品购买的次数(全部结果见附录1表1),绘制表格如下: 表1 前50种商品购买的次数 商品编号 购买次数 商品编号 购买次数 商品编号 购买次数 商品编号 购买次数 1 309 11 18 21 494 31 398 2 269 12 625 22 179 32 524 3 197 13 5 23 64 33 220 4 265 14 34 24 236 34 83 5 156 15 122 25 427 35 322 6 152 16 73 26 238 36 111 7 76 17 301 27 372 37 67 8 673 18 120 28 280 38 376 9 40 19 102 29 22 39 353 10 181 20 10 30 0 40 70 这里的置信度相当于遗传学中的的DNA序列,通过取出具有代表性的置信度或DNA序列,作为衡量商品间关联度的一个指标。再建立基于神经网络算法的遗传算法[1]模型,为了进一步精确地得出商品间的关联关系,采用遗传算法中的选择算法,并确定一个标准筛选出关联度较大的商品。

将最小置信度设定为千分之四,从4717个原始数据项中得到个数为17的频繁项集。按置信度降序排列,绘制如下表2:

表2 17种商品的置信度 368 829 529 419 217 489 438 编号 510 0.000515 0.0050 0.0050 0.0047 0.0045 置信度 0.0071 0.0059 0.0058 956 766 914 682 692 937 205 720 722 编号 置信度 0.0045 0.0044 0.0044 0.0043 0.0043 0.0048 0.0041 0.0040 0.0040 由表2可以看出,商品368号为最大置信度,商品722号为最小置信度,最大置信度与最小置信度之间相差较大。 根据表2中的最小置信度与最大置信度将置信度均分为八份,运用SPSS软件求出各个区间内的商品个数,整理得到表3: 表3 各置信区间的商品个数 置信区间 商品个数 置信区间 商品个数

5

[0,0.001) 623 [0.004,0.005) [0.001,0.002) 299 [0.005,0.006) [0.002,0.003) 88 [0.006,0.007) [0.003,0.004) 33 ?0.007,0.008? 11 5 0 1

将上述区间分为8个区间,再利用Excel绘制散点图如下:

图1 各个区间内的商品

分析散点图可知,在第1到第4区间商品数较多,第5到第8区间商品数较少。即大多数商品关联度不高,只有少数商品关联度较高。

通过Matlab软件均分置信度,求出各个区间内的欧氏距离与方差,比较欧氏距离与方差,得出商品间的关联关系的密切程度。再根据表2的区间,运用Matlab 软件求解出欧氏距离与方差,绘制如下表4: 表4 各个区间内的商品 置信区间 欧氏距离 标准差 置信区间 欧氏距离 标准差 [0,0.001) 0.1888 0.00303 [0.004,0.005) [0.001,0.002) 0.0705 0.00294 [0.005,0.006) [0.002,0.003) 0.0245 0.00275 [0.006,0.007) [0.003,0.004) 0.0074 0.00204 ?0.007,0.008? 0.0022 0.00177 0.0020 0.00039 0 0 0 0 利用Excel绘制散点图如下: 图2 欧式距离和标准差

通过综合比较多种商品间的标准差和欧氏距离,可以得出共有623种商品关联度为

6

0.1888,299种商品间关联度为0.0705,88种商品间关联度为0.0245,33种商品间的关联度为0.0074,11种商品间的关联度为0.0022,5种商品间的关联度为0.0020。 5.3问题二模型的建立与求解

问题二要求根据问题一中建立的模型,分析出哪些商品是最频繁被同时购买的,求解出被同时购买的数量越多越好。根据置信度的定义可推出,某商品组合的置信度越高,表示该组合越频繁被同时购买。

分析所给表1中的数据,将所筛选出的商品种类选出,运用贪婪算法找出最频繁购买的商品组合。与问题一中两种商品的组合进行匹配,去掉重复项,得到两种商品组合,挑选出满足置信度的组合。同样进行满足置信度的三种商品、四种商品、五种商品的选择??依次循环直到没有符合最低置信度的组合程序结束。

首先,要计算两种商品组合,依据置信度挑选出符合条件的商品。截取前五位绘制如下表5:

表5 两种商品组合的排名 次数排名 1 2 3 4 5 A 368 368 368 368 368 B 529 829 217 489 682 购买次数 334 313 291 291 289 由表5可以看出,两种商品组合的购买纪录中,368号商品与529号商品的购买组合为最频繁购买组合,商品数为2,频繁出现334次。

和表5所用方法一样再计算三种商品组合,依据置信度挑选出符合条件得商品。再截取前5位绘制表格如下:

表6 三种商品组合的排名 次数排名 1 2 3 4 5 6 7 A 368 956 424 538 956 956 413 B 489 538 572 413 538 413 572 C 682 413 797 797 797 797 956 购买次数 124 122 116 115 114 114 114 由表6可以看出,三种商品的购买组合中编号为368、489和682商品的购买组合为最频繁购买组合,商品数为3,频繁出现124次。

通过表5和表6可以看出编号为368号的商品,被购买最为频繁。由于本题要求找出被频繁同时购买的商品数越多越好,因此最频繁购买的单一商品不合要求你,要对数据做更多种组合的处理。

依照前两项采用的方法——贪婪算法,计算四种商品组合,依据置信度对被频繁购买的商品次数进行排名。

7

由于数据量大,只能选取排名靠前的商品绘制表格。此处选取排名前7位绘制表格如下:

表7 前四种商品组合的排名 次数排名 1 2 3 4 5 6 7 A 413 413 424 413 413 413 413 B 424 572 572 424 538 538 797 C 572 797 797 797 797 797 826 D 956 956 956 956 826 956 956 购买次数 107 107 107 106 106 106 106 由表7可以看出,四种商品的购买组合中编号为413、424、572、956和413、572、797、956和424、572、797、956商品的购买组合为最频繁购买组合,商品数为4,频繁出现107次。

再将表7与表5、表6得出结果进行比较,可知368号单个商品购买最为频繁,其他商品次之。

运用贪婪算法进行最后一次运算,得出五种商品组合的排名,并选取靠前商品进行排名绘制表格8:

表8 五种商品组合的排名 次数排名 1 A 413 B 424 C 538 D 572 E 797 购买次数 102 由表8可以看出,五种商品的购买组合中编号为413、424、538、572、797号商品的购买组合为最频繁购买组合,商品数为5,频繁出现102次。

综上表格可得,最频繁被同时购买的商品是编号为413、424、538、572、797 5.4问题三模型的建立与求解 5.4.1求解商品组合的利润

问题三要求根据问题一、问题二中建立的模型,计算999种商品对应的利润,给出一种初步的促销方案,使超市的效益进一步增大。分析表2(见附录1表2)的数据,结合问题二中求解最频繁购买商品的方法,分类处理表中给出的利润,并进行比较得出结果,截取前5位绘制表格。

按照商品组合分类,求解各个分类的商品利润。运用Matlab将数据进行分析统计,结果绘制如下表:

表9 两种商品组合的利润 A 368 368 368 368 368 B 529 829 217 489 682 次数 334 313 291 291 289 单利润 575.95 479.64 296.1188 296.1188 315.259 总利润 304677.55 397621.56 64257.7796 144802.0932 215006.638 由表9可以看出,两种商品的购买组合中商品368,商品829的购买组合利润最高。尽管此商品组合购买次数并非最多,但考虑到超市利润最大化的经营目标,将此组合作

8