基于群体智能的关联规则挖掘及应用 联系客服

发布时间 : 星期一 文章基于群体智能的关联规则挖掘及应用更新完毕开始阅读f82c9d1e10a6f524ccbf85c8

山东师范大学硕士学位论文

更快地收敛到最优解, 但同时会增加收敛于局部极小的概率。此外, 种群初始化和种群规模设置也会对算法性能产生一定的影响, 不过在这方面的研究成果还很少。目前比较常用的种群初始化方法是随机生成微粒的初始速度和位置。在种群规模选择方面, 因为其对具体问题模型的依赖性比较明显,所以还没有任何确切的原则。

微粒群算法基本模型中的参数设置和优化问题还缺乏成熟的理论论证和研究,目前比较通用的参数设置方法是经验法和实验法。El Gallad[29 ]利用统计方法分析了微粒群规模、速度极限和迭代次数对算法性能的影响。但是这三个参数与具体问题的特性密切相关,并不能完全说明参数对算法基本特性的影响,彭宇等[30 ] 利用统计中的方差分析,通过抽样实验方法,论证了微粒群算法中关键参数因子———惯性权和加速常数对算法整体性能的影响效果,并提出了参数设置的指导原则。结果表明,按照方差分析选择适应的参数设置水平,能够获得稳健和高效的优化效果。

25

山东师范大学硕士学位论文

第三章 关联规则挖掘

3.1关联规则挖掘算法的应用

数据挖掘就是从大量的数据中挖掘发现有效的、新颖的、具有潜在应用价值的知识。关联规则挖掘是数据挖掘的一种重要形式,首先由R.Agrawal[1]等人提出,用来处理事务型数据库,后又推广到关系型数据库及数据仓库,现已成为数据挖掘领域中一个非常重要的研究课题。数据挖掘虽然出现较晚,但是由于其具有巨大的潜在的使用价值,使得其逐渐深入到许多的领域,并出现许多成功的产品,数据挖掘技术在商业方面应用较早,因为可增强企业的竞争优势,缩短销售周期,降低生产成本,有利用定制市场计划和销售策略,数据挖掘技术已经成为电子商务的关键技术之一,由于数据挖掘在开发信息资源方面的优越性,所以在市场营销,医学,金融,电信,生物等各行业被人们所关注,下面就应用几个最集中的几个领域进行简要的说明

3.1.1 市场营销

零售业是数据挖掘较为活跃的一个领域,了解客户的购买习性和趋势,对于零售商制

定销售策略是至关重要的,管理信息系统和PSO系统在零售业中广泛使用,特别是条形码技术的使用,使得收集用户购买商品的教易数据变得相当容易,通过关联规则的挖掘,分析客户对商品的需求状况,发现顾客的潜在需求特征,幽默的性对开展广告和销售业务,例如,通过分析销售的数据记录,目前主要应用于销售预测,库存需要,零售点选择和价格分析,分析客户的购买行为和习惯,分析商场的销售商品的构成,使商品选择与搭配更为科学。

3.1.2医学应用

医学信息系统为医务人员收集大量的数据,通过对这些数据的挖据,分析病例和病人的行为特征,以及用于药方管理,对疑难病症的公关和研究,安排治疗方案,判断药方的有效性,预测医疗保险费用,结合数据挖掘,建立各种医疗数据模型,透过现象,将利于发现数据本质上的联系,推动医学研究的进展,例如,挖掘某些疾病之间的隐含关系,疾病和季节,环境以及地区和饮食的关系,研究人口分布,年龄构成和身体状况等特征,

26

山东师范大学硕士学位论文

有利于开展药品的销售,医疗设施的配置和医院的布局等,美国IMS公司在医药方面引入数据挖掘技术,可以帮助医生写医药处方,评价药品销售效果以及建立行为预测模型,英国的牛津移植中心也采用基于决策树方法的Knowledge Select辅助他们研究工作。

3.1.3金融投资

传统的股票分析软件一般由专家定期对股票交易预测,然而,人工的预测一般是根据自己的经验再结合对股票数据的分析得到的,所以很难对大量的数据进行分析,采用数据挖据技术,通过分析市场波动因素,建立预测模型,进行投资分析和预测,能够改进预测市场波动的能力,为投资者提供的科学依据。由于金融业中的数据相对比较完整,质量较高,因此,数据挖掘在这一领域的应用比较成熟,也取得较好的预期效果和经济效益。

金融投资决策建立在对数据分析的基础之上,数据挖掘技术通过对已有数据处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测,通过对信用欺诈建模和预测,风险评估,收益分析,帮助银行发现具有潜在价值的欺诈事件,开展欺诈侦察和其他金融犯罪行为的分析,在预防资金非法流失,侦查不寻常的信用卡的使用,确定极端客户的消费行为,在证券交易中,帮助股票预测,证券市场的分析,可以发现“利润超重”和“财务造假”等现象,避免遭受重大的经济损失。

3.1.4电信服务

电信业已经迅速从单纯的提供市话和长话服务演变成为提供综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件计算机和Web数据传输,以及其他数据通信服务。电信计算机网络、因特网和各种其他方式的通信和计算的融合是目前的大势所趋,而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉到用行为、更好的利用资源和提高服务质量是非常重要的。

3.1.5其它方面

在科学研究的计算科学中,数据挖掘技术能够帮计算机科学工作者分析大量的实验观测

27

山东师范大学硕士学位论文

数据。例如,数据挖掘技术应用在生物学中基因工程的研究上,银行或者商业中的欺诈行为会给银行及商业单位带来巨大的损失,利用数据挖掘技术能够总结正常行为和欺诈行为,减少欺诈的机会。随着计算机网络的普及,网络安全越来越受到人们的重视,网络入侵为网络上的信息、资源带来了严重的安全威胁。在众多入侵检测技术中,数据挖掘技术显示出其突出优点。基于数据挖掘的入侵检测系统具有智能性好、自动化程度高、检测效率高、自适应能力强、虚警率低等优势。

另外,数据挖掘技术在语音合成、客户关系管理、企事业部门等方面都有广泛的应用。

3.2关联规则的分类

关联规则的挖掘可根据挖掘对象的不同分为不同的类型。例如,根据分类标准的不同,可以将关联规则分为以下几类:

3.2.1.根据规则中所处的值的类型:

(1)如果规则考虑的是关联性是否存在,则它是布尔型关联规则。 (2)如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。

在这种关联规则中,项和属性的量化值划分为区间。基于关联规则中处理的变量的类别,关联规则可以分为两种:布尔型关联规则和多值关联规则。许多文献[35-38]都讨论了发掘布尔型关联规则问题BARP(Boolean association rules problem),它可以看作是发掘量化关联规问题QARP[39](quantitative association rules problem)的基础和特例,是在属性值为布尔量的关系表中寻找属性值为,“1”的属性之间的关系。由于日常工作中存在着众多的量化数据,布尔数据挖掘不能满足需要,为此Srikant R ,A grawalR 提出了量化关联规则的概念[40]。量化关联规则比较复杂,最简单的方法是将它转换为BARP。当全部属性的取值数量都是有限的时候,只需将每个属性值映射为一个布尔型属性即可。当属性的取值范围很宽时,则需将其分为若干区段,然后将每个区段映射为一个布尔型属性,文献[41]给出了挖掘量化关联规则的算法MAQA算法,对连续的数据离散化,划分为区间,然后用类似Apriori算法进行处理。然而区域划分的方法有显而易见的缺点,即容易忽略或则过分强调分区临界值附近点在分区中起的作用,即锐利临界值(sharp Boundary)问题,因此,国内外一些学者提出将模糊集理论引入到量化关

28