数据挖掘CHAPTER10数据挖掘应用和发展趋势 联系客服

发布时间 : 星期二 文章数据挖掘CHAPTER10数据挖掘应用和发展趋势更新完毕开始阅读bfc009ed5ef7ba0d4a733b53

除了在网上商店散发广告外,将来还可以在数字电视和在线图书以及报纸上提供广告。

这些广告是通过客户个性信息和统计信息为某些特定的用户或用户组专门设计的。 明确数据挖掘只是集成解决方案的一项内容是很重要的,其它还有数据清洗和数据集成,OLAP,用户安全,库存和订单管理,产品管理等等。

10.4.2数据挖掘只是经理的事还是每个人的事?

数据挖掘在帮助公司经理理解市场和商业上面作用很大,但是,“数据挖掘只是经理的事还是每个人的事?”随着越来越多的数据可以从网上或者你自己的磁盘上得到,在日常工作或生活中,利用数据挖掘来理解你访问的数据并从中受益是可能的。而且,随着时间的推移,会出现更多的数据挖掘系统,它们功能更强,用户界面更加友好并且更加多才多艺。因此,每个人都具有使用数据挖掘的需求,并且具有使用他们的手段是可能的,换句话说,数据挖掘不可能一直只被由经理和商业分析者组成的传统知识分子使用,每个人都将可以得到它。

“我在家里用数据挖掘能做些什么呢?”,数据挖掘能具有很多个人用处。例如:你可能想挖掘你们家的医学史,确定出和遗传有关的医学条件的模式,比如癌症和染色体变异,这些知识能帮助你决策你的寿命和健康状况;将来,你可能挖掘和你打过交道的公司的记录并且评价他们的服务,在此基础上选择最好的公司进行合作;你可以用基于内容的文本挖掘来查找你的E-mail消息,或者自动地创建分类来管理你收到的消息;你可以通过挖掘股票或公司的业绩来辅助你进行投资;其它的例子包括通过挖掘网上商店来找出最好的交易项目或最好的休假方式。这样,当数据挖掘走出低谷,变得更加普通,有更多的个人计算机和网上数据,数据挖掘将被普通大众所接受,并最终成为每个人手中的工具。

“那么,在使用数据挖掘之前我必须理解数据挖掘系统和数据挖掘算法的内容么?”,就象电视、计算机、办公软件一样,我们希望用一种用户友好的数据挖掘工具,而不需太多的培训。而且将会有更多的智能软件隐含地把数据挖掘作为他们的功能部件,例如:智能网上搜索引擎,适应用户的网上服务,智能数据库系统,协同查询应答(cooperative query answering)系统,e-mail管理器,日历管理器,售票系统,等等,他们可以把数据挖掘模块作为他们内部的模块,用户根本感觉不到它的存在。数据挖掘的这种隐含的应用叫做不可见的数据挖掘(invisible data mining)。期望将来不可见数据挖掘能成为普通大众执行有效数据挖掘的重要的手段。

10.4.3数据挖掘对隐私或数据安全构成威胁么?

随着越来越多的信息以电子形式或从网上得到,并且有越来越多的数据挖掘工具开发出来并投入使用,我们可能想知道,“数据挖掘对隐私或数据安全构成威胁么?”数据挖掘和其它任何一种技术一样,它的应用有好的一面也有坏的一面。因为数据挖掘揭示不容易发现的模式或各种知识,如果不正确使用的话它可能对隐私和信息安全构成威胁。

有些消费者为了使公司的服务更好地满足他们的需求,不介意给公司提供个人信息,例如,购物者如果能得到打折回报的话,他们将很乐意在地区超市的荣誉卡上签字。

如果你停下来想一下,记录了多少关于你的信息,这些信息都说了些什么?每次在你使用信誉卡、赊帐卡(debit card)、超市荣誉卡、宣传卡(frequent flyer card),或申请这些卡的时候,当你在网上冲浪、回答网上新闻组、订阅杂志、租影碟、参加俱乐部、或考试登记表、填写新生儿信息、付药方费用的时候,或者看病时提供你的医疗卡的时候,关于你的个

人信息就会被公司收集到。很明显,收集信息很容易,并不局限于通过零售活动来进行,它可以反映出用户的爱好,财力,医疗,和保险数据。下次做上面类似的事情的时候,可以仔细想一想,你可能有被人监视的感觉。

如10。4。1节所描述的,个人数据的收集证明对企业和消费者有利,但也有被误用的问题。如果这些数据用作其它的目的,例如:可帮助保险公司根据你购买的食物来确定你的脂肪消费水平?超市可以用荣誉卡来指证一个跌跌撞撞的购物者为酗酒者(基于他购买的酒的数量)。这些例子只是用来说明客户不经意泄漏的数据可能反过来对他本人构成侵害。

考虑上述问题的时候,你可能想知道:

? “我什么时候给公司提供过我自己的信息,这些数据会被用于了我所不希望用到的

地方吗?”

? “这些数据被卖给别的公司了吗?”

? “我能发现记录的关于我的信息是什么吗?” ? “我怎么能知道哪个公司有关于我的信息?”

? “我有权利和方法拒绝公司使用我的个人数据吗?”

? “有什么手段可以修改我的个人数据中的错误?如果我想删除,完善,增补或更新

数据怎么办?”

? “关于我的信息可以“匿名化”,或者可以跟踪处理吗?” ? “怎样保证数据的安全”

? “公司如何对收集到的数据负责,如果丢失或误用怎么办呢?”

这些问题没有简单的答案。有关的国际性准则,著名的公平信息实践(fair information practices),就是专注数据隐私保护,它涵盖了数据收集,使用,质量,开放,个体参与(individual participation),责任等方面内容,它包含下列原则:

? 目的说明和使用限制 收集数据的时候必须指定数据的使用目的,不能超出此目

的范围使用数据。数据挖掘是一种典型的使用收集到的数据另做它用的行为。有人提出过这样的建议,即对允许用于数据挖掘的数据附加一个“放弃”的申明,但因为意图过于暴露而未被广泛接受。由于数据挖掘具有的暴露本质(exploratory nature),不可能知道什么模式该发掘,什么不该挖掘;因此如何使用数据挖掘没有什么确定性。

? 开放性:人们有权利知道关于他们的什么样的信息被收集了,由谁来访问数据,

以及数据怎样使用。

“那么,考虑这些问题的可能的解决方案是什么?”公司应该提供给用户多种选择,允许用户指定他们个人数据的使用限制,比如:(1)消费者的信息不允许用于数据挖掘;(2)消费者数据能用于数据挖掘,但可以识别用户的信息或者可以导致识别用户的信息被泄漏的信息应该删掉;(3)数据只能用于内部数据挖掘;(4)数据可用于内部或外部数据挖掘;公司应该给用户积极的承诺,允许用户在他们的数据用于第二目的时进行选择,最好用户可以用免费的号码或者进入公司站点进行选择,可以对他们个人的数据进行访问。

“数据安全性怎样?”数据库系统最初曾遭到反对,因为在大型在线数据存储系统中,很多个人的数据面临着安全的威胁,许多数据安全增强技术(data security-enhancing techniques)因此而得以发展。尽管“黑客入侵”时有发生,但鉴于数据库管理系统带来的实惠,人们对数据的安全性比较放心,这样的数据安全增强技术同样可以用于数据挖掘中的匿名信息和隐私保护,这些技术包括盲签名(建立在公共密钥加密基础上),生物加密(人的肖像和指纹用于加密个人数据),匿名数据库(anonymous databases)(允许不同的数据库联合,但是只有那些需要访问数据库的人才可以访问数据库,个人信息被加密存储在不同的地方)。

数据挖掘可能对人们的隐私和数据安全构成威胁,然而,就像我们所看到的一样,为防止收集的数据误用已经提出了很多解决方案。而且,数据库系统中的数据安全增强技术也可以用在数据挖掘中,来保证收集到的数据或挖掘出来的数据的安全。虽然有些当今的数据挖掘技术有可能走不出低谷,但是鉴于对这种技术的强大的需求,数据挖掘肯定会成功的。随着公司和消费者的不断的共同努力,找到更多的保护数据隐私和安全的解决方案,数据挖掘一定能给我们带来更多的利益,可以节约我们的时间和金钱,并发现新的知识。

10.5 数据挖掘的发展趋势

鉴于数据,数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。数据挖掘语言的设计,高效而有效的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究人员,系统和应用开发人员所面临的主要问题。本节描述一些数据挖掘的发展趋势,它反映了面对这些挑战的应对策略。

应用的扩展:早期的数据挖掘应用主要集中在帮助企业提升竞争能力。随着数据挖掘的日益普及,数据挖掘也日益扩展其应用范围,如生物医学,金融分析,和电信等领域。此外,随着电子商务和电子市场逐渐成为零售业的主流因素,数据挖掘也在不断扩展其在商业领域的应用面。通用数据挖掘系统在处理特定应用问题时有其局限性,因此目前的一种趋势是开发针对特定应用的数据挖掘系统。

可伸缩的数据挖掘方法:与传统的数据分析方法相比,数据挖掘必须能够有效地处理大量数据,而且,尽可能是交互式的。由于数据量是在不断地激增,因此针对单独的和集成的数据挖掘功能的可伸缩算法显的十分重要。一个重要的方向是所谓基于约束的挖掘(constraint-based mining),它是致力于在增加用户交互的同时如何改进挖掘处理的总体效率。它提供了额外的控制方法,允许用户说明和使用约束,引导数据挖掘系统对感兴趣模式的搜索。

数据挖掘与数据库系统,数据仓库系统,和Web数据库系统的集成:数据库系统,数据仓库系统,和WWW已经成为信息处理系统的主流。保证数据挖掘作为基本的数据分析模块能够顺利地集成到此类信息处理环境中,是十分重要的。如在4。4节所述,数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。事务管理,查询处理,联机分析处理,和联机分析挖掘应集成在一个统一框架中。这将保证数据的可获得性,数据挖掘的可移植性,可伸缩性,高性能,以及对多维数据分析和扩展的集成信息处理环境。

数据挖掘语言的标准化:标准的数据挖掘语言或其它方面的标准化工作将有助于数据挖掘的系统化开发,改进多个数据挖掘系统和功能间的互操作,促进数据挖掘系统在企业和社会中的教育和使用。近期在这方面的工作包括Microsoft’s OLE DB for Data Mining(附录A提供了这方面的介绍)。其它工作见4。2。7的讨论。

可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。系统研究和开发可视化数据挖掘技术将有助于推进数据挖掘作为数据分析的基本工具。

复杂数据类型挖掘的新方法:如第九章所述,复杂数据类型挖掘是数据挖掘中一项重要的前沿研究课题。虽然在地理空间挖掘,多媒体挖掘,时序挖掘,序列挖掘,以及文本挖掘方面取得一些进展,当它们与实际应用的需要仍存在很大的距离。对此需要进一步的研究,尤其是把针对上述数据类型的现存数据分析技术与数据挖掘方法集成起来的研究。

Web挖掘:Web挖掘的有关问题在9。6节讨论过。由于Web上存在大量信息,并且Web在当今社会扮演越来越重要的角色,有关Web内容挖掘,Weblog挖掘,和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。

数据挖掘中的隐私保护与信息安全:随着数据挖掘工具和电信与计算机网络的日益普及,数据挖掘要面对的一个重要问题是隐私保护和信息安全。需要进一步开发有关方法,以便在适当的信息访问和挖掘过程中确保隐私保护与信息安全。

10.6 总结

?针对特定领域的应用人们开发了许多专用的数据挖掘工具,这包括生物医学,DNA分析,金融,零售业,和电信。这些实践将数据分析技术与特定领域知识结合在一起,提供了满足特定任务的数据挖掘解决方案。

?在过去10年中,开发了许多数据挖掘系统和产品。选择一个满足自己需要的数据挖掘产品,重要的一点是要从多个角度考察数据挖掘系统的各种特征。这包括数据类型,系统问题,数据源,数据挖掘的功能和方法,数据挖掘系统与数据库或数据仓库的紧耦合,可伸缩性,可视化工具,和图形用户界面。

?可视化挖掘集成可数据挖掘和数据可视化技术,用于从大量数据中发现隐含的和有用的信息。可视化数据挖掘的形式包括数据可视化,数据挖掘结果的可视化,和数据挖掘过程可视化。音频数据挖掘使用音频信号来指明数据挖掘结果的数据模式和特征。

?针对数据分析已经提出了几种完善的统计方法,如回归,广义线形模型,回归树,方差分析,混合效应模型,因素分析,判别式分析,时序分析,幸存分析,和质量控制。覆盖所有的统计数据分析方法超出本书范畴,感兴趣的读者可参考文献注解中引用的统计文献,可作为统计分析工具的基础。

?一些研究人员已在致力于建立数据挖掘的理论基础。这方面已经提出了一些有意思的成果,包括数据归约,模式发现,概率理论,数据压缩,微观经济,和归纳数据库。

?智能查询应答采用数据挖掘技术来分析用户查询的意图,提供与查询相关的概化和关联信息。这扩展了查询处理系统的能力和可用性。

?一种新技术如数据挖掘要得到认可,需经过一个生命周期,这中间通常包含一个沟坎,它表示了这种技术在成为主流技术之前必须面对的挑战。

?数据挖掘所带来的一种社会影响是有关隐私和信息安全的问题。Opt-out策略是一种有关数据隐私保护的方法,它允许用户说明使用个人数据的限制条件。数据安全增强技术可以出于安全和隐私的考虑,将信息匿名化。

?数据挖掘发展趋势包括了需进一步研究的新应用的扩展,和处理复杂数据类型的新方法,算法的可伸缩性,基于约束的挖掘,和可视化方法,数据挖掘与数据仓库和数据库系统的集成,数据挖掘语言的标准化,以及数据隐私保护与安全。

习题

10.1 给出一个未在本章论及的数据挖掘应用的例子。讨论在此应用中如何使用各种不同的

数据挖掘方法。

10.2 假设要在市场上购买一个数据挖掘系统。

(a) 考虑数据挖掘系统与数据库和/或数据仓库系统耦合方式,试述无耦合,松耦

合,半紧耦合,紧耦合之间的区别。

(b) 行可伸缩性和列可伸缩性之间的区别是什么? (c) 当选择一个数据挖掘系统时,在以上列出的诸多特征中,哪些是你要关心的? 10.3 考察一个现存的商品化数据挖掘系统。从多个不同角度来看,分析这一系统的主要特