数据挖掘作业 联系客服

发布时间 : 星期四 文章数据挖掘作业更新完毕开始阅读e135c4ec1a37f111f1855baa

第一章:简述数据挖掘技术及数据挖掘步骤

一.数据挖掘技术

1.数据挖掘的概念

(1)数据挖掘 (从数据中发现知识)

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。

数据挖掘的替换词:

数据库中的知识挖掘(KDD),知识提炼,数据/模式分析,数据考古,数据捕捞、信息收获等等。

(2)数据挖掘定义

数据挖掘利用人工智能、机器学习、模式识别、统计学和数据库系统,从大量数据中提取人们感兴趣的知识过程,是一门学科知识融合的交叉学科。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的过程。

它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。 2. 数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 (1)自动预测趋势和行为 (2)关联分析 (3)聚类 (4)概念描述 (5)偏差检测 3. 数据挖掘的分类 (1) 数据类型

A:关系数据库 B:面向对象数据库 C:文本数据 D:多媒体数据 E:异构数据 F:WWW数据 (2) 知识类型

A:关联挖掘 B:序列模式挖掘 C:聚类挖掘 D:分类挖掘 E:孤立点挖掘 F:概化挖掘 G:预测挖掘 (3) 挖掘方法

A:机器学习:归纳学习、基于实例学习、逻辑推理; B:统计方法:回归分析、判别分析、聚类分析; C:公式发现器:寻找与发现连续属性之间的关系; D:可视化技术:对数据的分布规律进行可视化显示; E:仿生物技术:神经网络、遗传算法、支持向量机等等。

4.数据挖掘可发现的知识

(1)广义型知识:事物共同性质的知识; (2)特征型知识:反映事物各方面的知识; (3)差异型知识:事物之间属性的差别; (4)关联性知识:事物之间的依赖关系; (5)预测型知识:由过去和现在预测未来;

(6)偏离型知识:揭示事物偏离常规的异常现象。

二.数据挖掘步骤

1.问题定义

确定对何种知识感兴趣,明确实际工作对数据挖掘的要求,给出比较合理的学习挖掘算法。在问题确定时,要充分了解所提供的数据量是否足够,所要挖掘的知识是否有意义等。

问题定义决定了挖掘的目的和数据范围。 2.数据准备

(1)数据收集:根据挖掘的知识需要把相关数据进行收集和管理,得到有用的数据资源;

(2)数据预处理:消除噪声数据,弥补推导计算缺值的数据,消除冗余的数据或记录,完成数据类型的转换等。 3.实施挖掘

用给定的算法对所挖掘的数据对象实施操作。 选择算法时考虑两个因素:

A:对不同的数据采用不同的算法;

B:按照用户或实际系统的要求来进行挖掘。 4.结果解释与评价

对所挖掘的结果作进一步的分析,通过评估消除冗余的结果,评价是否满足用户或原定的要求,或通过可视化等方式,把结果转化为人所理解方式来表示,若不满足要求,需要重新选择算法,重新挖掘。

如果挖掘出的规律或知识不满足要求,需要由专家来评价,造成失败的原因。

第二章:数据仓库定义,数据仓库的特点

1 什么是数据仓库

数据仓库是一个“面向主题的”,完整的,非易失的,不同时间的用于支持决策管理的数据集合,用于支持经营管理中的决策制定过程。

2 数据仓库的特点

(1) 数据仓库是面向主题的

数据仓库系统是相对数据库系统而言的,数据库系统是事件驱动、面向应用的;数据仓库系统则是面向主题的。对于银行来说,客户是个永恒的主题,要研究客户的消费行为和心理,就要对客户进行各种分类,以此解决哪些客户的信用好,哪些客户的风险较大,等等诸如此类的问题就是一个主题。 (2) 数据仓库是集成的

不同的应用程序设计者设计的程序,可能有许多方面的不同,如数据编码、命名、习惯等。因此,原始数据进入数据仓库之前,必须经过加工与集成。首先要统一原始数据中所有不一致的地方,如字段的同名异义、异名同义、单位不统一、字长不统一等,还要将原始数据结构从面向应用转换为面向主题。 (3) 数据仓库是非易失的

由于数据仓库保存的数据是反映历史的,因此对其操作只有两种,分别为数据载入、数据访问。

数据仓库只有经过长时间之后,才会有老化数据的清除等问题的出现。 (4) 数据仓库是随时间变化的

数据仓库随时间不断地增加新的数据,不断将当前最新的操作型数据统一集成到数据仓库中。并且数据仓库内的数据一旦被载入,就不能修改。 一般的操作性环境中的数据只保持60-90天,虽然数据仓库内的数据在很长的时间(5-10年)不发生变化。但是,数据仓库中必须包含反映时间的属性。 (5)数据量巨大 (6)软硬件要求高

第三章:举例分析多层关联规则与多维关联规则

1.举例分析多层关联规则

多层关联规则是这样一些规则,它们涉及多个抽象层中的项。

多层关联规则对于许多应用,由于多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现的强关联规则可能提供普遍意义的知识。然而,对一个用户代表普遍意义的知识,对另一个用户可能是新颖的。这样,数据挖掘系统应当提供一种能力,在多个抽象层挖掘关联规则,并容易在不同的抽象空间转换。

让我们考察下面的例子。

例 假定给定表 1 事务数据的任务相关数据集,它是 AllElectronics 分店的计算机部的销售数据,对每个事务 TID 给出了购买的商品。商品的概念分层在图 1 给出。概念分层定义了由低层概念到高层更一般的概念的映射序列。可以通过将数据内的低层概念用概念分层中的其高层概念(祖先)替换,对数据进行泛化21。图 1 的概念分层有 4 层,记作 0, 1, 2 和 3 层。为方便计,概念分层中的层自顶向下编号,根结点 all (最一般的抽象概念)为第 0 层。因此,第 1 层包括 computer,software, printer 和 computer accessory,第 2 层包括 desktop computer, laptop computer, educationsoftware, financial management software, ...,而第 3 层包括 IBM desktop computer,..., Microsoft educationsoftware,等等。第 3 层是该分层结构的最特定的抽象层。概念分层可以由熟悉数据的用户指定,也可以在数据中蕴涵存在。

表1 任务相关数据 D TID 购买的商品 T1 T2 T3 T4 T5 ?? IBM desktop computer, Sony b/w printer Microsoft educationsoftware, Microsoft finacial management software Logitech mouse computer accessory, Ergo-way wrist pad computer accessory IBM desktop computer, Microsoft finacial management software IBM desktop computer ??

表1中的项在图 1 概念分层的最低层。在这种原始层很难找出有趣的购买模式。例如,如果“IBM desktop computer”和“Sony b/w (黑白) printer”每个都在很少一部分事务中出现,则可能很难找到涉及它们的强关联规则。很少人同时购买它们,使得“{ IBM desktop computer, Sony b/wprinter }”不太可能满足最小支持度。然而,考虑将“Sony b/w printer”泛化到“b/w printer”。在“IBM desktop computer”和“b/w printer”之间比在“IBM desktop computer”和“Sony b/w printer”可望更容易发现强关联。类似地,许多人同时购买“computer”和“printer”,而不是同时购买特定的“IBM desktop computer”和“Sony b/w printer”。换句话说,包含更一般项的项集,如“{ IBM desktopcomputer, b/w printer }”和“{ computer, printer }”,比仅包含原始层数据的项集,如“{ IBM desktopcomputer, Sony b/w printer }”,更可能满足最小支持度。因此,在多个概念层的项之间找有趣的关联比仅在原始层数据之间更容易找。

由具有概念分层的关联规则挖掘产生的规则称为多层关联规则,因为它们考虑多个概念层。

2.多维关联规则

我们知道蕴涵单个谓词,即谓词 buys 的关联规则。例如,在挖掘 AllElectronics数据库时,我们可能发现布尔关联规则“IBM desktop computer ? Sony b/w printer”,它也可以写成

buys(X,”IBM desktop computer”) ? buys(X,”Sony b/w printer”) (1)

其中,X 是变量,代表在 AllElectronics 购物的顾客。沿用多维数据库使用的术语,我们把每个不同的谓词称作维。这样,我们称规则(1)为单维或维内关联规则,因为它们包含单个不同谓词(即,buys)的多次出现(即,谓词在规则中出现多次)。

然而,假定不是使用事务数据库,销售和相关数据存放在关系数据库或数据仓库中。根据定义,这种存储是多维的。例如,除记录购买的商品之外,关系数据库可能记录与商品有关的其它属性,如购买数量,或价格,或销售分店的地址。另外,关于购物顾客的信息,如顾客的年龄、职业、信誉度、收入和地址等也可能存储。将数据库的每个属性或数据仓库的每个维看作一个谓词,这样就能挖掘多维关联规则,如

age(X,”20…29”) ∧occupation(X,”student”) ?buys(X,”laptop”) (2)

涉及两个或多个维或谓词的关联规则称为多维关联规则。规则(2)包含三个谓词

(age,occupation 和 buys),每个在规则中仅出现一次。因此,我们称它具有不重复谓词。具有不重复谓词的关联规则称作维间关联规则。我们也对挖掘具有重复谓词的关联规则感兴趣。这种规则包含某些谓词的多次出现,称作混合维关联规则。这种规则的一个例子是规则(3),其中谓词 buys 是重复的。

age(X, “20...29”) ∧ buys(X, “laptop”) ? buys(X, “b/w printer”) (3)