数据挖掘模拟试题(二) 联系客服

发布时间 : 星期日 文章数据挖掘模拟试题(二)更新完毕开始阅读93e129da6f1aff00bed51ef1

数据挖掘模拟题B

一、选择题

1. 下列数据挖掘任务中,哪些属于非定向数据挖掘任务(D) A 分类

B 回归

C 预测 D 聚类

2. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。

A 分类 B 预测 C 组合或关联法则 D聚类 3.数据挖掘技术包括三个主要的部分 ( C ) A.数据、模型、技术 B.算法、技术、领域知识

C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识 4.在有指导的数据挖掘中,有关测试集的说法错误的是(A) A. 测试集和训练集是相互联系的 B. 测试集是用以测试模型的数据集 C. 通常测试集大约占总样本的三分之一

D. K-次交叉验证中,测试集只有 1 个,训练集有K-1个。 5.在ID3算法中信息增益是指( D ) A.信息的溢出程度 B. 信息的增加效益 C .熵增加的程度最大 D. 熵减少的程度最大

6. 下面关于时间系列分析与回归分析的关系中,错误的是( D )

A 时间序列分析方法明确强调变量值顺序的重要性,而回归分析方法则不必如此 B 时间序列各观察值之间存在一定的依存关系,而回归分析一般要求每一变量各自独立

C 时间序列分析根据序列自身的变化规律来预测未来,而其它统计分析则根据某一变量与其它变量间的因果关系来预测该变量的未来

D 时间序列分析就是以时间变量为自变量、时间序列为因变量的回归分析。 7. 在利用D.W.检验回归自相关性时,下列叙述错误的是( D ) A 当D.W.?2时,如果DW..?dL,认为B当D.W.?2时,如果DW..?dU,认

ui存在正自相关 ui无自相关 ui存在负自相关

C 当D.W.?2时, 如果4?DW..?dL,认为D D.W.?2时,如果4?DW..?dU,认为

ui正自相关

8. K—均值类别侦测要求输入的数据类型必须是( B )。

A整型 B数值型 C字符型 D逻辑型 9. 下列说明错误的是( C )

A 性别=“男”=> 职业=“司机”,是布尔型关联规则 B 性别=“女”=> avg(收入)=2300,是一个数值型关联规则 C 肝炎=> ALT(丙氨酸转氨酶)升高,是一个单层关联规则 D 性别=“女”=> 职业=“秘书”,是多维关联规则。 10.归分析的下列说法中错误的是( D )

A 作回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。

B 在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量x都是符合总体正态的随机变量。

C 回归直线不要随意外延

D 所有非线性回归都可以转化为线性回归

二、填空题

1. 预测模型成功应用的三个假定分别是 (过去是将来的预言家) ( 数据是可以获得的)和 ( 数据中应包括我们的预期目标)

2. 使用无监督的数据挖掘方法必须(人机交互)

3.在利用SQL SERVER 2005进行数据挖掘时,( 键)是一个唯一确定每个事例的属性

4. 利用最小二乘法进行参数的估计时,要求满足的假设条件有(随机扰动项是一个随机变量)(随机扰动项的均值为零)(随机扰动项的方差为常量)(随机扰动项相互独立)(随机扰动项与自变量无关) 5. 确定性时间序列分析就是设法消除随机型波动,拟合确定性趋势,因而形成了(长期趋势分析)(季节变动分析)和(循环变动测定)等一系列确定性时间序列分析方法。 6. 人脑中的神经网络是一种高度(并行)的(非线性)信息处理系统。 7. 神经网络的结构特征包括(并行式处理)(分布式存储)(容错性) 8. 单层感知器的局限性是(仅对线性可分问题具有分类能力)

9. 神经网络如何学习包括(有导师学习)(无导师学习)(死记式学习)三种方式 10. 置信度(confidence)P(A?B)等于(P(B/A))

11 聚类分析中,相似或相似的描述是基于数据描述属性的取值来确定的,常常用(距离)来表示。

三、问答题(答案略)

1. 数据仓库和数据库有何不同?它们有那些相似之处?

2. 举例说明在进行数据挖掘时如何选择及综合利用决策树、聚类分析、关联分析、神经网络、回归与时序数据挖掘技术。

3.数据挖掘可以在何种数据上进行? 4.简述怎样填充空缺值? 5.简述有损压缩和无损压缩。

6.简述直线回归与直线相关的区别与联系。 7.叙述k-means法的聚类过程,指出它的优缺点。

8.ARIMA预测模型由哪几个子预测模型构成?应用ARIMA时对数据有哪些基本要求? 9.BP神经网络的主要原理是什么? 10.举例说明Apriori算法的优化方法 11.简述聚类分析数据的处理方法

12. 简述判别分析的概念,与聚类分析的联系与区别是什么? 13.简述利用SQL SERVER 2005进行聚类分析时如何解释模型

四、分析计算题(答案略)

1. 为什么说强关联规则不一定都是有趣的,举例说明。

2.Apriori的一种变形将事务数据库D中的事务划分为几个不重叠的部分。证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。 3.利用下列数据进行分析 编号 肾重(克) 心重(克) 1 333 271 2 357 439 3 361 328 4 305 326 5 269 276 6 340 305 7 369 404 8 312 262 9 268 255 10 354 350 请用以上数据:

(1) 建立肾重(x)对心重(y)的预测回归方程? (2) 求回归系数的95%置信区间。

4. 某医院在对某单位职工的冠心病普查中,欲研究冠心病与眼底动脉硬化的关系,资料如下表。问两者之间是否存在线性趋势关系?

某单位职工冠心病与眼底动脉硬化普查结果

眼底动脉硬

冠 心 病 诊 断

合 计

化级别

0 Ⅰ Ⅱ Ⅲ 合计

正常 340 73 97 3 513

可疑 11 13 18 2 44

冠心病 6 6 18 1 31

357 92 133 6 588

5.据下表资料分析新旧剂型与测量时间对血药浓度的影响。

16名受试者服药后的血药浓度(μmol/L) 旧剂型 编0小号 时 90.51 3 88.42 3 100.3 01 46.34 2 73.65 9 105.6 27 86.37 2 06 5 15 7 66.3 16 2 27 06 01 115.33 129.55.29 33 121.1 78.970.24 14 9 85.202 110.96 126.69.47 96 126.2 75.083.66 13 2 53.67 110.3 138.45.44 33 138.5 70.060.89 12 1 56.375 75.275 96.347.52 75 126.6 48.939.54 11 80 80.054 104.33 114.65.61 17 144.5 86.080.01 10 7 105.3 120.6 136.84.03 12 163.4 48.971.77 9 3 57.37 78.417 83.148.34 时 142.时 65.573.28 8 3 68.48 95.212 133.56.90 时 时 70.5时 97.3时 112.58.50 时 4小8小12小编号 0小4小8小12小新剂型 6. 下表是对24个菌株用气相色谱法测得的12种脂肪酸的百分含量(X1~X12),试用系统聚类中的最大相似系数法将下表中的变量聚类;用系统聚类中的类平均法和k-means法分别将表中的样品分成3类,