【原创】基于weka的数据挖掘技术在银行借贷需求分析中的应用 联系客服

发布时间 : 星期三 文章【原创】基于weka的数据挖掘技术在银行借贷需求分析中的应用更新完毕开始阅读177af37b443610661ed9ad51f01dc281e53a56fc

【原创】附代码数据

有问题到淘宝找“大数据部落”就可以了

基于weka的数据挖掘技术在银行借贷需求分析中的应用

摘要:数据挖掘就是通过分析存在于数据库里的数据来解决问题 在数据挖掘中计算机以电子化的形式存储数据并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式进而挖掘出潜在的有用的信息。本文用WEKA软件作为工具结合某银行实例数据对借贷需求的数据进行分析。

关键词:数据挖掘 关联规则 回归 聚类 weka

数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。在人工智能领域,习惯上又把数据挖掘称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。

数据集信息:

这些数据与葡萄牙银行机构的直接营销活动有关。营销活动基于电话。通常,如果产品(银行定期存款)(“是”)(“否”)被订阅,则需要与同一客户端多次联系。

属性信息:

输入变量:

#银行客户端资料: 1 - 年龄(数字)

2 - 工作:工作类型(分类:“管理员”,“蓝领”,“企业家”,“女佣”,“管理”,“退休”,“个体经营” '技术人员', '失业', '未知')

3 - 婚姻:婚姻状况(分类:“离婚”,“已婚”,“单身”,“未知”;注:“离婚”是指离婚或丧偶) 4 - 教育(分类:“基础”,“基础”,“基础”,“高中”,“文盲”,“专业课程”,“大学学历”,“未知”

5 - 默认值:默认值 (分类:'不','是','未知') 6 - 住房:有住房贷款 (分类:'不','是','未知') 7 - 贷款:有个人贷款 (分类:'不','是','未知') #与当前活动的最后一次联系相关:

8 - 联系人:联系方式(分类:'蜂窝','电话')

【原创】附代码数据

有问题到淘宝找“大数据部落”就可以了

9个月:最后一个联系月份(分类:'jan','feb','mar',...,'nov','dec') 10 - day_of_week:最后一个联系日(分类:'mon','tue','wed','thu','fri')

11 - 持续时间:最后一个联系人持续时间,以秒为单位(数字)。重要注意事项:此属性会严重影响输出目标(例如,如果持续时间= 0则y ='否')。然而,在执行呼叫之前,持续时间是不知道的。此外,在结束通话后,显然是已知的。因此,此输入仅应包括在基准目的中,如果意图具有现实的预测模型,则应将其丢弃。 #其他属性:

12 - 广告系列:在此广告系列和此客户端执行的联系人数量(数字,包括上一个联系人) 13 - pdays:客户上次联系之前通过的天数(数字; 999表示客户端以前未联系过) 14 - 以前:此广告系列和此客户端之前执行的联系人数(数字)

15 - poutcome:以前的营销活动的结果(分类:“失败”,“不存在”,“成功”) #社会和经济语境属性

16 - emp.var.rate:就业变动率 - 季度指标(数字)

17 - cons.price.idx:消费者价格指数 - 月度指标(数字) 18 - cons.conf.idx:消费者信心指数 - 每月指标(数字) 19 - euribor3m:euribor 3个月率 - 每日指标(数字) 20 - nr.employed:员工人数 - 季度指标(数字) A)

数据预处理:

在进行分类之前,为消除量纲的差别,首先对属性进行归一化处理。

【原创】附代码数据

有问题到淘宝找“大数据部落”就可以了

选择需要归一化的特征变量。 BFTree:

【原创】附代码数据

有问题到淘宝找“大数据部落”就可以了

选择分类中的BFTree决策树,测试选择采用十折交叉验证,10-folds cross-validation是指,将训练集分为10份,使用9份做训练,使用1份做测试,如此循环10次,最后整体计算结果。

分类评估选项中选择输出预测(output predictions)