通话数据分析模型 数学建模 联系客服

发布时间 : 星期三 文章通话数据分析模型 数学建模更新完毕开始阅读b2e29667783e0912a2162acb

通话数据的聚类分析问题

摘要

本文是针对通讯公司对其客户的通话记录,按照所给的数据对这些客户进行分类,并且为提供的新业务推荐首选人群,此外,还考虑该地的基站建设合理性问题,通过分析提出合理的建议。

对于问题一,对客户分类采用k-means聚类分析的方法,首先对客户进行初步分类,由于k-means算法对脏数字很敏感,因此,建立聚类有效性评价模型,根据有效性的两条指标——类内紧致性和类间的分离度,定义有效评价函数,由此得出最优的分类数为3,再次对客户进行分类,得到相应的结果。 类别 1 10,22,25,28,29,31,33,36,39,43,45,46,47,48,50,55,57,58,59,60,62,63,64,65,66,67,68,72,73,74,75,76,77,78,80,81,82,83,84,85,86,88,89,90,91,95,96,97,98,99,100,101,102,104,105,106,107,108,109,110,111,113,114,115,116,117,118,119,121~136,139,140,141,142,143,144,145,146,147,149,150,151,152,153,155,156,157,159,160,161,162,163,164,165,166,167,168,169,170,171,173,174,175,176,177,178,179,180,181,182,183,184,186~238,240,241,242,243,244,245,246,247,248,249,250,252,253,254,255,256,257,258,259,260,261,262,263,264,265,266,267,268,269,270,271,272,273,274,275,276,277,278,279,280,281,282,283,284,285,286,287,288,289,290,291,292,293,294,295,296,297,

298,299

2 3 3,4,6,7,8,9,11~24,26,27,30,32,34,35,37,38,40,41,42,44,49,51,52,53,54,56,61,69,70,71,1,2,5 79,87,92,93,94,103,112,120,137, 138,148,154,158,172,185,239,251,

300 用户

对于问题二,在问题一的基础之上,对已分类的客户的通话特点进行分析,将客户群划分为三类:优质客户群,潜在客户群和弱势客户群。针对不同的客户群,举例提出相应的新业务,优先考虑优质客户群,挖掘潜在客户群,调动弱势客户群的积极性。

对于问题三,考虑基站的密集度和通话时间和次数的关系,在密集度较大的地区适当增加基站数目,通过合理性分析和实际情况分析,得出结论:15 1 27 11 22 28 30 29基站周围应新设的基站数分别为2 1 1 6 4 6 7 10。

关键词:k-means 聚类有效性评价 紧致性和分离度 密集度

1

一、 问题重述与分析

通信公司通常根据客户现有的通话记录来制定合理的决策,进而改善通信设施、拓

展新的通信业务,从而获得最大的利润。电信企业一般从三个方面区别于竞争对手并获得竞争优势:价格、业务和客户服务。随着市场的开放,客户的选择增加,对市场的认识也加深了,他们更希望作为一个独立的个体被认识和理解,越希望企业更好的理解和满足他们的需要,为他们提供个性化的服务。因此,建立以客户为中心的营销服务体系是各企业的必然选择,提供既能留住老客户又能吸引新客户的决策信息则要求企业要实施客户细分[1]。

问题一要求根据一家通信公司的2009年6月某地的300个用户10天内的通话记录来对用户进行分类。考虑到通信企业营销的最终目的是在成本最低的情况下获得最大的收益,且用户的主叫和被叫次数,通话时间的长短都会影响到公司的利润。因而用SPSS对通话数据进行分析和统计,得到每个用户在十天内被叫者与主叫者次数之比,平均每天通话的总时间以及平均每天的通话次数。将这三个指标作为划分客户的依据,对300个用户进行聚类分析,再从样本之间的紧致度和分离度出发,建立聚类有效性评价模型, 对选择的阈值给出有效性评价,从而确定最佳分类,得到合理的分类方案。

问题二要求合理的选择部分用户作为新业务的首推人选。在问题一的基础上,对已经分好类的用户的通话情况进行分析,对其赋予合理的社会身份,分析适合这类人群的通信业务,从而将业务和相对应人群一一对号入座。

问题三要判断该地的通信设施建设是否合理,并给出合理的建设建议。

二、 符号说明

表2.1 基本符号说明

符号 n k X 描述 用户总数 分类总数 对每个用户进行分类的通话数据指标的总集合 第j个用户的通话数据指标矩阵,j?1,2,...,n 第i类中对每个用户进行分类的通话数据指标的总集合 xj Xi ni V Xi中用户的个数,i?1,2,...,k 所有指标的聚类中心点总集合 第i类中所有指标的聚类中心 阈值 聚类矩阵,由xj和Xi的成员关系组成 ?i ? U

2

三、 基本假设

1、 不考虑这300个用户在10天内的呼叫转移次数和时间,即用户之间不存在呼叫转

移;

2、 假设这300个用户在10天内的通话数据具有代表性;

3、 假设每个用户之间的通话次数和时间是独立的,不受其他因素的影响; 4、 数据中通话时间为-9和-24是不合理的数据,在统计分析时可舍弃; 5、 假设图中所标出的基站是这个地区的所有的基站; 6、 假设不考虑用户通话的国际国内的长途漫游资费; 7、 假设所有基站的设备性能均相同。

四、 模型建立与求解

4.1问题一

4.1.1模型的建立

对用户的分类采用k-means聚类算法[2],具体思想可用下式描述:

MinimizeJ(X,U,V)???uij||xj??i||2,…………………………………(4.1.1)

i?1j?1kn其中,n是给定数据集中的数据个数,k是聚类个数。

X?{x1,x2,...,xn}?Rs是给定的数据集, V?{?1,?2,...,?k}?Rs是类中心点。用X1,X2,...,Xk表示k个类,ni表示Xi中数据个数,U?(uij)k?n是聚类矩阵,由xj和Xi的成员关系组成,d(x,y)?||x?y||,x,y?Rs是一个距离函数(例如,欧几里得距离)。为了极小化J(X,U,V),类中心点?i(i?1,2,...,k)和成员关系矩阵U需要用以下的迭代公式逐步计算:

?1;||xj??i||?||xj??h||,h?1,2,...,k,h?i,……………………………(4.1.2) uij???0;else而

n?i??uxijj?1nj?ijxj?Xi?xnij,………………………………………………………(4.1.3)

?uj?1通过某些方法(如随机抽取) 初始化类中心点,然后通过方程式计算成员关系矩阵,(4.1.3)的迭代过程: uij(i?1,2,...,k,j?1,2,...,n)。K-means算法就是基于(4.1.2)

Vt?1?Ut?Vt,直到||?t??t?1||??。其中?是给定终止条件。最终的聚类结果通过成员

3

关系矩阵确定,即如果uij?1,则说明xj(j?1,2,...,n)属于类Xi(1?i?k)。

实际问题中得到的数据样本都是未知的,k-means聚类分析中主要关心的两个问题是最佳聚类个数的确定和所做的聚类能在多大程度上反映数据的内在结构,即聚类的有效性问题。提出有效性的标准的最终目的是使分类结果达到类内紧密,类间远离[2],为此,在样本之间的紧密度和分离度的基础之上,建立聚类有效性评价模型[3]。

紧致度定义为:

1Intra_dis?ni?||xj?1ni(i)j??(i)||2。……………………………………………(4.1.4)

Xi类的聚类中心为:

1?i?ni?xm?1niml,l?1,2,...,k.……………………………………………………(4.1.5)

紧致度表现为样本方差,方差越小,样本间的波动越小,亦即类内之间的样本紧密程度就越高。

分离度定义为:

Inter_dis?||x(i)??||2。……………………………………………………(4.1.6) 其中?为所有指标的聚类中心,即

1n???xjl,l?1,2,...,k.……………………………………………………(4.1.7)

nj?1分离度反映了不同类之间的差异性。

分别将紧致度和分离度除以相应的权值,以降低类数对有效性评价的影响,然后用分离度和紧致度进行比较,以获取做大的评价值,建立的聚类有效性评价模型为:

F??Inter_dis/(k?1)?Intra_dis/(n?k)i?1i?1kk。………………………………………………(4.1.8)

有上式可以看出,F值综合反映了每个变量的类内紧密程度和类间分散程度,其值越大,说明类与类之间的距离越大,亦即类与类之间的差异越大,分类就越好,对应F值最大的阈值?就为最佳阈值,其所对应的分类即为最佳聚类效果。其中1?k?n,由于所有样本各自成类或全部并成一类,实际上只有n?2个方案可供选择。 4.1.2模型求解

首先对所给的数据进行统计,计算出每位客户的平均每天的主叫时间,主被叫次数和被叫和主叫次数之比如下表:

表4.1初步统计表

客户编号

平均每天主平均每天主叫时间(102) 被叫次数 4

被叫/主叫(×10)