基于聚类算法的通信运营商代理渠道分群研究
Posted 上海交通大学计算机科学与工程系
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于聚类算法的通信运营商代理渠道分群研究相关的知识,希望对你有一定的参考价值。
基于聚类算法的通信运营商代理渠道分群研究
高阳
上海交通大学计算机科学与工程系,上海,200030
摘要:代理渠道在通信运营商的营销体系中扮演着重要角色,而目前通信运营商代理渠道的管理措施并不完备。近年来数据挖掘技术的蓬勃发展给通信运营商的渠道管理提供了新的思路,其中的聚类算法较为适用于代理渠道分群研究的工作。本文将聚类算法数据挖掘技术应用于通信运营商代理渠道研究,首先使用“K-means聚类法”和“系统聚类法”两类聚类算法进行实验并分析实验结果,然后针对通信运营商代理渠道特点提出“基于属性权重的K-means聚类法”,该算法计算样本与质心距离时考虑属性权重,同时在迭代时自动计算确保样本与质心距离和最小,不但符合通信运营商代理渠道特点,而且与前两类聚类算法相比挖掘结果更为合理。
关键词:聚类算法;数据挖掘;通信运营商;代理渠道
Researchon Grouping of Communication Operators'
AgentChannels Based on Clustering Algorithm
Gao Yang
Dept. of Computer Science &Engineering, Shanghai Jiao Tong University, Shanghai, 200030
Abstract:The agent channel plays an important role in the marketingsystem of the communication operator. At present, the agent channel managementof the communication operator is not complete. In recent years, the vigorousdevelopment of data mining technology has provided new ideas for channelmanagement of communication operator. The clustering algorithm is more suitablefor the work of agent channel group research. In this paper, the clusteringalgorithm data mining technology is applied to the communication agent's agentchannel research. First, The two kinds of clustering algorithms, K-meansclustering method and system clustering method, are used to conduct experiments.Then, according to the characteristics of the communication operator's agentchannel, the "K-means clustering method based on attribute weight" isproposed. The algorithm considers the attribute weight when calculating thesample and centroid distance, and automatically calculates the distance andminimum distance between the sample and the centroid when iterating, which isnot only consistent with Communication agent channel characteristics, and themining results are more reasonable than the previous two types of clusteringalgorithms.
Keywords: Clustering algorithm; Data mining; Communicationcarrier; Agent channel
1 引言
追求利润最大化是企业营销体系的最终目标,其中代理渠道在通信运营商的营销体系内扮演着重要角色。目前通信运营商代理渠道管理仅仅依靠用户发展数量划分渠道类型,并采取差异化营销策略,管理措施并不完备。管理层要求对各代理渠道发展的用户质量予以分析,综合考虑用户发展质量和用户发展数量对代理渠道予以分群,并对不同群组采取差异化营销策略。
近年来数据挖掘技术的蓬勃发展给通信运营商的渠道管理提供了新的思路[1],其中的聚类算法较为适用于代理渠道分群研究的工作[2]。聚类算法也称点群分析[3],是研究多要素事物分类问题的数量方法,是当代分类学与多元分析的结合。聚类算法作为近几年国内外的热门研究领域,涉及机器学习、模式识别、数据挖掘等多种学科。2004年孔锐、张国宣等人提出了核K-means聚类算法[4];2008年徐义峰、陈春明等人提出了初始聚类中心的优化方法[5];2011年江小平、李成华等人实现了聚类算法的Mapreduce并行化[6];2015年武霞、董增寿等人提出了分布式Hadoop平台的聚类算法K值优化[7]。本文首先基于传统聚类算法实现通信运营商代理渠道研究,然后针对通信运营商代理渠道特点提出优化方法并进行实验比较。
2 代理渠道分群的聚类算法研究
本文研究的通信运营商的代理渠道,是指具备相应资质和能力,经运营商授权及签署代理协议,并在授权范围内代表运营商从事通信业务代理,并结算业务或终端佣金的经营机构。使用聚类算法研究通信运营商的代理渠道的基本原理是,根据代理渠道样本的属性,使用聚类算法计算相似性或者差异性指标,以确定每个个案之间的亲疏关系,最终将所有个案分为多个相似组,以达到同一聚类的个案彼此相同,不同聚类中的个案彼此不同的目标。常见的聚类方法有K-means聚类法、系统聚类法等。
(一)K-means聚类法[8]
K-means聚类法是一种重复移动类中心点、把类的中心点移动到其包含成员的平均位置,然后重新划分其内部成员的聚类算法。K-means聚类法的一般步骤为:
(1)将所有对象随机分配到K个非空的类中;
(2)计算每个类中所有对象的平均值,表示类的中心点;
(3)根据每个对象与各个类中心的距离,分配给最近的类;
(4)若满足“终止条件”之一,即:没有或几乎没有对象被重新分配给不同的类、没有或几乎没有类中心发生变化、误差平方和(SSE)达到局部最小或达到指定的迭代次数,则停止聚类,否则继续第2步。
K-means聚类法是以相似性为基础,对数据集进行聚类划分,属于无监督学习的一种。其时间复杂度为O(tkmn),空间复杂度为O((m+k)n)。其中t为迭代次数,k为簇的数目,m为样本数,n为特征数[9]。
(二)系统聚类法[10]
系统聚类法又称“分层聚类法”,可分为聚合的系统聚类和分解的系统聚类两类。其中,聚合的系统聚类法将每个对象都看做独立的一类,每一次通过合并最相似的聚类来形成上一层次中的聚类,整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束。分解的系统聚类法首先将所有对象看成一类,然后把根节点分裂为一些子聚类,每个子聚类再递归地继续往下分裂,直到出现只包含一个数据点的单节点聚类出现,即每个聚类中仅包含一个数据点。系统聚类法的好处是分析者可以对比不同聚类数量的结果,从中选择更感兴趣的结果,这种对比可以通过生成的聚类树进行。
本文分别应用K-means聚类法和聚合的系统聚类法对运营商代理渠道相关数据进行挖掘,并比较挖掘结果的异同点,从而选择最优的聚类方法。
3 代理渠道分群的聚类算法实现
目前,运营商数据挖掘工作重点在客户画像等领域,主要是基于客户资料、终端使用行为、用户付费习惯等数据,形成较为准确的用户画像和客户分群[11],进而为公司运营提供精准营销支撑,但对于代理渠道管理工作应用数据挖掘技术较少。本文将聚类算法数据挖掘技术应用于代理渠道分群,具体思路为从用户离网率、户均利润、户均通话、户均流量四个维度将代理渠道分群,对不同的代理渠道群采用差异化政策,从而激励优质代理渠道持续发展优质客户,并及时淘汰劣质代理渠道。
(一)数据准备
选取某通信运营商部分社会渠道2017年全年发展的用户资料数据、收入数据、成本数据以及行为数据进行分析。共包含77家代理渠道在2017年发展的87.09万用户,对应的收入明细数据、成本明细数据以及行为明细数据的数据量在5000万条左右。主要字段如下:
表1:某通信运营商部分社会渠道用户发展数据
用户资料数据 |
收入明细数据 |
成本明细数据 |
行为明细数据 |
设备ID |
设备ID |
设备ID |
设备ID |
设备号码 |
月份 |
月份 |
月份 |
设备类型 |
收入科目 |
佣金类型 |
开机天数 |
设备状态 |
收入金额 |
代理渠道 |
通话时长 |
装机时间 |
税率 |
佣金金额 |
上网流量 |
停拆机时间 |
(二)数据预处理
数据归集:由于数据分散在各个IT系统中而且不同数据表维度不同,因此首先需要进行数据归集。根据设备ID对数据进行归集,归集后数据结构如下所示:
表2:渠道用户发展数据归集结果表
设备ID |
代理渠道 |
设备状态 |
装机时间 |
停拆机时间 |
Prod_inst_id |
Agent_name |
Prod_status |
Install_dt |
Uninstall_dt |
月均收入 |
月均成本 |
月均开机 |
月均通话 |
月均上网 |
Income |
Cost |
Online_days |
Bill_duration |
Bytes_sw |
数据收敛:由于需要研究代理渠道分群,因此仅依据设备维度的数据并无法进行聚类算法挖掘。下面依据代理商维度进行数据收敛,收敛后,数据以代理商为维度,具备聚类算法挖掘的条件。
表3:代理渠道维度用户发展质量收敛结果表
代理渠道 |
用户数 |
停拆机率 |
户均收入 |
Agent_name |
Prod_num |
Tcj_rate |
Income_avg |
户均成本 |
户均利润 |
户均通话 |
户均流量 |
Cost_avg |
Profit_avg |
Duration_avg |
Bytes_avg |
(三)数据挖掘
(1)K-means聚类法实现运营商代理渠道分群
首先尝试使用“K-means聚类法”实现某运营商代理渠道的分群研究。数据挖掘环境为IBM SPSS Statistics19.0。考虑到代理渠道总数为77,因此设定聚类数K=5,依据“停拆机率”、“户均利润”、“户均通话”以及“户均流量”四个变量进行聚类挖掘。综合考虑簇中心的合理性和挖掘时间,设定最高迭代次数为20次,截图如下:
图1:K-means聚类法参数选择截图
K-means聚类法第一步是将所有对象随机分配到非空的类中,并计算类中所有对象的中心点作为簇中心,由于所有对象是随机分配,因此初始簇中心也是随机选取,初始簇中心位置并不具备任何参考意义,仅为后续计算寻找最终簇中心做准备,本次实验随机选取的初始聚类中心如下图所示:
图2:K-means聚类法初始聚类中心截图
随后算法进行迭代聚类,即每次迭代根据每个对象与各个类中心的距离,分配给最近的类,重新计算簇中心。迭代聚类的过程如下图所示:
图3:K-means聚类法迭代记录截图
本次实验经过6次迭代以后,簇中心几乎不再发生变化,迭代聚类过程结束。经过迭代挖掘最终形成5个聚类及其聚类中心,挖掘结果如下所示:
图4:K-means聚类法聚类案例数截图
图5:K-means聚类法挖掘结果截图
从挖掘结果中可以看出,五个聚类中“类别1”共计25个代理渠道,停拆机率均值56%,户均利润-213.04元,户均通话时长7.77小时,户均流量9.04G,为四个类中最差的。“类别4”共计3个代理渠道,停拆机率均值7%,户均利润1084.62元,户均通话时长74.27小时,户均流量16.80G,为五个聚类中最好的。另外三个类别的代理渠道用户质量居中。
(2)系统聚类法实现运营商代理渠道分群
下面尝试使用“系统聚类法”实现某运营商代理渠道的分群研究。数据挖掘环境同样为IBM SPSS Statistics 19.0,选取聚类方法为“组间联接”,距离度量标准为平方Euclidean距离,无需设定聚类个数,仍然依据“停拆机率”、“户均利润”、“户均通话”以及“户均流量”四个变量进行聚类挖掘,参数设定截图如下:
图6:系统聚类法参数选择截图
系统聚类法的聚类过程可由下方截图描述,如:第1步连接群集22和群集38,两个样本之间的平方Euclidean距离为4.168,首次出现的阶群集均为0说明是样本和样本之间的连接,尚未形成类连接,该结果会在第7步继续使用。
图7:系统聚类法平均联结过程截图
由于采用聚合的思路,因此样本通过合并最相似的聚类来形成上一层次中的聚类,当全部样本都合并到一个聚类的时候算法停止。本次聚类实验结果的树状图部分截图如下:
图8:系统聚类法组间联结树状图截图
系统聚类法挖掘结果可用树状图表示,虽然未设定聚类个数,但选择不同距离可以得到不同的聚类结果,而且选择的距离越小,聚类的群组数越多;距离越大,聚类的群组数越少,因此系统聚类法的挖掘结果动态可控。但系统聚类法挖掘结果无法直观应用,如选择距离为4时,前十家代理渠道形成的聚类各个维度的聚类中心无法体现。
4 实验结果的分析及优化
(一)实验结果分析
从上述实验结果可以明确,两类聚类算法均可以应用于通信运营商代理渠道分群研究,而且各有优劣。具体如下:
(1)应用K-means聚类法进行代理渠道分群的优缺点
应用K-means聚类法的优点为,一是简单高效,算法的时间复杂度和空间复杂度低。本次实验K-means聚类法耗时仅为约0.5秒。二是挖掘结果较为直观,可解释性好。挖掘结果中每个聚类每种特征值的聚类中心均有所体现,如图4所示,挖掘结果中可以直接明确,“类别1”的代理渠道发展的用户户均利润为负,因此发展的用户量越多,企业的效益反而越差,说明该类渠道在佣金政策设计或执行中存在一定缺陷。因此应用K-means聚类法的挖掘结果较为直观,可解释性好而且后续应用也较为方便。
应用K-means聚类法的缺点为,一是需要预先设定K值,即确定聚类个数,挖掘结果与聚类个数的选取较为敏感。二是挖掘结果较为固定,如果需要改变聚类个数则需要重新挖掘。三是对噪声和离群值非常敏感,如本次实验中“类别4”中代理渠道个数仅为3个,远低于每群组15.4个渠道的均值,属于离群数据,单独作为一类并不十分合理。
(2)应用系统聚类法进行代理渠道分群的优缺点
应用系统聚类法进行代理渠道分群的优点为,挖掘结果充分完整,可以通过动态调整距离参数获取不同的聚类挖掘结果,如本例中设定距离为4则可以得到7个聚类群组,而如果设定距离为6则可以得到5个聚类群组。
应用系统聚类法进行代理渠道分群的缺点为,一是时间复杂度高,一般为o(m3),m为样本数。本次实验系统聚类法耗时为约1.6秒。二是仅仅通过“树状图”体现挖掘结果,通过平方距离描述群组内和群组间关系,挖掘结果不能直接解读。如挖掘结果“树状图”中,群集22和群集38样本之间的平方距离为4.168,无法得出直观的代理渠道用户质量的结论。
(二)实验结果优化
虽然两类传统聚类算法均可以应用于通信运营商代理渠道分群研究,但直接应用并不恰当。这是由于用于聚类分析的四个属性权重并不相同。对于企业来说“停拆机率”和“户均利润”属性明显最为重要,“停拆机率”代表了代理渠道发展用户的整体质量,“户均利润”则代表了代理渠道发展用户的个体质量,由于当前运营商普遍采取套餐销售模式,因此即使“户均通话”和“户均流量”指标较差,并不影响企业利润。
本文针对上述问题提出一种“基于属性权重的K-means聚类法”。算法过程如下:首先随机生成初始聚类并得到每个聚类的质心[12],然后计算各聚类中每个属性的权重,在此基础上计算每个样本到各质心的距离并将其分配到距离最近的聚类中,循环迭代直到每个聚类的样本不再发生改变[13]。算法伪代码如下:
输入:包含N个样本的数据集X,聚类数量K
输出:聚类结果 Y
将N个样本随机分配到K个聚类中,生成聚类集Y={C1,C2,…Ck};
Return Y;
使用“基于属性权重的K-means聚类法”对通信运营商代理渠道数据重新进行挖掘实验,结果如下:
图9:基于属性权重的K-MEANS聚类法分群结果
图10:基于属性权重的K-MEANS聚类法挖掘结果
为了评价“基于属性权重的K-MEANS聚类法”与两类传统算法的实验结果,引入参考文献中CR系数[14](CorrectedRand Index)来度量聚类结果的质量。CR系数定义如下:给定数据集X,设R和C是X的两个聚类结果,则两者的CR系数为:
上式中,表示R和C中同时包含的样本数量,表示R的样本数量,表示C的样本数量,n为总样本数量。因此,CR系数的取值范围是[-1,1],越接近1,表明两种结果的一致程度越高。经计算,上述三个实验结果对比如下:
表4:实验结果对比表
算法 |
聚类个数 |
平均CR系数 |
K-means聚类法 |
5 |
0.5853 |
系统聚类法(距离为6) |
5 |
0.3446 |
基于属性权重的K-means聚类法 |
4 |
0.8341 |
从平均CR系数来看,“基于属性权重的K-MEANS聚类法”的聚类结果质量更好。从挖掘结果中可以直观看出,考虑了权重属性后每个聚类群组中代理渠道数量较为均匀,很好的处理了离群数据。
5 总结及展望
经过实验论证,采用“基于属性权重的K-MEANS聚类法”能够有效应用于通信运营商进行代理渠道分群,且无论从聚类结果质量或挖掘结果解读来看,其挖掘结果均优于传统两类聚类挖掘算法。随着数据挖掘技术的更新换代,充分合理应用数据挖掘技术是提升运营商企业管理水平的重要保障。只有抓住机遇并应对挑战,才能有效实现运营商渠道管理规范化、精细化,提高渠道销售服务能力,有效防范经营风险,助推业务发展。
参考文献
[1] Hung, Shin-Yuan,David C Yen, Hsiu-Yu Wang. Applying data mining to telecom churn management[J],Expert Systems With Applications, 2006
[2] 成娅辉. k-means算法改进及其在通信行业客户细分中的应用[D],湖南,湖南大学,2012
[3] ViktorMayer-Schönberger. Big Data: A Revolution That Will Transform How We Live,Work, and Think [M].America: Hodder Export,2012
[4] 孔锐,张国宣,施泽生,郭立. 基于核的K均值聚类[J],计算机工程,2004,30(11):P12-13
[5] 徐义峰,陈春明,徐云青. 一种改进的K聚类算法[J],计算机技术及软件,2008,25(3):P275-277
[6] 江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[C],中国国家网格学术年会,2011
[7] 武霞,董增寿,孟晓燕. 基于大数据平台hadoop的聚类算法K值优化研究[J],太原科技大学学报,2015,36(2):P92-96
[8] Madhu Yedla,Srinivasa Rao Pathakota, Srinivasa.T.M. Enhancing K-means Clustering Algorithmwith Improved Initial Center[J], International Journal of Computer Science and Information Technologies,2010
[9] Lin Yu Tseng,Shiueng Bien Yang. A genetic clustering algorithm for data withnon-spherical-shape clusters[J], Pattern Recognition, 2000(7)
[10] 胡雷芳.五种常用系统聚类分析方法及其比较[J],统计科学与实践,2007(4),P11-13
[11] 杜巍,赵春荣,黄伟建. 改进的k-means聚类算法在客户细分中的应用研究[J],河北经贸大学学报,2014: P118-121
[12] 周爱武,崔丹丹,潘勇.一种优化初始聚类中心的K-means聚类算法[J],微型机与应用,2011(13):P1-3
[13] 张健沛,杨悦,杨静,张泽宝.基于最优划分的K-Means初始聚类中心选取算法[J],系统仿真学报, 2009(09):P2586-2590
[14] Lawrence Hubert, Phipps Arabie, Comparing Partitions[J],Journal of Classification, 1985, 2(1), P193-218
收稿时间:2018-11
发稿时间:2018-11
版权归上海交通大学计算机与工程系所有,如有转载请注明出处。
以上是关于基于聚类算法的通信运营商代理渠道分群研究的主要内容,如果未能解决你的问题,请参考以下文章