教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 高等教育> 理学> 数据挖掘论文2

数据挖掘论文2

上传者:李俊娥
|
上传时间:2015-04-15
|
次下载

数据挖掘论文2

基于数据挖掘的客户流失问题

基于数据挖掘的客户流失问题

一、数据挖掘

数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的, 要取得好的结果就要不断重复这些步骤。在客户流失分析系统中, 数据挖掘只是一小部分, 却是关键的一个部分, 系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来, 应用于数据库中的数据进行流失客户的预测、分析, 对确认有流失倾向的客户根据不同的情况进行预苦处理, 包括套餐资费调整、服务方式更改、竞争对手调查等, 同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区, 进行摸底跟踪, 实施关怀工程。整个系统的业务流程如图所示, 其中流失客户的预测和分析是两个关键的环节, 需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法, 获取有用的模型和知识应用于系统中, 才能进行科学的辅助决策。

二、数据挖掘在系统中的应用

流失又分为被动流失和主动流失, 被动流失是因为客户欠费或不履行责任而被移动停机。主动流失有不同的原因, 一类是客观原因限制所引起的异动, 如搬迁等, 另一类是客户主动放弃, 如因为竞争对手的优惠政策, 对目前的服务不满意等。在这些群体中, 那些主动流失的客户是我们要分析的对象, 在这类群体中, 用户价值和信用度高的可能流失客户是我们最关心的对象, 如果能够成功预测出这类将要流失的客户, 并且能够成功的挽留这类大客户, 将给移动公司带来可观的利润。

三、基于数据挖掘的电信客户流失分析步骤

1、商业理解

商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本文的目标确定为:针对目前在网客户进行流失概率的预测。

电信领域的客户流失有3 方面的含义[3 ] : 一是指客户从本电信运营商转往到其他的电信运营商; 二是指客户使用的手机品牌发生改变, 从本电信运营商的高价值品牌转向低价值品牌; 三是指客户月平均消费量降低, 从高价值客户成为低价值客户。在以上3 类客户流失中,第一类是客户流失分析的重点,本文将第一类作为分析的对象。而在第一类客户中,又可具体将其分为被动停机3 个月、主动退网和注销用户。

2、数据理解

数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。

(1) 收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。该问题的数据来源是某电信公司某年度1 月~7 月在某地区的数据。

(2) 数据描述

基于数据挖掘的客户流失问题

信息类别 数据源 时间窗口

流失 自然

用户 属性

相关 行为

信息 属性

在网 自然

用户 属性 USER_BASIC_INFO USER_BEHAVIOR_INFO USER_BASIC_INFO 某年7月 某年1月、2月、3月 某年7月

相关 行为

信息 属性 USER_BEHAVIOR_INFO 某年4月、5月、6月

(3) 数据探索分析

在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。在数据探索阶段,对获

取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。此处,通过可视化的方式来展现,即利用Clementine 中的分布图节点展示用户流失状态在每个变量上的分布图。从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。

3. 数据准备

数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应

的处理。在本次客户流失分析过程中,对数据的处理过程包括以下几个方面:

(1) 整合数据

首先将流失客户的行为信息进行整合。为了便于后续建模,将行为信息按月份进行拆分与合并,并通过

计算均值和比率来表示流失用户在流失前的消费行为突变情况。具体计算方法如下:FEE A V G = ( FEE 1 + FEE 2) / 2FEE ADD RA T E = ( FEE 3 +FEE A V G) / FEE A V G其中FEE 1 表示流失用户1 月份的消费额;FEE 2 表示流失用户2 月份的消费额; FEE 3 表示流失用户3 月份的消费额; FEE A V G表示流失用户在前2 个月的消费额平均; FEE ADDRA T E 表示3 月的消费额占其前2 个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。其次将现有在网客户的行为信息进行整合。整合方法同上。最后,将用户自然属性和行为属性进行整合。整合时将流失用户信息和在网用户信息分开进行整合。流失用户的用户信息与其行为特征数据进行合并,在网用户的用户信息与其行为特征数据进行整合。整合之将其拆分成训练集和测试集。训练集用于训练模型,测试集用于对模型进行检验。

(2) 清洗数据

基于数据挖掘的客户流失问题

在数据探索分析阶段,通过观察各变量分布图,我们得到了性别和年龄这2 个存在大量缺失值的字段,且

通过变量分布图,发现这2 个字段对于目标字段的分布没有显著影响,即客户流失在这2个字段上的分布不存在显著的差异,所以可以对这2 个字段采用过滤的操作。此外,对于在网状态字段,由于某些原因,可能有极少数属性值丢失了。对于这部分丢失的值,可以加上默认值,假设为在网状态,或者直接过滤掉。而不能将丢失的数据默认为离网,因为离网的记录在整个记录中比例过小,如果把丢失的记录直接加到离网中,势必会影响整个模型的可信度。相比而言,丢失的记录与在网记录比只是很小的一部分,不会影响大的趋势。当然,在不同的建模过程中,对于不同的原始数据集,对相同字段的处理是存在差异的。

(3) 构造属性

从数据集中得到的原始字段,并不是所有的都适合直接用来建模分析,例如,以上在整合数据阶段,利用

导出节点,我们得到了消费额平均值字段和消费额增长率字段,并使用这些字段来对客户流失的情况做出更好的预测。可见,在数据准备过程中,各个阶段之间是没有明确的界限的,各个阶段是交叉进行,并不断重复的过程,只有通过这种方式,才能得到我们所需要的用于建模的数据。

(4) 选择数据

选择数据过程包括字段的选择和记录的选择。在从业务系统获得的数据中会有许多字段是和分析无关

的,这些字段在数据整合过程中被过滤掉。另外,从实际情况上看,国内电信企业每月的客户流失率一般在1 %~3 % ,如果直接采用决策树模型,可能会因为数据概率太小而导致模型的失效,因此我们需要加大客户流失在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。

4. 建立模型

运用数据准备阶段得到的训练集,并利用决策树对客户流失概率进行预测。决策树方法是一种从机器学

习中引出的一种较为通用并被深入研究的分类函数逼近方法,在本文中运用Clementine 中的C5. 0 算法。该算法速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。(1) C5. 0 决策树算法原理。将原始数据中的ON TA G和OU T TA G合并为仅含2 个变量, 即离网与不离网的新字段———客户是否流失CHU RN 。将CHU RN 作为目标字段, 计算与CHU RN 相关的字段的信息增益的大小,按照由大到小的顺序对历史数据进行分类,最后得到历史数据的n 个集合, 每个集合满足一定的规律。当新记录需要该模型对其确定CHURN 的值,则看其字段满足哪条规律。设S 是训练样本数据集, 该数据集中有m 个独立的类,记为Ci ( i = 1 ,2 , , m) 。Ri 为数据集S中属于Ci 类的子集, ri 表示Ri 中元组的数量。集合S 在分类中的期望信息量由以下公式给出[4 ] :期望信息I ( r1 , r2 , , rm) = - Σmi =1Pilog2 Pi其中Pi = ri/ r ,表示任意一个样本属于Ci 类的概率( r 为总样本个数、ri 为类Ci 中的样本个数) 。若属性A 有v 个不同的取值,分别为{ a1 , a2 , , av} ,根据属性A 将数据集S 划分为v 个子集{ S 1 , S 2 , , S v} ,其中S j 表示S 中A 的值为aj 的那些样本。如果A 被选为决策属性,则这些样本将对应该节点的不同分枝。设S j 包含类Ci 的样本有sij个。属性A 的这种划分的期望信息称作A 的熵:E( A ) = Σvj = 1s1 j + s2 j + + smjs·I ( s1 j , s2 j , , smj)属性A 作为决策分类属性的信息增益为Gai n ( A ) = I ( r1 , r2 , , rm) - E( A )本模型中, S 为用以建立模型的客户集, 将客户集S 分为两个类: 在网( C1) 和离网( C2) 。S i ( i = 1 ,2) 分别表示S 中在网和离网的客户数。C5. 0 决策树的工作原理是根据提供最大信息增益的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去,直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。

基于数据挖掘的客户流失问题

建立数据模型的数据流程图如图1 所示

内容需要下载文档才能查看

图1

图1 中, TRAIN. dat 是数据准备阶段得到的训练集。使用Clementine 的C5. 0 建模节点来建立预

测模型,将“churn”变量设置为“输出”,其他变量设置为“输入”。决策树是对这种算法建立分割的简单描述。每一个终端节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况(离网或在网) 恰好属于树上的一个终端节点。以上模型得到的只是对用户离网状态的一个预测(离网或在网) ,我们所需要得到的不只是其状态,还要具体地了解其离网的可能性的大小,这样才能对高离失可能性的客户展开一定的挽留措施。通过建立导出字段CHURN PROB 来计算客户的离网可能性,其计算公式如下:CHURN PROB = 0. 5 +$CC - CHU RN2 if $C - CHURN = 1CHURN PROB = 0. 5 -$CC - CHU RN2 if $C - CHURN = 0式中: $C - CHURN 为CHU RN 字段的预测值;$CC - CHURN 为置信度。最后,将计算得到的流失概率值按从大到小的顺序排列,为后续的潜在流失客户的挽留做好准备工作。

5. 模型评估

流失分析过程中,我们将预测的概率按从大到小的顺序排列,取前35 %作为高流失概率客户群,但并不

是所有的高流失概率客户都值得我们去挽留。如果挽留住的某些客户带来的盈利小于客户回夺时投入的营销成本,那么该类客户即不值得运营商挽留。从这些高流失概率用户中过滤掉那些低价值”客户即FEE(出账收入) < 50 元的客户。在高价值客户里我们也应针对不同的客户制定相应的营销方案,避免付出不必要的挽留成本。

本文使用Kohonen 算法对高流失率高价值客户进行聚类分析,得出具有不同特征的客户群,以便根据其

特征制定相应的挽留策略。选取其中的两类作简要分析。

a. 以本地通话为主,很少有漫游通话和国内长途通话, S FEE A V G(平均短信出账收入) 相对较高, 但

最近一个月S FEE ADD RA T E < 0 ,V FEE (语音出账收入) 呈现明显下降趋势。针对这类客户,运营商可以通过赠送短信等方式来挽留客户。

b. 长途通话次数和长途通话总时长都远高于其他用户,同时本地通话次数也相对较高,漫游通话次数很

少,很少发短信息。针对这类高流失概率的用户,可以通过减免月租费、降低长话费等方式来吸引并挽留客户。

四、移动电话客户流失分析

(一)收集资料

为了能够定量地了解影响移动电话号码用户与手机用户之间的关系。我们对此做了一次资料收集。并

对数据进行了数据挖掘, 数据挖掘的主要框架如图1 所示。收集资料的内容主要包括以下几个方面的内容:

1、 移动电话客户的个人情况, 如年龄、职业、教育程度、籍贯等;

基于数据挖掘的客户流失问题

2、 付费方式;

3、 不同场所移动电话的接收质量;

4、 电信公司的服务质量;

5、 是否更换移动电话服务商及次数;

6、 手机品牌与型号;

7、 是否换过手机及次数;

8、 购买手机优先考虑的因素;

9、 对于所使用手机外型、功能等的满意程度;

10、 手机对电磁辐射的态度;

11、 每月本地话费数量或次数;

12、 每月长途话费数量;

13、 是否经常使用呼叫转移;

14、 发送和接收短信的次数;

15、 通话弧度的大小, 即每个月平均与多少个人通话;

16、 每月收发短信息的个数;

(二) 数据处理

在进行数据处理的时候, 我们使用STAT IST ICS 软件进行处理, 其中包括如下几个过程,在这里给出

简要描述。

1、 数据净化与处理

分析数据的原始样本数据为131, 024 笔, 数据属性( 字段) 部分共有33 个项目。因有些样

本数据中的项目有过多的缺失值, 不适用于分析, 因此在这个阶段会将数据作数据净化与处

理。步骤如下:

步骤一: 将数据表中有缺失值的记录先给予删除。

步骤二: 将数据中不分析的属性删除, 删除后所剩样本为57194 笔。

2、 母体与样本的结构比较

为了减少数据分析的数据量, 提高分析的效率, 我们采用随机抽样方法, 从步骤二中抽取5%的样本来

作分析, 共有2892 笔样本。当然, 在做分析前, 还必须比较样本是否能够代表母体的特征, 我们利用性别、年龄、教育程度、职业以及户籍来比较母体与样本的结构是否有差异, 以确定样本抽样的无误。结果( 数据略) 显示结构比例在统计意义上无差别。因而可以利用抽样的数据来代表母体数据进行分析。

3、 进行数据的结构分析

数据的结构分析, 主要使用交叉列联表的方法来进行。分析的主要内容是研究更换手机与人口结构的

关系, 更换号码与人口结构的关系。我们利用Pearson 的卡方检验( Yates 修正) 进行卡方分析, 分析结果如下:性别教育程度职业

卡方值p. 值卡方值p. 值卡方值p . 值

换过手机64. 6736 0.0000 3. 5377 0. 1705 113.0173 0. 0000

换过号码22. 3073 0.0000 0. 358 0. 8361 30.7756 0. 0002

从结果可以看出, 从性别与职业角度看, 不同性别与不同职业的人都对换手机和换号码都有显著影响,

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注视频

三年级英语单词记忆下册(沪教版)第一二单元复习
8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
七年级英语下册 上海牛津版 Unit5
沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
沪教版八年级下次数学练习册21.4(2)无理方程P19
苏科版数学七年级下册7.2《探索平行线的性质》
第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
冀教版英语三年级下册第二课
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
北师大版数学四年级下册3.4包装
沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
冀教版小学数学二年级下册第二单元《租船问题》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
七年级下册外研版英语M8U2reading
冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
冀教版小学英语五年级下册lesson2教学视频(2)
冀教版英语五年级下册第二课课程解读
第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
沪教版八年级下册数学练习册21.4(1)无理方程P18
人教版二年级下册数学
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T1406126
苏科版八年级数学下册7.2《统计图的选用》
沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
人教版历史八年级下册第一课《中华人民共和国成立》
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
北师大版数学 四年级下册 第三单元 第二节 小数点搬家
冀教版英语四年级下册第二课
【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省