数据挖掘论文2

上传者：李俊娥
|
上传时间：2015-04-15
|
密次下载

数据挖掘论文2

基于数据挖掘的客户流失问题

基于数据挖掘的客户流失问题

一、数据挖掘

数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的, 要取得好的结果就要不断重复这些步骤。在客户流失分析系统中, 数据挖掘只是一小部分, 却是关键的一个部分, 系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来, 应用于数据库中的数据进行流失客户的预测、分析, 对确认有流失倾向的客户根据不同的情况进行预苦处理, 包括套餐资费调整、服务方式更改、竞争对手调查等, 同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区, 进行摸底跟踪, 实施关怀工程。整个系统的业务流程如图所示, 其中流失客户的预测和分析是两个关键的环节, 需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法, 获取有用的模型和知识应用于系统中, 才能进行科学的辅助决策。

二、数据挖掘在系统中的应用

流失又分为被动流失和主动流失, 被动流失是因为客户欠费或不履行责任而被移动停机。主动流失有不同的原因, 一类是客观原因限制所引起的异动, 如搬迁等, 另一类是客户主动放弃, 如因为竞争对手的优惠政策, 对目前的服务不满意等。在这些群体中, 那些主动流失的客户是我们要分析的对象, 在这类群体中, 用户价值和信用度高的可能流失客户是我们最关心的对象, 如果能够成功预测出这类将要流失的客户, 并且能够成功的挽留这类大客户, 将给移动公司带来可观的利润。

三、基于数据挖掘的电信客户流失分析步骤

1、商业理解

商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本文的目标确定为:针对目前在网客户进行流失概率的预测。

电信领域的客户流失有3 方面的含义[3 ] : 一是指客户从本电信运营商转往到其他的电信运营商; 二是指客户使用的手机品牌发生改变, 从本电信运营商的高价值品牌转向低价值品牌; 三是指客户月平均消费量降低, 从高价值客户成为低价值客户。在以上3 类客户流失中,第一类是客户流失分析的重点,本文将第一类作为分析的对象。而在第一类客户中,又可具体将其分为被动停机3 个月、主动退网和注销用户。

2、数据理解

数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。

(1) 收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。该问题的数据来源是某电信公司某年度1 月～7 月在某地区的数据。

(2) 数据描述

基于数据挖掘的客户流失问题

信息类别数据源时间窗口

流失自然

用户属性

相关行为

信息属性 USER_BEHAVIOR_INFO 某年4月、5月、6月

(3) 数据探索分析

在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。在数据探索阶段,对获

取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。此处,通过可视化的方式来展现,即利用Clementine 中的分布图节点展示用户流失状态在每个变量上的分布图。从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。

3. 数据准备

数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应

的处理。在本次客户流失分析过程中,对数据的处理过程包括以下几个方面:

(1) 整合数据

首先将流失客户的行为信息进行整合。为了便于后续建模,将行为信息按月份进行拆分与合并,并通过

计算均值和比率来表示流失用户在流失前的消费行为突变情况。具体计算方法如下:FEE A V G = ( FEE 1 + FEE 2) / 2FEE ADD RA T E = ( FEE 3 +FEE A V G) / FEE A V G其中FEE 1 表示流失用户1 月份的消费额;FEE 2 表示流失用户2 月份的消费额; FEE 3 表示流失用户3 月份的消费额; FEE A V G表示流失用户在前2 个月的消费额平均; FEE ADDRA T E 表示3 月的消费额占其前2 个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。其次将现有在网客户的行为信息进行整合。整合方法同上。最后,将用户自然属性和行为属性进行整合。整合时将流失用户信息和在网用户信息分开进行整合。流失用户的用户信息与其行为特征数据进行合并,在网用户的用户信息与其行为特征数据进行整合。整合之将其拆分成训练集和测试集。训练集用于训练模型,测试集用于对模型进行检验。

(2) 清洗数据

基于数据挖掘的客户流失问题

在数据探索分析阶段,通过观察各变量分布图,我们得到了性别和年龄这2 个存在大量缺失值的字段,且

通过变量分布图,发现这2 个字段对于目标字段的分布没有显著影响,即客户流失在这2个字段上的分布不存在显著的差异,所以可以对这2 个字段采用过滤的操作。此外,对于在网状态字段,由于某些原因,可能有极少数属性值丢失了。对于这部分丢失的值,可以加上默认值,假设为在网状态,或者直接过滤掉。而不能将丢失的数据默认为离网,因为离网的记录在整个记录中比例过小,如果把丢失的记录直接加到离网中,势必会影响整个模型的可信度。相比而言,丢失的记录与在网记录比只是很小的一部分,不会影响大的趋势。当然,在不同的建模过程中,对于不同的原始数据集,对相同字段的处理是存在差异的。

(3) 构造属性

从数据集中得到的原始字段,并不是所有的都适合直接用来建模分析,例如,以上在整合数据阶段,利用

导出节点,我们得到了消费额平均值字段和消费额增长率字段,并使用这些字段来对客户流失的情况做出更好的预测。可见,在数据准备过程中,各个阶段之间是没有明确的界限的,各个阶段是交叉进行,并不断重复的过程,只有通过这种方式,才能得到我们所需要的用于建模的数据。

(4) 选择数据

选择数据过程包括字段的选择和记录的选择。在从业务系统获得的数据中会有许多字段是和分析无关

的,这些字段在数据整合过程中被过滤掉。另外,从实际情况上看,国内电信企业每月的客户流失率一般在1 %～3 % ,如果直接采用决策树模型,可能会因为数据概率太小而导致模型的失效,因此我们需要加大客户流失在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。

4. 建立模型

运用数据准备阶段得到的训练集,并利用决策树对客户流失概率进行预测。决策树方法是一种从机器学

习中引出的一种较为通用并被深入研究的分类函数逼近方法,在本文中运用Clementine 中的C5. 0 算法。该算法速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。(1) C5. 0 决策树算法原理。将原始数据中的ON TA G和OU T TA G合并为仅含2 个变量, 即离网与不离网的新字段———客户是否流失CHU RN 。将CHU RN 作为目标字段, 计算与CHU RN 相关的字段的信息增益的大小,按照由大到小的顺序对历史数据进行分类,最后得到历史数据的n 个集合, 每个集合满足一定的规律。当新记录需要该模型对其确定CHURN 的值,则看其字段满足哪条规律。设S 是训练样本数据集, 该数据集中有m 个独立的类,记为Ci ( i = 1 ,2 , , m) 。Ri 为数据集S中属于Ci 类的子集, ri 表示Ri 中元组的数量。集合S 在分类中的期望信息量由以下公式给出[4 ] :期望信息I ( r1 , r2 , , rm) = - Σmi =1Pilog2 Pi其中Pi = ri/ r ,表示任意一个样本属于Ci 类的概率( r 为总样本个数、ri 为类Ci 中的样本个数) 。若属性A 有v 个不同的取值,分别为{ a1 , a2 , , av} ,根据属性A 将数据集S 划分为v 个子集{ S 1 , S 2 , , S v} ,其中S j 表示S 中A 的值为aj 的那些样本。如果A 被选为决策属性,则这些样本将对应该节点的不同分枝。设S j 包含类Ci 的样本有sij个。属性A 的这种划分的期望信息称作A 的熵:E( A ) = Σvj = 1s1 j + s2 j + + smjs·I ( s1 j , s2 j , , smj)属性A 作为决策分类属性的信息增益为Gai n ( A ) = I ( r1 , r2 , , rm) - E( A )本模型中, S 为用以建立模型的客户集, 将客户集S 分为两个类: 在网( C1) 和离网( C2) 。S i ( i = 1 ,2) 分别表示S 中在网和离网的客户数。C5. 0 决策树的工作原理是根据提供最大信息增益的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去,直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。

基于数据挖掘的客户流失问题

建立数据模型的数据流程图如图1 所示

内容需要下载文档才能查看

图1

图1 中, TRAIN. dat 是数据准备阶段得到的训练集。使用Clementine 的C5. 0 建模节点来建立预

测模型,将“churn”变量设置为“输出”,其他变量设置为“输入”。决策树是对这种算法建立分割的简单描述。每一个终端节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况(离网或在网) 恰好属于树上的一个终端节点。以上模型得到的只是对用户离网状态的一个预测(离网或在网) ,我们所需要得到的不只是其状态,还要具体地了解其离网的可能性的大小,这样才能对高离失可能性的客户展开一定的挽留措施。通过建立导出字段CHURN PROB 来计算客户的离网可能性,其计算公式如下:CHURN PROB = 0. 5 +＄CC - CHU RN2 if ＄C - CHURN = 1CHURN PROB = 0. 5 -＄CC - CHU RN2 if ＄C - CHURN = 0式中: ＄C - CHURN 为CHU RN 字段的预测值;＄CC - CHURN 为置信度。最后,将计算得到的流失概率值按从大到小的顺序排列,为后续的潜在流失客户的挽留做好准备工作。

5. 模型评估

流失分析过程中,我们将预测的概率按从大到小的顺序排列,取前35 %作为高流失概率客户群,但并不

是所有的高流失概率客户都值得我们去挽留。如果挽留住的某些客户带来的盈利小于客户回夺时投入的营销成本,那么该类客户即不值得运营商挽留。从这些高流失概率用户中过滤掉那些低价值”客户即FEE(出账收入) < 50 元的客户。在高价值客户里我们也应针对不同的客户制定相应的营销方案,避免付出不必要的挽留成本。

本文使用Kohonen 算法对高流失率高价值客户进行聚类分析,得出具有不同特征的客户群,以便根据其

特征制定相应的挽留策略。选取其中的两类作简要分析。

a. 以本地通话为主,很少有漫游通话和国内长途通话, S FEE A V G(平均短信出账收入) 相对较高, 但

最近一个月S FEE ADD RA T E < 0 ,V FEE (语音出账收入) 呈现明显下降趋势。针对这类客户,运营商可以通过赠送短信等方式来挽留客户。

b. 长途通话次数和长途通话总时长都远高于其他用户,同时本地通话次数也相对较高,漫游通话次数很

少,很少发短信息。针对这类高流失概率的用户,可以通过减免月租费、降低长话费等方式来吸引并挽留客户。

四、移动电话客户流失分析

（一）收集资料

为了能够定量地了解影响移动电话号码用户与手机用户之间的关系。我们对此做了一次资料收集。并

对数据进行了数据挖掘, 数据挖掘的主要框架如图1 所示。收集资料的内容主要包括以下几个方面的内容:

1、移动电话客户的个人情况, 如年龄、职业、教育程度、籍贯等;

基于数据挖掘的客户流失问题