翻新时间:2022-07-23
基于马尔科夫毯网络的客户流失分析
摘 要:贝叶斯网络是研究变量之间预测能力的有力工具,在解决不确定性和不完整性问题以及处理复杂问题上有很大的优势。作为朴素贝叶斯网络的扩展,马尔科夫毯贝叶斯网络只依据对输出结果有显著影响的输入变量进行分类预测,是一种更为理想的解决方案。利用马尔科夫毯贝叶斯网络进行流失客户分析,挖掘导致流失的客户特征,从而辅助决策者制订相应的客户挽留策略。
关键词:贝叶斯网络;马尔科夫毯;客户流失问题
中图分类号:TP181
贝叶斯网络以因果关系图的形式,直观表示了事物之间的因果关系,并利于进行相关的分类预测,广泛应用于数据分析领域。马尔科夫毯贝叶斯网络是其扩展,该模型能够提高预测的准确性,降低数据的过度拟合,但也增加了计算的复杂性,因此需要花费更长的时间来构造模型。
1 贝叶斯网络
贝叶斯网络(Bayesian Networks,BN)也称贝叶斯信念网络,20世纪80年代由Lauritzen和Spiegelhalter提出。贝叶斯网络是以贝叶斯理论为基础,贝叶斯网络是图论与概率论结合的产物,定性并定量地研究变量间关系。贝叶斯网络应用于分类、特征提取和推理等方面,是机器学习和数据挖掘领域的重要工具,在故障诊断、风险评估和生物信息等方面有着广泛的应用。
1.1 贝叶斯网络的组成
。
2 马尔科夫毯网络
2.1 马尔科夫毯网络的基本概念
马尔科夫毯变量是马尔科夫毯网络中的一个基本概念,是指对于节点Xi来说,其父节点、子节点以及子节点的父节点,都属于节点X1的马尔科夫毯变量。以朴素贝叶斯网络为例,由于输入变量节点均为输出变量节点的子节点,所以输出变量的马尔科夫毯变量是所有输入变量。对于马尔科夫毯网络来说,输入变量的马尔科夫毯变量应是与输出变量显著相关的输入变量。于是,分类预测将基于输出变量的马尔科夫毯变量的联合概率,而非全体输入变量。构建马尔科夫毯网络的主要任务是估计参数集合θ以及确定网络结构S。
2.2 马尔科夫毯网络结构的参数估计
通常采用贝叶斯方法进行估计,涉及参数的先验概率、似然函数,以及参数的后验概率三个方面。先验分布与后验分布是共轭分布,同属一分布族[1] 。
如果马尔科夫毯网络中的每个节点对应的变量均为二分类变量,参数θ的先验分布可选用Beta分布。标准Beta分布的数学定义为:
式中,Г()为Gamma函数,Г(x)=(x-1)!,Г
(1)=1;θ取值在0~1之间。Bata分布中的参数α和β成为超参数。参数θ的后验分布也服从Beta分布:
式中,n为“成功”的次数;N为实验的次数。基于这个后验分布,参数θ的期望为: ,即为最终参数估计值。
如果马尔科夫毯网络中的每个节点对应的变量为具有r个类别的多分类型变量,参数θ的先验分布可选用Dirichlet分布。Dirichlet分布的数学定义为:
。
2.3 马尔科夫毯网络结构的学习
确定马尔科夫毯网络结构S的核心是寻找各个变量的马尔科夫毯变量。对于节点Xi,不在马尔科夫毯变量范围内的变量,是与变量Xi条件独立的变量。所以,构建马尔科夫毯网络结构S的首要任务是确定独立变量对,它们均不在彼此的马尔科夫毯变量中。
马尔科夫毯网络利用条件独立检验方法,发现变量之间的条件独立关系,并以此为基础构建马尔科夫毯网络。常用的方法有:条件卡方(Pearson Chi-square)检验和条件对数似然率(Log Likelihood Ratio)检验等。
设I(Xi, Xj)为变量Xi和Xj独立检验的概率P-值,I(Xi, Xj,S)为给定变量S条件下,变量对Xi和Xj条件独立检验的概率P-值。马尔科夫毯网络结构学习的基本步骤如下:第一,起始的网络结构S是一个完全连接的无向网络。第二,如果I(Xi,Xj)大于指定的显著水平α,则删除节点Xi和节点Xj间的连接弧线。第三,对每个节点Xi,在其剩余弧线中,寻找是否存在I(Xi,Xj,S)大于显著性水平α。如果存在,则删除节点Xi和节点Xj间的连接弧线。第四,将无向弧线转换为有向弧线。
2.4 马尔科夫毯网络的分类预测
根据贝叶斯公式,对于新观测Xp,输出变量Y有k个可能的类别取值,输出变量取Yj的概率为:
式中, 即为输出变量及马尔科夫毯变量的联合概率。其中C为常量,它将与分母中的C约掉,并不影响预测结果。这里引入常数C的目的是,表示并非输入变量集合中所有变量都参与计算,参与计算的仅是马尔科夫毯变量。
3 案例分析
本文数据选取自某公司的电信客户数据,选取了463条客户信息,每条数据包括年龄、性别、收入、开通月数、教育水平等字段;并利用通用数据挖掘软件Clementine12.0,目的在于研究对流失客户有重要影响的因素,并计算出预测模型,以此指导销售。
图1显示,客户流失的马尔科夫毯变量包括开通月数、收入和年龄,其中最显著影响因素为开通月数,重要性超过0.8。预测一个新客户是否流失时,仅需计算流失与其马尔科夫毯变量的联合概率即可。
电信公司可以灵活应对各种不同的人群设计不同的服务项目,最大限度地提高市场占有率,避免客户流失,提高客户的忠诚度;同时分析结果也为公司提供了大量的数据信息和潜在规律,从而使公司获得充分的市场信息,以获得最大收益。
图1 客户流失问题的马尔科夫毯网络
4 结束语
随着互联网的发展,电子商务已经成为了商业运作的重要模式。数据挖掘技术有助于企业从数据库以及数据仓库中更快和更精确地寻找到所需要的信息内容,贝叶斯网络是数据挖掘领域的重要算法。朴素贝叶斯网络结构简单,不涉及网络结构的学习。马尔科夫毯网络更多考虑了输入变量之间的条件独立性,因而更利于找到输出变量有重要影响的因素;它在电子商务中的应用,有助于分析客户流失规律,帮助企业及时制定营销策略,维持客户忠诚度。
参考文献:
[2]朱志勇,徐长梅,刘志兵,胡晨刚.基于贝叶斯网络的客户流失分析研究[J].计算机工程与科学,2013(03):155-158.
[4]王双成,冷翠平.贝叶斯网络的适应性学习[J].小型微型计算机系统,2009(04):706-709.
下载文档
网友最新关注
- 妈妈,我想对您说
- 我的妈妈
- 一个节约的人
- 一个勤劳的人
- 未来的一天
- 无题
- 童年
- 我家的小猫会抓苍蝇
- 童年
- 玩游戏棒
- 童年
- 买菜
- 我读书,我快乐
- 我的梦想
- 一个乐于助人的人
- 中国煤炭管理体制变迁-综合新能源论文(1)
- “绿色煤电”在中国起航-综合新能源论文(1)
- 电煤荒促电企长租港口-综合新能源论文(1)
- 我国石油工业标准化的发展研究-综合新能源论文(1)
- 里海油气管道控制权争夺现状-综合新能源论文(1)
- 石油石化业呈现九大特征-综合新能源论文(1)
- 国务院黄河分水与水调方案-综合新能源论文(1)
- 中国天然气生产研究报告-综合新能源论文(1)
- 有效利用郑州市雨水资源-综合新能源论文(1)
- “幸福中国”之“低碳软着陆”(1)-综合新能源论文(1)
- 浅议强化我国农田水利的建设举措-综合新能源论文(1)
- 中国石油安全及其中东石油战略-综合新能源论文(1)
- 浅谈水利工程的泥沙影响及其补偿措施-综合新能源论文(1)
- 清洁煤技术前景广阔-综合新能源论文(1)
- 探索独立工矿区主辅分离改制的有效途径-综合新能源论文(1)
- 《夸父追日》教学设计
- 《女娲补天》教学设计
- 《荷花》教材理解之一
- 《夸父追日》教学设计
- 《女娲补天》教学设计
- 《燕子》实践方案——走进春天
- 《夸父追日》教学设计
- 妙用“赶”表深意--《燕子》教材研究
- 《燕子》学习要点
- 《夸父追日》教学设计
- 《女娲补天》探究活动
- 《女娲补天》教学设计
- 《女娲补天》教学设计
- 《夸父追日》教学设计
- 《夸父追日》教学设计