教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 农林牧渔> 农学> 短信种子用户识别11

短信种子用户识别11

上传者:刘学铮
|
上传时间:2015-04-21
|
次下载

短信种子用户识别11

基于因子分析和层次分析的手机短信种子

用户识别模型

李燕寅 傅山铖 赵振煜 王诗云

(沈阳航空航天大学 机电工程学院 沈阳 110136)

摘要:本文运用各种数值分析方法,对大量数据进行了分析处理,综合运用因子分析法、层次分析法这两种综合评价法建立了较为准确地手机短信种子用户识别模型。 关键词:种子用户、手机用户识别、因子分析、层次分析

文件标识码:A

0.引言:

随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们运用手机打电话、发短信、上网等等,在这些功能之中,短信是手机用户最常用的功能之一。现在,每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用。 所谓短信种子用户,又称“短信领袖”,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力。因此,精确识别短信种子用户,制定相应的营销策略对运营商来说非常有必要。我们研究的内容就是通过用户的基本信息和消费信息建立短信种子用户识别模型。我们采用的原始数据来自2012年“深圳杯全国大学生数学建模夏令营”的用户信息表。

1. 模型基本思路

模型的整体结构如图1所示,我们通过对原始数据的分析处理,

然后运用因子分析法从众多的用户属性中提取出与种子用户相

关的n个因子,如果仅仅依靠各个因子的方差贡献率来确定每

个因子的权重,显然方差贡献率与种子用户的识别没有必然联

系。因此,我们采用层次分析法来确定各个因子的权重,然后

通过将各个因子的得分与权重的线性组合得到识别函数。最后

运用单目标非线性规划建立评价体系判定用户是否为种子用

户。 2. 问题分析

2.1 数据预处理

由于原始数据中存在很多缺失信息、错误信息,而且,原始数

据中的变量过多,有的变量属于重复变量, 不同变量之间的数

量级相差较大。针对这些问题,我们对数据处理主要从以下三

个方面进行。

作者简介: 李燕寅(1991-),男,沈阳航空航天大学,学生,tel: 13609887731. 基金项目:2012年辽宁省大学生

内容需要下载文档才能查看

创新创业训练计划(201210143030)

2.1.1 缺失值和极端值处理

原始数据中存在很多极端值、异常值,其中有一部分是统计时的错误造成,但也有一些是真实的信息,因此为了最大限度保持数据原貌,我们只删除一些明显错误的数据,如某些用户的消费金额、市话费、通话费等属性为负值。对于某些用户信息的缺失,我们针对不同的用户属性的特点分别采用不同的缺失值处理方法对数据进行补充。最后为了便于分析,将字符串型变量转换成数值变量,如性别M转换为0,F转换为1。

2.1.2 数据标准化处理

由于不同变量的数据数量级相差较大,为了方便进行接下来的分析,运用标准差标准化法(z-score)对所有数据进行标准化处理,化为服从平均数为0,标准差为1的标准正态分布。

2.1.3 用户属性精简

原始数据中的用户属性条目繁多,有许多属性是重复的,有的属性则是对短信种子用户评价毫无价值。通过对无关属性的删除,对重复属性运用相关系数法进行合并。最后得到了19个用户属性。如表1所示。

内容需要下载文档才能查看

2.2 因子分析

因子分析法(Factor Analysis Method)是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测 的潜在变量。 用户评价分类工作的进行通常是建立在可定量化指标的基础之上,只有建立比较完善的指标评价体系,采取合理的评价方法进行评价,结果才具有说服力, 才能为运营商提供合适的决策依据。然而,在多指标综合评价方法中,传统方法对于权重的设置往往带有一定的主观随意性。将因子分析方法运用于综合评价方法,克服了传统评价方法在处理指标高度相关和人为确定权数的缺陷,使得综合评价结果唯一,而且客观合理。

用户资料表中的用户属性很多,经过数据预处理后,它不但包含 22 个量纲不同的指标,而且并未给出这些指标之间的相对重要性(权重)。为了确定是否有必要使用因子分析法,我们进行了变量相关性分析。 通过SPSS软件,我们从20个用户属性中提取了11个因子,

又根据各个因子的成分得分系数矩阵F,如表1所示。对每个因子做出了合理的解释,如表1所示。

内容需要下载文档才能查看 内容需要下载文档才能查看

2.3 层次分析

层析分析法(The analytic hierarchy process,简称AHP)是一种定性和定量相结合的、系统化、层次化的分析方法。考虑到用户通讯是人的主观活动,故采用层次分析法确定用户属性的权重,使得模型更加准确。

我们通过对用户属性的精简,剔除无关以及合并相关用户属性,得到了以用户的基本特征、消费特征、通讯特征为准则层,年龄、城乡标志、消费金额、套餐等级、短信费、短信量、通话次数为方案层建立的层次分模型如图2所示。运用0~9标度法对各个属性进行重要性判断,最后得出用户属性的权重如表2所示。

3. 种子用户评价模型

3.1 用户属性得分系数

根据最终得出的各因素的权重比,建立一个种子用户识别符合度函数S。

M?F??

式中F为因子的成分得分系数矩阵,?为通过层次分析法得出的各个因子权重向量。

3.2 评价模型

我们构造了短信种子用户得分函数

S?M?Xi

S为用户i的得分,Xi为用户i的标准化处理后的属性值。

我们将用户所得总分进行以下划分:5个等级

第一等级:该用户一定为种子用户(90<S?100)

第二等级:该用户为种子用户的可能性较大(80<S?90)

第三等级:该用户可能为种子用户(60<S?80)

第四等级:该用户为种子用户的可能性较小(40<S?60)

第五等级:该用户一定不是种子用户(S?40)

4. 模型评价

本模型成功的运用基于数据本身的因子分析法对大量数据进行了有效的简化,然后运用层次分析法对各个用户属性进行综合评价,这样就充分考虑到了客观和主观因素的影响,是模型具有更高的准确度。

参考文献:

[1](美)金在温,(美)米勒著. 因子分析 统计方法与应用问题. 上海市:上海人民出版社格致出版社, 2012.07.

[2] 胡永宏,贺思辉编著. 综合评价方法. 北京市:科学出版社, 2000.

[3] 杜强,贾丽艳编著. SPSS统计分析从入门到精通. 北京市:人民邮电出版社, 2009

[4] 黄宇芳 涂玉梅 王斌 魏智华,中国CDMA手机用户消费行为分析,广州,通讯世界, 2012年1月15日:56-58

[5] 单锋编. 数学模型. 北京市:国防工业出版社, 2012.02.

[6] 朱明编著. 数据挖掘. 合肥市:中国科学技术大学出版社, 2008.11.

[7] 张良均著. 数据挖掘 实用案例分析. 北京市:机械工业出版社, 2013.07

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

下载文档

热门试卷

2016年四川省内江市中考化学试卷
广西钦州市高新区2017届高三11月月考政治试卷
浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
广西钦州市钦州港区2017届高三11月月考政治试卷
广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
广西钦州市高新区2016-2017学年高二11月月考政治试卷
广西钦州市高新区2016-2017学年高一11月月考政治试卷
山东省滨州市三校2017届第一学期阶段测试初三英语试题
四川省成都七中2017届高三一诊模拟考试文科综合试卷
2017届普通高等学校招生全国统一考试模拟试题(附答案)
重庆市永川中学高2017级上期12月月考语文试题
江西宜春三中2017届高三第一学期第二次月考文科综合试题
内蒙古赤峰二中2017届高三上学期第三次月考英语试题
2017年六年级(上)数学期末考试卷
2017人教版小学英语三年级上期末笔试题
江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
四川省简阳市阳安中学2016年12月高二月考英语试卷
四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
安徽省滁州中学2016—2017学年度第一学期12月月考​高三英语试卷
山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷

网友关注视频

【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
苏科版数学七年级下册7.2《探索平行线的性质》
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
外研版英语七年级下册module3 unit1第二课时
3月2日小学二年级数学下册(数一数)
沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
二年级下册数学第一课
【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
冀教版英语三年级下册第二课
外研版英语三起5年级下册(14版)Module3 Unit1
冀教版小学数学二年级下册第二单元《有余数除法的竖式计算》
沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T3763925
沪教版八年级下册数学练习册21.4(1)无理方程P18
人教版二年级下册数学
外研版英语七年级下册module3 unit2第二课时
人教版历史八年级下册第一课《中华人民共和国成立》
【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,辽宁省
《小学数学二年级下册》第二单元测试题讲解
沪教版八年级下册数学练习册21.3(3)分式方程P17
【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,江苏省
第19课 我喜欢的鸟_第一课时(二等奖)(人美杨永善版二年级下册)_T644386
冀教版英语四年级下册第二课
每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
七年级英语下册 上海牛津版 Unit5
精品·同步课程 历史 八年级 上册 第15集 近代科学技术与思想文化