短信种子用户识别11
上传者:刘学铮|上传时间:2015-04-21|密次下载
短信种子用户识别11
基于因子分析和层次分析的手机短信种子
用户识别模型
李燕寅 傅山铖 赵振煜 王诗云
(沈阳航空航天大学 机电工程学院 沈阳 110136)
摘要:本文运用各种数值分析方法,对大量数据进行了分析处理,综合运用因子分析法、层次分析法这两种综合评价法建立了较为准确地手机短信种子用户识别模型。 关键词:种子用户、手机用户识别、因子分析、层次分析
文件标识码:A
0.引言:
随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们运用手机打电话、发短信、上网等等,在这些功能之中,短信是手机用户最常用的功能之一。现在,每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用。 所谓短信种子用户,又称“短信领袖”,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力。因此,精确识别短信种子用户,制定相应的营销策略对运营商来说非常有必要。我们研究的内容就是通过用户的基本信息和消费信息建立短信种子用户识别模型。我们采用的原始数据来自2012年“深圳杯全国大学生数学建模夏令营”的用户信息表。
1. 模型基本思路
模型的整体结构如图1所示,我们通过对原始数据的分析处理,
然后运用因子分析法从众多的用户属性中提取出与种子用户相
关的n个因子,如果仅仅依靠各个因子的方差贡献率来确定每
个因子的权重,显然方差贡献率与种子用户的识别没有必然联
系。因此,我们采用层次分析法来确定各个因子的权重,然后
通过将各个因子的得分与权重的线性组合得到识别函数。最后
运用单目标非线性规划建立评价体系判定用户是否为种子用
户。 2. 问题分析
2.1 数据预处理
由于原始数据中存在很多缺失信息、错误信息,而且,原始数
据中的变量过多,有的变量属于重复变量, 不同变量之间的数
量级相差较大。针对这些问题,我们对数据处理主要从以下三
个方面进行。
作者简介: 李燕寅(1991-),男,沈阳航空航天大学,学生,tel: 13609887731. 基金项目:2012年辽宁省大学生
内容需要下载文档才能查看
创新创业训练计划(201210143030)
2.1.1 缺失值和极端值处理
原始数据中存在很多极端值、异常值,其中有一部分是统计时的错误造成,但也有一些是真实的信息,因此为了最大限度保持数据原貌,我们只删除一些明显错误的数据,如某些用户的消费金额、市话费、通话费等属性为负值。对于某些用户信息的缺失,我们针对不同的用户属性的特点分别采用不同的缺失值处理方法对数据进行补充。最后为了便于分析,将字符串型变量转换成数值变量,如性别M转换为0,F转换为1。
2.1.2 数据标准化处理
由于不同变量的数据数量级相差较大,为了方便进行接下来的分析,运用标准差标准化法(z-score)对所有数据进行标准化处理,化为服从平均数为0,标准差为1的标准正态分布。
2.1.3 用户属性精简
原始数据中的用户属性条目繁多,有许多属性是重复的,有的属性则是对短信种子用户评价毫无价值。通过对无关属性的删除,对重复属性运用相关系数法进行合并。最后得到了19个用户属性。如表1所示。
内容需要下载文档才能查看
2.2 因子分析
因子分析法(Factor Analysis Method)是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测 的潜在变量。 用户评价分类工作的进行通常是建立在可定量化指标的基础之上,只有建立比较完善的指标评价体系,采取合理的评价方法进行评价,结果才具有说服力, 才能为运营商提供合适的决策依据。然而,在多指标综合评价方法中,传统方法对于权重的设置往往带有一定的主观随意性。将因子分析方法运用于综合评价方法,克服了传统评价方法在处理指标高度相关和人为确定权数的缺陷,使得综合评价结果唯一,而且客观合理。
用户资料表中的用户属性很多,经过数据预处理后,它不但包含 22 个量纲不同的指标,而且并未给出这些指标之间的相对重要性(权重)。为了确定是否有必要使用因子分析法,我们进行了变量相关性分析。 通过SPSS软件,我们从20个用户属性中提取了11个因子,
又根据各个因子的成分得分系数矩阵F,如表1所示。对每个因子做出了合理的解释,如表1所示。
内容需要下载文档才能查看 内容需要下载文档才能查看
2.3 层次分析
层析分析法(The analytic hierarchy process,简称AHP)是一种定性和定量相结合的、系统化、层次化的分析方法。考虑到用户通讯是人的主观活动,故采用层次分析法确定用户属性的权重,使得模型更加准确。
我们通过对用户属性的精简,剔除无关以及合并相关用户属性,得到了以用户的基本特征、消费特征、通讯特征为准则层,年龄、城乡标志、消费金额、套餐等级、短信费、短信量、通话次数为方案层建立的层次分模型如图2所示。运用0~9标度法对各个属性进行重要性判断,最后得出用户属性的权重如表2所示。
3. 种子用户评价模型
3.1 用户属性得分系数
根据最终得出的各因素的权重比,建立一个种子用户识别符合度函数S。
M?F??
式中F为因子的成分得分系数矩阵,?为通过层次分析法得出的各个因子权重向量。
3.2 评价模型
我们构造了短信种子用户得分函数
S?M?Xi
S为用户i的得分,Xi为用户i的标准化处理后的属性值。
我们将用户所得总分进行以下划分:5个等级
第一等级:该用户一定为种子用户(90<S?100)
第二等级:该用户为种子用户的可能性较大(80<S?90)
第三等级:该用户可能为种子用户(60<S?80)
第四等级:该用户为种子用户的可能性较小(40<S?60)
第五等级:该用户一定不是种子用户(S?40)
4. 模型评价
本模型成功的运用基于数据本身的因子分析法对大量数据进行了有效的简化,然后运用层次分析法对各个用户属性进行综合评价,这样就充分考虑到了客观和主观因素的影响,是模型具有更高的准确度。
参考文献:
[1](美)金在温,(美)米勒著. 因子分析 统计方法与应用问题. 上海市:上海人民出版社格致出版社, 2012.07.
[2] 胡永宏,贺思辉编著. 综合评价方法. 北京市:科学出版社, 2000.
[3] 杜强,贾丽艳编著. SPSS统计分析从入门到精通. 北京市:人民邮电出版社, 2009
[4] 黄宇芳 涂玉梅 王斌 魏智华,中国CDMA手机用户消费行为分析,广州,通讯世界, 2012年1月15日:56-58
[5] 单锋编. 数学模型. 北京市:国防工业出版社, 2012.02.
[6] 朱明编著. 数据挖掘. 合肥市:中国科学技术大学出版社, 2008.11.
[7] 张良均著. 数据挖掘 实用案例分析. 北京市:机械工业出版社, 2013.07
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 财务管理专业毕业论文参考题目
- 汽车技术的发展与铸造行业的关系
- 制约非英语专业学生英语学习自主性的主要因素分析及教学对策研究
- 怎样写好科技论文
- 基于故障树分析法的航空相机故障诊断技术研究
- 财务管理毕业论文会计专业毕业论文
- 【精品】湖南省第十二届自然科学优秀学术论文68
- java网格计算应用编程模型研究
- 现代企业管理论文格式和参考题目
- 迭代学习控制若干问题研究
- C语言课程设计报告—停车场管理二
- 原位反应法制备的碳化硅涂层_三维编织碳纤维的氧化性能研究_高朋召
- 工商管理论文题目
- 张林飞的计算书(土木工程)
- 苏州市自然科学(2008-2009)优秀学术论文
- 李娟毕业设计
- 油液分析技术在纸机干燥部故障诊断中的应用
- 2010年项目管理毕业论文题目
- 公共事业管理专业毕业论文参考选题大全
- 中西“美术”概念及术语比较【精品论文】
- 长安大学研究生论文撰写规范
- 申分析报表咸阳市自然科学优秀学术论文
- 化工类专业大学生职业生涯规划研究——以上海应用技术学院化工系为例
- 来自MIT人工智能实验室:如何做研究
- 英汉影视翻译中文化因素的翻译策略
- 中华论文联盟财务管理毕业论文参考doc
- 塑料膜毕业论文说明书
- 从目的论看翻译策略——对study of sociology两个汉译本的比较研究
- 非英语专业大学生英语学习焦虑研究
- 暖通专业-空调毕业设计指导
网友关注视频
- 六年级英语下册上海牛津版教材讲解 U1单词
- 8.对剪花样_第一课时(二等奖)(冀美版二年级上册)_T515402
- 外研版英语七年级下册module3 unit2第二课时
- 苏教版二年级下册数学《认识东、南、西、北》
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 苏科版八年级数学下册7.2《统计图的选用》
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 冀教版英语四年级下册第二课
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 12
- 8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
- 冀教版小学数学二年级下册第二单元《有余数除法的竖式计算》
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 第五单元 民族艺术的瑰宝_15. 多姿多彩的民族服饰_第二课时(市一等奖)(岭南版六年级上册)_T129830
- 冀教版小学英语四年级下册Lesson2授课视频
- 七年级下册外研版英语M8U2reading
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
- 【部编】人教版语文七年级下册《过松源晨炊漆公店(其五)》优质课教学视频+PPT课件+教案,辽宁省
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 外研版英语三起6年级下册(14版)Module3 Unit2
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T3751175
- 七年级英语下册 上海牛津版 Unit3
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T3763925
- 冀教版小学数学二年级下册第二周第2课时《我们的测量》宝丰街小学庞志荣.mp4
- 沪教版八年级下册数学练习册一次函数复习题B组(P11)
- 化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
- 七年级英语下册 上海牛津版 Unit5
- 沪教版牛津小学英语(深圳用) 六年级下册 Unit 7
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 《空中课堂》二年级下册 数学第一单元第1课时
- 飞翔英语—冀教版(三起)英语三年级下册Lesson 2 Cats and Dogs
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理