短信种子用户识别11
上传者:刘学铮|上传时间:2015-04-21|密次下载
短信种子用户识别11
基于因子分析和层次分析的手机短信种子
用户识别模型
李燕寅 傅山铖 赵振煜 王诗云
(沈阳航空航天大学 机电工程学院 沈阳 110136)
摘要:本文运用各种数值分析方法,对大量数据进行了分析处理,综合运用因子分析法、层次分析法这两种综合评价法建立了较为准确地手机短信种子用户识别模型。 关键词:种子用户、手机用户识别、因子分析、层次分析
文件标识码:A
0.引言:
随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们运用手机打电话、发短信、上网等等,在这些功能之中,短信是手机用户最常用的功能之一。现在,每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用。 所谓短信种子用户,又称“短信领袖”,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力。因此,精确识别短信种子用户,制定相应的营销策略对运营商来说非常有必要。我们研究的内容就是通过用户的基本信息和消费信息建立短信种子用户识别模型。我们采用的原始数据来自2012年“深圳杯全国大学生数学建模夏令营”的用户信息表。
1. 模型基本思路
模型的整体结构如图1所示,我们通过对原始数据的分析处理,
然后运用因子分析法从众多的用户属性中提取出与种子用户相
关的n个因子,如果仅仅依靠各个因子的方差贡献率来确定每
个因子的权重,显然方差贡献率与种子用户的识别没有必然联
系。因此,我们采用层次分析法来确定各个因子的权重,然后
通过将各个因子的得分与权重的线性组合得到识别函数。最后
运用单目标非线性规划建立评价体系判定用户是否为种子用
户。 2. 问题分析
2.1 数据预处理
由于原始数据中存在很多缺失信息、错误信息,而且,原始数
据中的变量过多,有的变量属于重复变量, 不同变量之间的数
量级相差较大。针对这些问题,我们对数据处理主要从以下三
个方面进行。
作者简介: 李燕寅(1991-),男,沈阳航空航天大学,学生,tel: 13609887731. 基金项目:2012年辽宁省大学生
内容需要下载文档才能查看
创新创业训练计划(201210143030)
2.1.1 缺失值和极端值处理
原始数据中存在很多极端值、异常值,其中有一部分是统计时的错误造成,但也有一些是真实的信息,因此为了最大限度保持数据原貌,我们只删除一些明显错误的数据,如某些用户的消费金额、市话费、通话费等属性为负值。对于某些用户信息的缺失,我们针对不同的用户属性的特点分别采用不同的缺失值处理方法对数据进行补充。最后为了便于分析,将字符串型变量转换成数值变量,如性别M转换为0,F转换为1。
2.1.2 数据标准化处理
由于不同变量的数据数量级相差较大,为了方便进行接下来的分析,运用标准差标准化法(z-score)对所有数据进行标准化处理,化为服从平均数为0,标准差为1的标准正态分布。
2.1.3 用户属性精简
原始数据中的用户属性条目繁多,有许多属性是重复的,有的属性则是对短信种子用户评价毫无价值。通过对无关属性的删除,对重复属性运用相关系数法进行合并。最后得到了19个用户属性。如表1所示。
内容需要下载文档才能查看
2.2 因子分析
因子分析法(Factor Analysis Method)是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测 的潜在变量。 用户评价分类工作的进行通常是建立在可定量化指标的基础之上,只有建立比较完善的指标评价体系,采取合理的评价方法进行评价,结果才具有说服力, 才能为运营商提供合适的决策依据。然而,在多指标综合评价方法中,传统方法对于权重的设置往往带有一定的主观随意性。将因子分析方法运用于综合评价方法,克服了传统评价方法在处理指标高度相关和人为确定权数的缺陷,使得综合评价结果唯一,而且客观合理。
用户资料表中的用户属性很多,经过数据预处理后,它不但包含 22 个量纲不同的指标,而且并未给出这些指标之间的相对重要性(权重)。为了确定是否有必要使用因子分析法,我们进行了变量相关性分析。 通过SPSS软件,我们从20个用户属性中提取了11个因子,
又根据各个因子的成分得分系数矩阵F,如表1所示。对每个因子做出了合理的解释,如表1所示。
内容需要下载文档才能查看 内容需要下载文档才能查看
2.3 层次分析
层析分析法(The analytic hierarchy process,简称AHP)是一种定性和定量相结合的、系统化、层次化的分析方法。考虑到用户通讯是人的主观活动,故采用层次分析法确定用户属性的权重,使得模型更加准确。
我们通过对用户属性的精简,剔除无关以及合并相关用户属性,得到了以用户的基本特征、消费特征、通讯特征为准则层,年龄、城乡标志、消费金额、套餐等级、短信费、短信量、通话次数为方案层建立的层次分模型如图2所示。运用0~9标度法对各个属性进行重要性判断,最后得出用户属性的权重如表2所示。
3. 种子用户评价模型
3.1 用户属性得分系数
根据最终得出的各因素的权重比,建立一个种子用户识别符合度函数S。
M?F??
式中F为因子的成分得分系数矩阵,?为通过层次分析法得出的各个因子权重向量。
3.2 评价模型
我们构造了短信种子用户得分函数
S?M?Xi
S为用户i的得分,Xi为用户i的标准化处理后的属性值。
我们将用户所得总分进行以下划分:5个等级
第一等级:该用户一定为种子用户(90<S?100)
第二等级:该用户为种子用户的可能性较大(80<S?90)
第三等级:该用户可能为种子用户(60<S?80)
第四等级:该用户为种子用户的可能性较小(40<S?60)
第五等级:该用户一定不是种子用户(S?40)
4. 模型评价
本模型成功的运用基于数据本身的因子分析法对大量数据进行了有效的简化,然后运用层次分析法对各个用户属性进行综合评价,这样就充分考虑到了客观和主观因素的影响,是模型具有更高的准确度。
参考文献:
[1](美)金在温,(美)米勒著. 因子分析 统计方法与应用问题. 上海市:上海人民出版社格致出版社, 2012.07.
[2] 胡永宏,贺思辉编著. 综合评价方法. 北京市:科学出版社, 2000.
[3] 杜强,贾丽艳编著. SPSS统计分析从入门到精通. 北京市:人民邮电出版社, 2009
[4] 黄宇芳 涂玉梅 王斌 魏智华,中国CDMA手机用户消费行为分析,广州,通讯世界, 2012年1月15日:56-58
[5] 单锋编. 数学模型. 北京市:国防工业出版社, 2012.02.
[6] 朱明编著. 数据挖掘. 合肥市:中国科学技术大学出版社, 2008.11.
[7] 张良均著. 数据挖掘 实用案例分析. 北京市:机械工业出版社, 2013.07
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 合同修订审批表
- 保证担保借款合同(连带责任)
- 专项资金借贷合同(范本)
- 信托资金借贷合同(范本)
- 终止协议书(范本)
- 委托贷款委托合同(范本)
- 借款合同(民间借贷标准版,含抵押)
- 合同风险控制表
- 采购索赔通知书
- 工作服定制合同
- 工程合同审批表
- 合同补充协议
- 基本建设借贷合同(范本)
- 公司章程(标准版)
- 企业法人组织章程(标准版)
- 合同通用条款(中英文对照)
- 共同借款人声明(给银行)
- 委托(行纪)合同
- 委托贷款借款合同(范本)
- 资金拆借合同(范本)
- 产品询价函模板
- 借款协议(简单版)
- 工程合同交底书
- 基本建设借款申请书
- 工程项目合同履约担保函
- 合同履约评价表
- 合同管理办法
- 店面转让协议
- (建筑)工程设计合同范本
- 合伙企业(合伙人)协议(标准版)
网友关注视频
- 外研版英语七年级下册module3 unit2第二课时
- 《空中课堂》二年级下册 数学第一单元第1课时
- 每天日常投篮练习第一天森哥打卡上脚 Nike PG 2 如何调整运球跳投手感?
- 苏科版数学七年级下册7.2《探索平行线的性质》
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 外研版八年级英语下学期 Module3
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 沪教版牛津小学英语(深圳用)五年级下册 Unit 1
- 北师大版数学四年级下册第三单元第四节街心广场
- 冀教版小学数学二年级下册第二单元《余数和除数的关系》
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 沪教版八年级下册数学练习册20.4(2)一次函数的应用2P8
- 苏科版数学 八年级下册 第八章第二节 可能性的大小
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 冀教版小学英语四年级下册Lesson2授课视频
- 二年级下册数学第二课
- 青岛版教材五年级下册第四单元(走进军营——方向与位置)用数对确定位置(一等奖)
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省
- 七年级英语下册 上海牛津版 Unit5
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 7
- 北师大版数学 四年级下册 第三单元 第二节 小数点搬家
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 8
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 沪教版牛津小学英语(深圳用) 五年级下册 Unit 10
- 外研版英语三起5年级下册(14版)Module3 Unit1
- 沪教版八年级下册数学练习册21.3(2)分式方程P15
- 北师大版小学数学四年级下册第15课小数乘小数一
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 三年级英语单词记忆下册(沪教版)第一二单元复习
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理