面向中文微博的观点句识别研究
上传者:涂生|上传时间:2017-06-02|密次下载
面向中文微博的观点句识别研究
郦㈨oo—ms搏手尽掌手壁第33卷第2期175—182,2014年2月
doi:10.3772/j.issn.1000—0135.2014.02.007
栅JOUR唧NAL删OF呲THE,肿CHINRAMi黑H慧溜黑篓
v01.33
No.2.175—182
Feb,。arv
2014
面向中文微博的观点句识别研究1’
丁晟春
孟美任
李
霄
(南京理工大学经济管理学院信息管理系210094)
摘要
中文微博包含了用户对热点话题的观点,对其进行观点挖掘可以实现突发事件预警、舆情监控等。目
前,微博研究多数基于英文语料,中文微博观点句的挖掘大多混淆在情感挖掘中少量提及,由于中文微博特殊的语
体特征,导致传统中文文本观点挖掘模型无法取得理想效果。区别于已有的情感挖掘工作,本文依据中文微博的
语体特征分析结果选取特征,除了选取情感特征外,还加入主张性动词、语气词、程度副词以及固定词性结构等观点句特征,采用CRFs模型进行观点句识别研究。实验结果表明,仅选取情感特征准确率较高,但召回率仅为32.1%,而加入其他观点句特征后,召回率显著提高到61.8%。该方法应用于2012年中国计算机学会(CCF)组织
的“观点句识别”测评任务中,取得了很好的效果。
关键词
中文微博观点挖掘CRFs模型观点句识别语体特征
StudyofSubjective
SentenceIdentificationOrientedtoChinese
Microblog
DingShengchun,MengMeirenandLiXiao
(Departmento,b讲ormationManagement,Schoolo厂EconomicsandManagement,NanjingUniversityScienceandTechnology)
‰
卅
n
北
_蚕h一㈨_蚕18
一.营.哪
町
一
n
蜡
●
.m
o
㈣:雪.室
Ⅲ己苫
∽
删_蚤咖
一
一
~
.蓦
一
唧一山~
眦
昏
a
亡蓦№
m肺|童
m
一~Ⅲ.墓.耋一
g
"
血
_蒿屿№蹦
r
m“.㈨
Ⅲd亡星
一小_墓枷一
m№
一
凹虮k
1
一一肚一
m
b.量㈨
Ⅺ一k
Ⅲ
Ⅲ%_耋.重“乳
叽旆
挑渊砌‰吣虿:~一.溉一‰.№耋崎岫峨一一晌呻心洲埘‰吣.量兰咄一~一~一一一~一
唧=藿刚埘.砉
油‰蹦Ⅷ、∞
m
w
m
崦呲.薹批‰邪山Ⅻ雪№.。.蓦
一一一一~一~删‰驴觇【;{…籼羔刚删
||耋Ⅻ
娜陆唱№址咖.量劬
~一~一一~一~
T
(
嘲耄.叫掣~蛐龇础哪一
Ⅲ
一一~蛐一~一~一一~.~一咖~一~蚴:耋唧毗池
一
‰
“衄
~胁
一“㈨n‰
㈣一二萋枷.啷№蜘一‰_薹汕Ⅲ
一一
收稿日期:2013年6月25日
作者简介:丁晟春,女,1971年生,南京理工大学信息管理系,副教授,主要研究方向:Web数据挖掘、信息检索、信息系统开发;E-mail:todingding@163.eOtll。孟美任,女,1988年生,南京理工大学信息管理系,硕士研究生,主要研究方向:信息检索。李霄,女,1989年生,南京理工大学信息管理系,硕士研究生,主要研究方向:数据挖掘。
1)
本文受国家自然科学基金项目“基于文本语义挖掘的商品评论信息可信度分析研究”(71103085)、“突发事件网络舆
情演变过程中的人群仿真研究”(71273132)和江苏省高校哲学社会科学重点项目“网络舆情监测与有效引导研究”
(20llZDIXM028)的资助。
万方数据
一175一
情报学报第33卷第2期2014年2月
糊情感本体,建立了微博文本的影响力和情感计算
1
引言
方法,对“动车事故”后的公众情感随事态发展的变化进行了探讨,为政府的舆情控制提供必要的参考。另外,王树义。8。提出了利用Twitter内容的监控来掌控竞争对手行动信息,以及通过Twitter交流可视化来构建竞争对手社交网络图。证明了Twitter能够在竞争情报工作中发挥重要的作用。通过对相关文献进行分析发现,目前在微博观点挖掘研究领域存在以下几个问题:
(1)现有对微博的研究大多是基于Twitter等国外知名微博平台的英文语料。由于语言表达方式、语言结构、语法等多方面的差异,致使国外已有的研究成果不能直接应用于中文微博的挖掘研究。
(2)与英文微博研究相比,基于中文微博的研究尚处于起步阶段。对中文微博观点句的挖掘研究大多都还是混淆在情感挖掘研究中少量提及,并未作为一个独立的研究课题进行研究。观点句指的是表达了对某一事件(事物)的某种评价、意见、态度或者立场的句子,其有别于情感句。单纯地将其视为情感挖掘工作,识别结果就会出现偏差,如忽略掉大量表达人们愿望与期许的观点句,错误识别出单纯自我心情发泄的非观点句等。
(3)中文微博语体特征较为特殊,与传统的中文文本存在较大差异。将以往对传统中文文本观点句挖掘模型直接用于中文微博观点挖掘时,常常会产生数据稀疏等严重问题,对实验结果产生影响。所以在进行中文微博观点挖掘的特征选择时,应依据其自身特殊的语体特征选择实验特征,再进行分类实验。
鉴于此,本文通过借鉴已有研究成果以及对大量中文微博语料进行统计分析,总结出中文微博语体特征,将其作为观点句挖掘实验中特征选取的重要理论依据。除了选取情感特征外,在区别观点句与情感句的基础上,一方面,深入分析观点句自身特点,加入主张性动词、语气词、程度副词作为实验特征;另一方面,采用N—POS文本表示模型选取了固定词性结构特征,采用善于处理短文本分类的CRFs模型进行中文微博观点挖掘实验。该方法应用于2012年中国计算机学会(CCF)组织的“观点句识别”测评任务中,取得了很好的效果。
微博(MicroBlog)是一种基于用户关系的信息分享、传播及获取的平台,单条博文内容长度通常控制在140字以下。中国互联网数据中心(DCCI)发布的(<2012中国微博蓝皮书》指出我国微博用户已达到3.27亿,日发布信息量约为2亿条,如此庞大的微博信息蕴藏着大量重要的用户观点。通过对微博进行观点挖掘,可以及时了解群众对热点话题的看法,帮助政府机构掌握突发事件后的社会群体心理,实现突发事件预警以及舆情监控;还可以作为企业进行市场分析、客户管理、产品升级时的重要依据。由此可见,微博观点挖掘研究具有重要理论与应用价值,但同样也面临着许多问题和挑战。
从近年KDD、www等国际会议及重要刊物中可以发现,微博已经逐渐成为学者的研究热点。其研究主要集中于语言层面、文本挖掘以及实际应用三个方面。在语言层面研究中,Ellen对微文本(Microtext)进行了特征分析,发现其具有“短”、“语法不规范”以及“半结构化”等特点。1。。邬智慧专门针对中文微博的语体特征进行了研究,提出中文微博开放性、精炼性、随意性、独特性等特征。2。。这些研究都为研究者进一步进行微博文本挖掘工作提供了重要的特征依据。目前,对于微博的文本挖掘工作主要包括文本分类、聚类;话题抽取;情感分析等几个方面。Davidiv等基于Twitter语料使用机器学习方法,以标签与表情符号作为特征,实现了微博的情感分类。3。。Andreevskaia等提出一种基于词汇的观点情感语义倾向性识别研究H。。此外,在微博文本挖掘研究成果的基础上,研究者还将研究成果延伸至解决实际应用问题,如Bollen等利用Twitter上用户发布的微博来预测股市走向。5。。部分学者利用有关热点事件的微博进行舆情监控。王林等。6。对微博平台上用户集群行为特征及规律进行了研究,以热点话题“活熊取胆”事件为观测对象,从话题热度及走势、情绪热点及分布变化率、微博影响力路径等方面并对价值性执行意向的规律与感知进行了初步分析,为后期网民集群行为引导及网络营销方案的制定提供了一定的理论和实践指引。史伟等"1以新浪微博为平台,通过抽取2011年7月23日“动车事故”发生后公众发表的微博并进行情感分析。提取了八类情感(期待,高兴,喜爱,惊讶,焦虑,悲伤,生气和憎恨),构建了用于情感分析的模
2
中文微博语体特征分析
鉴于中文微博语体特征的特殊性,本文在借鉴
万方数据
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 2015特岗教师招考化学“燃料及其利用”测试题(2)
- 特岗教师招考物理备考资料:质量与密度(二)
- 特岗教师招聘体育《运动训练学》备考:影响运动技术的因素
- 特岗教师招考地理核心考点:主要农业地域类型的特点(一)
- 特岗教师招考语文备考——古代诗歌鉴赏题型设计及答题思路(一)
- 特岗教师招考地理核心考点:农业生产活动对地理环境的影响
- 特岗教师招考语文备考重点:文言文常见固定句式(四)
- 特岗教师招考物理备考资料:简单机械(一)
- 特岗教师招考语文备考重点:文言文常见固定句式(二)
- 特岗教师招聘体育《运动训练学》备考:运动技术训练的基本要求
- 2015特岗教师招聘考试《政治学原理》高频考点(二十五)
- 2015特岗教师招聘考试《政治学原理》高频考点(二十四)
- 特岗教师招考地理核心考点:主要农业地域类型的特点(二)
- 2015特岗教师招聘历史备考要点之新民主主义革命的兴起(二)
- 2015特岗教师招聘考试《政治学原理》高频考点(二十六)
- 特岗教师招聘生物知识点:细胞的能量供应和利用(五)
- 2015特岗教师招考音乐基本乐理强化练习题(二)
- 2015特岗教师招聘数学平面向量经典试题二
- 2015特岗教师招考“细胞的能量供应和利用”专项练习(3)
- 2015特岗教师招考物理“质量与密度”专项练习题(2)
- 特岗教师招考数学备考——不等式知识点详解
- 2015特岗教师招考“细胞的能量供应和利用”专项练习(2)
- 2015特岗教师招考化学“燃料及其利用”测试题(1)
- 特岗教师招考语文备考重点:文言文常见固定句式(一)
- 2015年特岗教师招聘数学不等式综合测试题二
- 特岗教师招考地理核心考点:农业区位因素
- 特岗教师招聘英语备考:句子的种类之There be结构
- 2015特岗教师招考物理“质量与密度”专项练习题(1)
- 特岗教师招聘体育《运动训练学》备考:运动技术评价
- 特岗教师招考物理备考资料:简单机械(二)
网友关注视频
- 苏教版二年级下册数学《认识东、南、西、北》
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 人教版历史八年级下册第一课《中华人民共和国成立》
- 沪教版八年级下册数学练习册21.3(2)分式方程P15
- 30.3 由不共线三点的坐标确定二次函数_第一课时(市一等奖)(冀教版九年级下册)_T144342
- 北师大版数学四年级下册3.4包装
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 冀教版小学英语五年级下册lesson2教学视频(2)
- 【部编】人教版语文七年级下册《老山界》优质课教学视频+PPT课件+教案,安徽省
- 【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
- 外研版英语三起6年级下册(14版)Module3 Unit2
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 七年级下册外研版英语M8U2reading
- 8.练习八_第一课时(特等奖)(苏教版三年级上册)_T142692
- 【部编】人教版语文七年级下册《逢入京使》优质课教学视频+PPT课件+教案,安徽省
- 外研版英语三起5年级下册(14版)Module3 Unit1
- 沪教版牛津小学英语(深圳用) 六年级下册 Unit 7
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
- 8 随形想象_第一课时(二等奖)(沪教版二年级上册)_T3786594
- 冀教版英语五年级下册第二课课程解读
- 二年级下册数学第三课 搭一搭⚖⚖
- 外研版英语七年级下册module3 unit2第一课时
- 第五单元 民族艺术的瑰宝_16. 形形色色的民族乐器_第一课时(岭南版六年级上册)_T1406126
- 化学九年级下册全册同步 人教版 第25集 生活中常见的盐(二)
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 2
- 沪教版八年级下次数学练习册21.4(2)无理方程P19
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省
- 外研版英语三起5年级下册(14版)Module3 Unit2
- 《空中课堂》二年级下册 数学第一单元第1课时
- 冀教版小学数学二年级下册第二单元《租船问题》
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理