教育资源为主的文档平台

当前位置: 查字典文档网> 所有文档分类> 论文> 其他论文> 情感词获取与分类评级

情感词获取与分类评级

上传者:网友
|
翻新时间:2015-08-21

情感词获取与分类评级

一、研究背景

近年来BBS的迅速发展,主观性的言论越来越多。如何构建一个高效的系统对如此丰富的信息资源进行分析和处理,成为一个重要的研究问题。而对BBS信息资源的分析和处理,可以通过中心词和情感词两个维度进行处理。对于中心词的归类已经有了相对较为完整的分析体系,产生了很多有监督的学习方法以及文本特征表示方法和特征选择机制。而情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。本文主要以中山大学BBS的帖子为研究内容,选择合适的情感词分类方法,对情感词进行细分及评级,从而得出一个满足中大BBS舆情分析系统的情感词分类体系。

二、国内外研究现状分析

目前,基于语义的文本倾向性研究方法主要有两种:

一种是通过现有词典构建情感倾向词典。如,Hiroya利用待测词与褒义词、贬义词的语义距离计算待测词汇的语义倾向性;Ku等利用WORDNET中的其他与词汇相关的信息来判断词汇的语义倾向性;徐琳宏等采用HOWNET作为基准词,并在实验中加入否定词和副词的处理,计算待测词与关联度确定语义倾向,从语义理解方面对电影评论进行了倾向性识别研究。

另一种是建立一个语义模式库,采用语义分析技术用于文本倾向性判断。例如,复旦大学的朱嫣岚等年提出的基于HOWNET的词汇语义倾向计算方法,利用词语间的相似度来计算词的褒贬程度。路彬等设计了一种基于语义分析的信息过滤模型,该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式。

但情感词的分类和评级以主观词为主,因此针对中心词的选择机制及方法在情感词上不能完全加以应用。

三、研究目标

通过对帖子出现的情感的类型与强度进行标引,将情感词进行分类,把情感词的强度按正面到负面分成等级进行标引。其中的软件处理流程类似于中心词的标引。当新词(解析字典没有的词)发现以后,通过语义相近度计算软件,比较与字典中词汇的相近程度,通过人工干预(半自动或全自动)进行中心词与情感词的添加。

最后通过对帖子数据的分析和调查,对情感词的分类和标引,开发一个可以实现将中大bbs的帖子进行实时抓取和自动分类的系统。

四、研究内容

帖子的分类标引以及中心词的主题分类标引这两个方面在去年师兄师姐的努力下已经完成了44067个帖子的抓取和分类,因此今年我们主要针对帖子情感词分类以及评级这一块开始入手。

情感心理学认为,情感的基本类型可以分为以下四种:即快乐,愤怒,恐惧和悲伤。

为进一步解决这个问题,我们通过对人类情感有关资料的查找发现:人的感情复杂多样,由于不同事情引起的同一类情感也有许多不同,即使是同一个人对同一件事情在同一个环境下也可能会有不同的情感,而不同的视野角度对情感词的分类也有所不同。因此通过对BBS中随机抽取的词语,我们除去可以分类的,根据无法准确分类的进行归纳,我们利用知网发布的wordsimilarity进行义项查找,发现一项出现频率较高的情感类型:怜悯。

古人云:人有七情六欲,对于心理学来说,七情分别是:喜怒哀乐惊恐怜。喜怒哀乐惊恐都可以在基本类型中找到位置,而怜似乎放在哪一个类型里面都不完全恰当。

综上,我们把怜悯列为单独的一项。情感大类分为:快乐,愤怒,恐惧,悲哀和怜悯五种。

快乐是指一个人期望和追求的目的达到后产生的情绪体验。由于需要得到满足,愿望得以实现,心理的急迫感和紧张感解除,快乐随之而生:

乐:指欢乐,身心愉悦,充满幸福的一种情感;

喜:包括喜爱、喜悦、喜好、喜欢、高兴、快乐等情感。

愤怒是指需求受到抑制或阻碍,愿望无法实现时产生的情绪体验。愤怒时紧张感增加,有时不能自我控制,甚至出现攻击行为:

怒:包括愤怒、恼怒、发怒、怨恨、愤恨等情感。

恐惧是当危险状况出现时,人们企图摆脱和逃避,而又无力应付时产生的情绪体验:

惊:指惊咤、惊愕、惊慌、惊悸、惊奇、惊叹、惊喜、惊讶等情感;

恐:指恐慌、恐惧、害怕、担心、担忧、畏惧等情感。

悲哀是指心爱的事物失去时,或者梦想破灭时产生的情绪体验:

哀:包括悲伤、悲痛、悲哀、怜悯、哀怜、哀愁、哀悯、哀怨、哀思等情感。

怜悯是指对肉体或精神上遭受痛苦的人或者对不幸的人表示同情的情绪体验:

怜:包括怜悯、哀怜、同情等情感。

为了使分类体系可以更加规范准确的划分情感词,我们利用知网发布的wordsimilarity对以上五类情感词进行义原判断,得到以下结果:

为了方便分类,我们再把情感词义原两两之间进行距离计算,得到以下结果:

对此,我们可以发现害怕,生气,悲哀三个负面情感词两两之间的距离和相似度是一样的;而喜悦,怜悯分别与三个负面义原之间的距离和相似度是一样的;怜悯与喜悦之间的距离和相似度与怜悯与其他三个负面义原之间的距离和相似度是一样的。

因此,我们先着手研究负面情感词三个义原之间的关系,我们先依据义原距离构建一个等边三角形,三角形的三个顶点分别为三个义原,如图:害怕→生气→悲哀→生气→害怕

为了进一步确认分类体系,我们在上一届同事的工作基础上,通过对他们抓取到部分中大BBS帖子(共5578个)人工筛选的情感词进行验证,共342个。由4个成员独立进行情感词的类型分类,从中取得分类一致的结果,对于有歧义的情感词,我们对其进行再次分类,删除无法得出一致结果的词语。以同样的步骤对正面情感词进行操作。

这样,结合HOWNET发布的,一共得到各类情感词978个,分类如下表。

即在此基础上,建立情感词分类体系如下:

五、结语

本分类体系是根据已有研究成果和从中大BBS帖子中已抽取出并去重后的情感词词表的基础上确立的分类体系,通过人工分类和修正,将情感词进行有效分类,这个分类比简单分正面情感词和负面情感词更适用于中大BBS的舆情分析系统.对于类别“其他”中的词汇,应在后续情感词分类中会根据情感词的情况对各子类进行必要的添加、去除或修正。

下载文档

版权声明:此文档由查字典文档网用户提供,如用于商业用途请与作者联系,查字典文档网保持最终解释权!

网友最新关注

留恋
临窗望天
最后一片叶
高中依旧
失望
寂寞老钟表
守望的温暖
到山里去吧
离开了爱的孩子
思念
一次感动,永恒记忆
小心,手榴弹!
过眼云烟
微笑
属于
浅谈农药对生态环境的污染及防治对策
浅谈TBM隧洞施工主要环境危险因素分析及防治措施
关于大体积混凝土施工中裂缝控制探讨
郓城煤矿井下清水复用技术的研究与应用
山区公路选线方案设计与选线技术研究
浅谈大空间建筑性能化防火设计
暖通空调节能存在的问题及改进措施的探讨
GPS―RTK测量技术在矿山的应用
营造林技术在退耕还林中的推广应用
新时期电能计量信息化管理
CJZ70瓦斯抽放综合参数测定仪在瓦斯抽采中的应用
港珠澳大桥钢―混组合连续梁桥疲劳特性有限元分析
河南省南阳市高速连线白河特大桥河段防洪影响分析
沥青路面裂缝的防治措施研究
谈煤矿开采技术的发展及存在的问题
鲁迅小说的解读与中学语文阅读教学
谈培养学生的口语交际能力
感受 “快乐大作文”
开展教学科研对中小学教师个人的意义
综合性学习的类型及教学策略
新观念·新教材·新教法——七年级上册语文新教材概略
文学作品探究性学习的两个维度
多途径培养语言表达能力
文章课程:不容漠视的存在
新课程改革中的文化学研究
高中语文选修课程目标及教学实施(三)
语文阅读教学中的主体及主体性(上)
无趣是怎样炼成的:以几册语文教材为例
“语文能力”目标的重新审视——“新课标”语文课程性质观下的目标解读
要保证“适时的阅读”