自动情感文本分类研究综述 联系客服

发布时间 : 星期五 文章自动情感文本分类研究综述更新完毕开始阅读44d0d925453610661ed9f4fb

容词的语义倾向和级别对主观分类器的影响,结果表明它们对主观性有很好的预测能力;Wiebe[48]引入了基于词典的方法来选择特征;Wiebe等[49]研究了主观词汇和短语在每篇文档中出现总数的统计,采用K最近邻分类算法进行了分类,在文档级别的主观性分类上;Yu和Hatzivassiloglou[50]在文档级别,采用贝叶斯分类器与词典信息结合的办法对观点文档和事实文档进行分类,F值达到97%;在句子级别采用三种方法(相似性方法、贝叶斯分类器、多贝叶斯分类器)进行分类,F值达到91%。

3.3 极性分类

情感分类的一个主要课题是研究文本所表达情感的极性:即对于给定的文章判断它表达的是正面观点还是负面观点。一般是二分类的(正面、负面),也有多分类的(正面、负面、中性或者按照情感表达强烈程度分为五个等

级)[18,20,51,52]。语义倾向在信息系统领域有着广泛的应用,如评论分类、区分同义词和反义词、扩展搜索引擎的能力、对评论进行摘要、跟踪在线讨论、创造反应更敏感的聊天机器人、分析调查反馈等,Li等[38]对基于HowNet的词语的语义倾向分类进行了研究。语义倾向可以有两种不同的表示,一是在方向上,可以是正面或者负面的;二是在程度上,可以从轻微到强烈。

在应用和语料库的选择上,Pang和Lee[53],Kennedy和Inkpen[54]等对电影评论进行了分类;Ye等[55]对旅游景点的评论进行了分类,以方便用户对特定景点的信息进行检索和查询;Gamon[56]对顾客反馈信息进行了分类;Zhang等[57]对公共医疗评论进行了分类。

进行情感分类的关键问题是抽取情感特征词汇,并对词汇进行语义整合,以

降低特征项的维度,提高分类器的时间和空间复杂度。

3.4 观点摘要

网络评论的数量过多,信息量过大,极大地妨碍了人们从中获取有用的信息,自动摘要技术能够很好地解决这方面的问题。观点摘要系统是将顾客对产品的评论信息按照产品特征进行组织,然后根据评论信息的极性进行分类,并以可视化的形式给出一个简单摘要的形式,以方便用户浏览和获取主要信息。观点摘要关注的不仅仅是评论的语义倾向,而且要能够给出更直观的结果,结合可视化技术能够很好地将分析结果展示给用户。

Hu和Liu[58]提出了基于特征的观点摘要的分析框架,通过对频繁特征的识别来抽取用户关注的产品特征项,并对评论的极性进行分类,给出摘要汇总结果。Liu等[59]给出了一个观点摘要原型系统(见图1),以图形化的界面展示产品每种特征的正负面评论的统计,让用户一眼就能够看出不同产品各种特征的优劣。将情感分析和自动摘要技术结合的观点摘要技术很少有学者进行研究,但是是一个很有意义的发展方向。

图1 观点摘要的流程

综合上面所谈到的情感分类的几个研究方向,给出图2。

图2 情感分类研究分类

4 情感分类的关键技术

情感文本自动分类与一般的文本分类是一个相交的研究领域,那么必然会有很多相似之处,同时它还有很多自己的特点。

4.1 领域语义词典的构造

尽管有些语义信息可以从现有的多用途知识库,如WORDNET、CYC中获得,但是有很多应用还是需要能够表达某一特殊主题的词汇和类别的特定领域词典。Riloff[60]开发了一个叫AutoSlog的系统,给它一个合适的训练语料库,它能够自动为信息抽取构建领域字典;Riloff和Jones[61]提出了多层次引导算法,能够同时生成语义词典和抽取模式,它使用了互相引导的技术来交替地为每类选择最佳的模式然后将它引导的模式写入语义词典;Riloff和Shepherd[13]提出了一种基于语料库的方法,能够用来构建特定类别的语义词典,该系统能够通过输入某一个类别的小型种子词集合和其代表的文本语料库,得到一组和该类别相

关的词表排列,用户则可以通过词表的排列选取那些词可以写入语义词典;Roark和Charniak[62]对Riloff和Shepherd的方法进行了改进,采用半自动的方法构建语义词典能够得到更好的效果;Thelen和Riloff[63]提出了一种称为Basilisk的算法,它采用未标注的语料和对每个语义类别选取种子词汇,然后采用引导的方法通过这些词汇来学习新词语,用以改进现有词典如WORDNET;Allison[64]通过抽取词汇的特征构造分类器的方法来进行情感检测,使用该方法在三种不同任务上使用五种分类器的实验结果表明:使用构造的不同的分类器所得到的结果和使用某一固定分类器,不同的特征集合所得到的结果同样变化很大,基于词汇特征的分类器在情感检测任务方面效果更好;Li和Zong[65]采用来自多个领域的训练数据对某一个特定领域的数据进行分类,实验结果表明多领域适应方法可以改善领域适应的性能,对跨领域的分类研究起到一定指导作用。

在情感词典资源方面,Valitutti等[66]通过WORDNET选择和标注表示情感概念的同义词集合建立了WORDNET-AFFECT词典,来对情感知识进行表示。Esuli和Sebastiani[67]通过定量分析同义词集合的相关注解,和使用表示半监督同义词分类产生的向量项,开发了SENTI-WORDNET来辅助观点挖掘。

4.2 识别主观词汇和句子

文本特征的选取对分类器的准确率起着决定性的作用,情感分类的关键问题之一是识别带观点的词汇和句子,抽取合适的特征项不仅能减少分类噪音,而且能够提高分类的准确度。有些学者[51]采用首先确定一部分种子词汇,然后根据WORDNET中提供的同义词来识别同一类观点和反义词来识别相反观点的方法来选择情感和观点词汇。