自动情感文本分类研究综述 联系客服

发布时间 : 星期一 文章自动情感文本分类研究综述更新完毕开始阅读44d0d925453610661ed9f4fb

Turney[20]采用了如下的步骤来识别情感词汇,首先通过词性标注来抽取包含某种模式的短语(含形容词或副词的短语),然后使用PMI-IR算法来计算所抽取的短语的语义倾向,最后通过计算短语的语义倾向的平均值来进行分类。Yu和Hatzivassiilogou[50]采用三种不同的方法,相似性方法,贝叶斯分类器,多贝叶斯分类器来识别主观句子。Riloff和Wiebe[45]首先通过高精度分类器来自动识别主观和客观句子,然后通过对这些数据的训练来自动学习主观句子的模式,再通过学习模式来补充训练集,采用这种自学习的方式来识别主观句子。Kim和Hovy[68]提出了一个句子级别的观点检测系统,通过对观点的定义来获取带观点的句子和不带观点的词汇,进而用这些词汇识别带观点的句子。后来,Kim和Hovy[69]将观点定义为由:价(正面,负面),持有者和主题三部分组成,观点分析由:识别观点,确定价,识别持有者和确定主题四部分组成。在特征提取和情感词汇的识别上,大部分研究对二者的研究是独立的,盲目使用观点词汇的情感会导致分类的偏失,Chan和King[70]采用基于语料的方法对特征和观点词汇之间的关系进行了研究,提出了FOA算法在句子级别对二者进行匹配的方法来改善情感分析的结果。

4.3 分类算法分析

对文本的标注需要大量的人工工作,我们通常把需要大量标注文本的研究方法称为监督学习,不需要标注的称为非监督学习,同时还存在需要少量标注的研究称为半监督学习。目前在情感文本分类上采用的分类算法大致分为两类,一类是基于概率和信息理论的分类算法,如朴素贝叶斯算法(NB),最大熵算法(ME);另一类是基于机器学习的分类算法[71],如决策树,支持向量机等,除了单纯的分类算法的比较(见表1),对机器学习算法中核函数[72,73]的研究也很关键。对文本的标注是一项系统的知识工程,需要大量的人工和专家的配合才能尽可能

提高准确度,有学者对文本的标注进行了研究[74]。Pang等[18]采用三种机器学习算法(贝叶斯分类,最大熵分类,和支持向量机)对电影评论进行了分类,发现这三种算法在情感分类上的效率没有在传统基于主题的分类上的效率高,认为情感分类更具有挑战性。Prabowo和Thelwall[75]对不同的分类方法进行了比较,认为将不同的分类器结合使用能够提高分类效率。现有的研究中,多数学者采用支持向量机算法来作为分类器,在各种不同领域都有应用,分类效果也达到了比较高的水平。基于以上分析,论文提出情感分类一般框架如下:

(1)从网络上抓取评论存入评论数据库,建立自己的语料库;

(2)对评论进行处理,去除噪声数据,预处理步骤进行分词和词性标注及去停用词;

(3)运用特征选择算法进行特征抽取,结合情感词汇本体库,辅助提取特征项的一般模式;

(4)对频繁特征进行识别,运用语义词典进行同义词的合并;对文本表达的观点进行识别;

(5)最后进行结果评估,并以可视化的效果展示给用户。图3为网络评论情感分类的一般框架。

图3 网络评论情感分类的一般框架

5 研究述评

情感分类是自然语言处理,机器学习和心理学等多学科交叉的一个研究课题,从现有的论文来看,情感分类的相关研究还比较落后,还有很多需要关注的子课题,没有形成一个比较完善的体系,导致这方面的研究发展缓慢。论文旨在分析现有的关于情感分类的相关研究,在前人研究的基础上归纳出现有研究的分类和相关焦点问题,提出现有研究中的不足和研究发展的趋势,给以后的研究提供一些参考。论文对情感文本自动分类目前国内外的研究现状进行了分析,描述了现有的文献中的四个研究方向,并对情感文本自动分类问题特有的属性进行了探讨,提出了情感文本分类的一般框架。

从上面的讨论可以看到,情感文本自动分类的相关课题国内外已经有很多学者进行了研究,但是相对于基于主题的文本分类而言,这些研究还缺乏统一的标准和体系,在语料库和词典的建设方面还有很长的路要走。要达到自动化和精确的分类,现有的研究水平显然是不够的,还有很多需要改进的地方:

(1)语料库的建设缺乏统一性。研究人员都是采用自己建设的语料库,虽然在领域问题上可能会提供一些比较精确的意见,但是从系统的观点来看,情感词汇和句子的标注在很大程度上是一项主观的任务,这就需要大量的领域专家共同进行,才能尽可能提高分类的准确性。标注标准的不一致会造成研究结果的偏差和无规律可循。因此对于分类算法和分类系统就缺乏可比较性。

(2)如何正确选取特征项和降低特征空间的维度不管是对于基于主题的分类