原文链接: http://chenhao.space/post/f6969e4.html

引言

文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次;按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。文本情感分析可归纳为 3 项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳

情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元。其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务。


情感信息抽取

有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如 GPS、屏幕分辨率)、观点持有者(如国家政府、台湾当局)等。某些组合搭配对于情感分析的上层任务如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么好)等。

评价词语

评价词语又称极性词、情感词,特指带有情感倾向性的词语。评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库基于词典两种方法。

基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性。基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳。

基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语。基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词。

评价对象

评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别。

一部分学者使用基于规则/模板的方法抽取评价对象。规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等。相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式。此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高。

有学者从另一个角度诠释了评价对象的抽取,他们将评价对象看作产品属性的一种表现形式。这种方法取得了较好的实验效果,超过了基于规则/模板的方法,但难点在于领域指示词的获取。

有学者采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类。这种方法理论上能够提高评价对象抽取的召回率,但遗憾的是,还没有实验将这种方法与上述传统的基于名词短语的方法进行对比。

观点持有者

评论中的观点持有者一般是由命名实体(如人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者。此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取。但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性。还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。

以上的方法将观点持有者的抽取当作一个独立的任务。通过观察许多研究者发现,观点持有者一般是与观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决。

组合评价单元

在某些情况下,单独的评价词语存在一定的歧义性,如评 价词语“高”在以下 3 个句子中的使用:

  • Sen 1:凯越的油耗真高.

  • Sen 2:捷达的性价比相当高.

  • Sen 3:这辆车有 1 米多高.

评价词语“高”在修饰不同的评价对象时表现出不同的极性。因此,仅考虑单独的 评价词语在情感分析中的应用是远远不够的。研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油耗-高”、“相当-高”)对于处理情感分析的上层任务更有帮助。

主观表达式

主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组。评价词语是主观表达式的一部分。此外,某些词语的组合(如 village idiot 或 get out of here)也能很明显地标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语。如何获取这些有意义的词组是主观表达式抽取的重点。

评价短语

评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等。因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分。这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元。

评价搭配

评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对〈评价对象,评价词语〉,如情感句 “凯越的油耗很高”中的“油耗-高”。情感句中出现的某些“主观表达式”和“评价短语”并非真正地表现出情感极性。如情感句 “车跑 得好快啊” 中的词语“好”并不存在情感极性,需要过滤掉。此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定。“评价搭配”则可以很好地解决上述两点问题。


情感信息分类

主客观信息

由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量,因此将情感文本中的主观信息和客观信息进行分离变得非常必要。在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度。

一部分学者通过考察文本内部是否含有情感知识来完成主客观信息分类。然而我们发现,许多客观句中也可能会包含评价词语。为了在更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元。此外,还有学者构建情感模板识别情感文本的 主客观性。以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘以及各种情感知识融合的方法研究。

还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性。这种方法的关键在于分类器和分类特征的选取。基于特征分类的方法目前还是主客观信息分类的主流方法。这种方法定义明确,其根本问题在于特征的选取。因此,尝试使用更深层、更复杂的分类特征也许是这类方法的突破方向之所在。

主观信息情感

主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等。一般而言,研究者将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?)。

两种研究思路:基于情感知识的方法以及基于特征分类的方法。相似地,前者主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性。后者主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务。


情感信息的检索与归纳

情感分析技术与用户的交互主要集中于情感信息检索和情感信息归纳两项任务上。其中,情感信息检索旨在为用户检索出主题相关,且包含情感信息的文档;情感信息归纳则针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果提供给用户参考,以节省用户翻阅相关文档的时间。

情感信息检索

情感信息检索要求检索回的文档同时满足两项准则: (1) 主题相关;(2) 具有情感倾向性。

  1. 结合传统的信息检索模型进行主题相关的文档检索.即给定某一主题,检索出所有与其相关的文档。
  2. 相关文档的主客观识别。即针对某一主题的所有相关文档,判别它们的主客观性,并获取带有情感的主观性文档。
  3. 主题相关的情感(主观性)文档排序。

情感信息归纳

情感信息的归纳往往以情感文摘的形式存在。传统的基于事实性新闻语料的文摘旨在提取重要的事实性信息,并去除冗余信息。相比而言,情感文摘的处理对象为某一产品或某一事件的大量用户评论,因此这种文摘融入了更多的情感信息。它主要侧重于提取具有明显情感倾向性的主观信息,是对某一产品或某一事件的评论信息的归纳和汇总。针对产品类评论信息,情感文摘共有两种呈现方式:一种是基于产品属性的情感文摘,另一种是基于情感标签的情感文摘。


参考文献

  1. http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=3832

文本情感分析综述[哈工大2010]笔记相关推荐

  1. 文本情感分析综述笔记

    文章目录 前言 一.应用场景 二.具体流程 1.文本预处理 1.1 分词,停用词,词典 1.2 实体识别(命名体识别) 2.情感分析(情感分类) 2.1 基于词典 2.2 基于机器学习 2.3 基于深 ...

  2. python 文本分析库_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  3. python情感分析模型_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  4. python情感分析中文_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  5. python中文文本情感分析

    目录 python中文文本情感分析 导语 训练模型保存并测试正确率 使用保存的模型 python中文文本情感分析 导语 要做一个项目要用到中文文本情感分析,查找了多种资料,在网上看了很多博客后,终于完 ...

  6. NLP:文本情感分析快速入门

    最近由中国计算机学会(CCF)主办,雷锋网,香港中文大学(深圳)承办的2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,由于博主主要做NLP方向,主要在做情感分析,文本生成方面,所以主要 ...

  7. python中文文本分析_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  8. 基于SnowNLP的商品评论文本情感分析

           摘要:情感文本电商情感标注分析研究是当前电商数据情感挖掘学术研究的重要热点,具有极高的国际应用价值.对当前电商手机在线商品评论词典进行情感文本电商情感标注分析与词典数据情感挖掘研究具有很 ...

  9. 自然语言处理之文本情感分析

    1.导语 深度学习近些年取得突破性的发展,目前深度学习技术在人工智能领域应用最广泛的两方面就是CV(计算机视觉)和NLP(自然语言处理),在本次夏虹老师的<人工智能>课程上,我和我的小组成 ...

最新文章

  1. 一文掌握异常检测的实用方法 | 技术实践
  2. 如何使用Mybatis的拦截器实现数据加密与解密
  3. 分布式事务SEATA的AT模式的简单使用
  4. 光盘显示容量但读不出文件_软网推荐:文件夹容量属性增强显示
  5. 【OS学习笔记】十五 保护模式三:保护模式下的内存访问机制
  6. Chrome 73 DevTools 新功能之 Logpoints
  7. 新鲜出炉,Python 告诉你程序员最关注的技术竟然是……
  8. C Linux 文件加锁 lock fcntl
  9. JavaScript中实现深浅拷贝
  10. 华为电脑如何投屏到电视linux,华为无线投屏怎么用
  11. 有没有什么免费的网页视频录制软件?PC端视频录制软件集合
  12. element-ui MessageBox 弹框判断确认和取消
  13. 关于流程图的场景提炼,这一次终于说清楚业务流程图、功能流程图、页面流程图了
  14. 【Unity】游戏音效制作工具
  15. 安卓手机变鼠标图文教程
  16. mysql的auto_increment报错1467
  17. linux图形化界面进不去的问题(startx命令报错bash:startx command not found) 经验之谈
  18. 终端、控制台、虚拟终端、伪终端的概念,阐述终端与shell的关系
  19. 比ping更强大的fping
  20. Win10桌面布局-透明剧中任务栏

热门文章

  1. vegas pro 记录
  2. premiere字幕插件介绍
  3. 【爬虫】Yhen手把手教你爬取表情包,让你成为斗图界最靓的仔!
  4. 安卓SDK和API是什么意思?
  5. 【应用回归分析】CH3 回归参数的估计1——最小二乘估计
  6. html页面实现文件上传
  7. 计算机系网络安全的教育方案,网络安全教育计划.doc
  8. ABB机器人线速度_ABB机器人控制柜380进线接线
  9. JAVA学习笔记33——模拟实现HandSet+数据存储综合练习(javabean版+容器板)
  10. 老男孩shell 实战专业培训视频