vader —— 一种基于规则的英文文本情感识别方法
之前舆情项目的合作cp方提出有海外舆情监控的需求,原先的舆情系统的大部分功能都可以天然支持非中文语言,唯独在情感识别上,由于中英文语法和词库的不同,需要重新实现英文的情感识别算法。
考虑到现有项目中中文情感识别是基于规则和词库的(对比基于学习模型),基于现有的流式计算框架,决定采用类似的基于规则和词库的方法来实现英文情感识别是更合适的。再查阅了一些相关文献之后,决定基于vader方法来做。
vader是一种基于词库和语法规则来进行文本情感识别的方法,发表于2014年的AAAI会议。github地址:https://github.com/cjhutto/vaderSentiment。
论文中也提到了与基于学习模型方法的对比,后者主要存在需要大规模的训练集;训练和预测耗时和复杂度高;在一类文本中训练得到的模型无法很好的泛化处理其他类型文本的数据。此外,线上项目要求较高的precison,但学习模型有时会出现一些无法预测的低级错误分类,非常影响用户对于我们情感识别算法的准确性感官。以上这些原因也是我们此前中文情感识别采用基于规则模型所考虑的情况。
vader论文的干货主要集中在3.1和3.2节,总结如下:
vader词库的构建:1 采用人工标注(10人)的方法为7000+的常用情感词(包括有形容词,名词,副词等)进行了情感极性及强度判定。从-4到+4表示从极度负面和极度正面情感。2 区别与其他已提出的情感词典,vader的词典还考虑了常用颜文字(如: )),以应对twitter等网络环境下非标准句子的情感判别;考虑常用缩写词的情感,如WTF, LOL等;常用俚语,如nah,giggly等。vader的语法规则对情感判别的影响:1 **标点**:如!会加强句子的情感强度2 **大小写**:若句子同时含有大小写,那么全大写的单词情感强度会加强3 **程度副词**:比如extremely good就比good正面情感要强很多4 **连词**:例如句子存在转折连词but,使but前后情感极性反转,但一般意图在于强调but后的语意情感。5 **否定词**:比如isn't会导致随后的情感次极性反转。
在项目的实际运用中,我们做了如下的改进:
我们对情感词典中一些词的情感强度做了调整,并添加了项目相关的情感词;
依据文本和项目的相关性强弱,自适应的调整正负面情感判别的阈值;
在最终结果的呈现上,将词性(单复数,比较级等)还原为原型,以便于统计呈现等
vader —— 一种基于规则的英文文本情感识别方法相关推荐
- 英文文本情感分析textblob模块sentiment方法
[小白从小学Python.C.Java] [计算机等考+500强证书+考研] [Python-数据分析] 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题 关于下列代码说 ...
- 结合语言知识和深度学习的中文文本情感分析方法
结合语言知识和深度学习的中文文本情感分析方法 徐康庭, 宋威 北方工业大学信息学院 摘要:在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值:而基于深度学习的方法由于 ...
- 一种基于敏感度可调的语音情感识别方法及系统
一种基于敏感度可调的语音情感识别方法及系统 技术领域 本发明属于语音识别领域,尤其涉及一种基于敏感度可调的语音情感识别方法及系统. 背景技术 情感是人类交流手段的一种常见的表达方式,在人机交互中起着重 ...
- 文本情感分析方法研究小结
文本情感分析总结 1. 文本情感分析简介 何谓文本情感分析,其实很简单,利用算法来分析提取文本中表达的情感.例如分析一个句子表达的好.中.坏等判断,高兴.悲伤.愤怒等情绪.如果能将这种文字转为情感的操 ...
- 基于pytorch的文本情感识别(LSTM,CNN)
文章目录 前言 一.数据处理与Word2vec词向量训练 二.创建神经网络的输入batch 三.神经网络模型 1.LSTM 2.CNN 四.训练与测试 六.实验结果 七.完整代码 1.LSTM 2.C ...
- 浅析计算机用户身份识别技术,一种计算机系统及其用户的身份识别方法和系统与流程...
技术领域本发明涉及身份识别领域,具体涉及一种计算机系统及其用户的身份识别方法和系统. 背景技术: 随着移动互联网技术的普及,移动支付已经成为人们工作.学习.娱乐.生活中非常重要的一部分.随之,移动支付 ...
- 【论文阅读】多粒度特征融合的维度语音情感识别方法
陈婧, 李海峰, 马琳, et al. 多粒度特征融合的维度语音情感识别方法[J]. 信号处理, 2017(3). 主要内容:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征 ...
- 一种快速的未登陆词识别方法(原理和实现)
一种快速的未登陆词识别方法(原理和实现) 一种快速的未登陆词识别方法(原理和实现) 最近网络上关于中文分词的算法已经很多了,在实际应用中每个人根据对中文分词的不同理解写了不同的中文分词 ...
- 人脸识别最低像素_一种低分辨率条件下的人脸识别方法与流程
本发明涉及生物识别技术领域,具体涉及一种低分辨率条件下的人脸识别方法. 背景技术: 从上个世纪六十年代以来,人脸识别算法获得了长期的发展,从对单一背景的针对性研究到现在对各种复杂条件的适应,如表情.姿 ...
最新文章
- 信息系统项目管理师-范围管理知识点
- 同一个页面生成多个sessionid_web页面渲染(一)
- SAP UI5 的本地 Fiori sandbox Launchpad
- cdh 简介_CDH 1、CDH简介
- 内存管理2(主讲MRR)
- Ogre 1.7 SDKTRAY 初探
- 多源数据融合:大数据分析的瓶颈
- 数据面最流行的工具包dpdk的前世-现在和未来
- 微型计算机忘记密码,一种基于微型计算机的密码锁的制作方法
- 去掉 新版GeForce Experience 桌面录制视频时的 右上角图标
- java 订单支付宝_Java支付宝订单查询
- 手机流量充值 php代码,流量充值异步通知示例代码
- TextSeek使用教程 (高级篇) - 文件搜索软件
- Mac配置/关闭代理命令
- 使用英特尔® 图形性能分析器分析实际游戏性能
- 用cadence进行原理图设计时,如何更改图纸大小?
- CC00292.CloudKubernetes——|KuberNetes运维.V14|——|EFLK架构.v09|报错处理|
- 自研数据库CynosDB存储系统如何实现即时恢复
- 第01章 Spring-Boot 应用文件application配置
- idea error jdk isnt specified for module