Motivation:

在淘宝上买东西时往往会看一下其他人的发布的评价,一条一条看可能很浪费时间。因此本文旨在实现一个自动对评价信息进行分类的算法。

当前研究:

以往预测语义指向都是使用句子中出现的形容词,没有考虑副词或短语的情况(Hztzicassiliglou et al 1997)。或者需要人工手段判断形容词是积极词汇还是消极词汇。有的仅仅给出文档的主题信息,没有挖掘文章的方向(例如积极或者消极)。

算法实现步骤:

  1. 输入一个句子,使用词性标签对句子中包含形容词或副词的短语进行标注;
  2. 使用PMI-IR算法对上面抽取出来的每个短语计算其语义指向(SO);
  3. 计算一个句子所有SO的平均值.若SO>0,则recommended;否则not recommended

PMI-IR算法:

PMI-IR(Pointwise Mutual Information and Information Retrival)算法字面的意思是通过信息检索的手段计算两个单词或短语之间的相似度(PMI),公式如下:

p(word1&word2)是word1和word2同时出现的可能性。若word1和word2独立,则p(word1&word2)=p(word1)*p(word2),因此PMI表示的是两个单词之间的关联度。

对于一个抽取出的短语,其语义指向OS计算如下:

也就是一个短语和单词“excellent”的PMI减去这个短语和“poor”的PMI,得到这个短语和哪个词的关联度更大。若S0>0,则是正向的,否则是反向的。

联立上面两个式子,可得:

这里hits(x)表示利用搜索引擎检索文档时包含x的数量,“NEAR”代替了上面的“&”是因为NEAR能更好的表示单词之间的语义相连性Turney,2001)。

实验结果:

启发:

导致电影识别率低的一个原因是一般好的电影可能会包含一些消极的词汇(暴力、死亡)。因此事先知道电影的题材可能有助于提高识别精度,例如将计算的结果和电影简介进行对比。

情感分类《Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification ofReviews》相关推荐

  1. 情感分类《Thumbs up?Sentiment Classification using Machine Learning Techniques》

    相关背景: 这篇论文发表于2002,那时大量的文本分类研究都是对文章的主题分类,例如判断一篇文章是体育类还是财经类.然而随着在线评论的网站大肆兴起,为了提供更言简意赅的信息,就需要判断人们针对某件事发 ...

  2. 基于语义规则的胶囊网络跨域情感分类:Cross-Domain Sentiment Classification by Capsule Network With Semantic Rules

    基于语义规则的胶囊网络跨域情感分类 论文 ABSTRACT I. INTRODUCTION II. RELATED WORK A. CROSS-DOMAIN SENTIMENT CLASSIFICAT ...

  3. 3.Thumbs up?Sentiment Classif ication using Machine Learning Techniques

    Thumbs up?Sentiment Classification using Machine Learning Techniques 竖起大拇指?使用机器学习技术进行情感分类 一.摘要 我们认为不 ...

  4. 林轩田机器学习技法(Machine Learning Techniques)笔记(一)

    终于到机器学习技法了,接下来还是尽量保持每章完结就立刻更吧..基石没有保持写完就更,现在回头不知道自己在写啥,看笔记感觉写得一塌糊涂,感觉翻车了.慢慢改进吧. 听说技法挺难的,贴一下大神博客来加持一发 ...

  5. 林轩田机器学习技法(Machine Learning Techniques)笔记(三)

    感觉边写边记还不错hhh(感觉之前就剪剪图,写在记事本里打算之后再贴上去,实在是太蠢了⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄) 林轩田机器学习技法(Machine Learning Techniques)笔记 ...

  6. “Survey of machine learning techniques for malware analysis ”

    此论文对已经发表的文献中的关于机器学习对恶意软件的监测的不同研究方向.不同的研究目标.不同的方法.得出的不同结果进行了一定的分类总结. 根据文献,对其中三种基本层面进行了分类: 1.分析的特定目标 2 ...

  7. Machine Learning Techniques 笔记:2-1 Linear Support Vector Machine

    Linear Calssification:通过资料加权,看是正还是负,来对资料进行分类. PLA:把资料做未分类的线不止一条,那条线是最佳的分类?Margin最大? 我们学过的理论保障:VC bou ...

  8. A Detailed Investigation and Analysis of Using Machine Learning Techniques for Intrusion Detection译一

    入侵检测是当今网络世界的重要安全问题之一.已经开发了大量的基于机器学习方法的技术.然而,它们在识别所有类型的入侵方面并不十分成功.在本文中,我们对各种机器学习技术进行了详细的调查和分析,以找到与各种机 ...

  9. Machine Learning Techniques -6-Support Vector Regression

    6-Support Vector Regression For the regression with squared error, we discuss the kernel ridge regre ...

  10. Machine learning techniques to enable closed-loop control in anesthesia-笔记

    文章目录 1介绍 2 正向反向传播 1介绍 英国ULB Erasme医院的麻醉组已经研发并使用TOOLBOX软件工具很多年了,这个软件在小型手术中被使用,监视患者的状态并充当多个静脉药物输注的伺服控制 ...

最新文章

  1. python【蓝桥杯vip练习题库】ADV-96复数求和
  2. 【正一专栏】内马尔请不要把球迷的爱当做你交易的筹码
  3. caffe 在 windows 下的配置(scripts\build_win.cmd)
  4. 海豚的屠宰场--海豚湾
  5. (原创)使用TimeStamp控制并发问题[示例]-.cs脚本
  6. twisted python_Python爬虫Scrapy框架之Hello Word
  7. jsp+servlet实现文件的上传和下载
  8. 在二叉搜索树(BST)中查找第K个大的结点之非递归实现
  9. 使用jsPlumb插件实现动态连线功能
  10. UNIX网络编程——常用服务器模型总结
  11. 数学建模美赛E题数据获取
  12. 拼音转换成汉字html,汉字转换成拼音的种(转)
  13. Excel函数所有公式汇总
  14. 开启Windows卓越性能模式
  15. oracle 如何删除库,Oracle删除库
  16. java short int 转换_基本类型'short'-Java中的强制转换
  17. 要么听我的,要么走开(摘自《代码之道》第8章)
  18. kjb文件 解析_NVH原始数据文件如何读取 Part2
  19. 【安卓基础】Android直接通过路径来操作其他应用的私有目录,可以吗?
  20. CS231n课程笔记翻译9:卷积神经网络笔记

热门文章

  1. Ubuntu环境下安装飞秋
  2. 业务主管如何打消顾客的顾虑
  3. 五子棋规则之先后手的确定方法
  4. 极大极小搜索(α-β剪枝)_C++简单模拟
  5. mysql数据库特殊字符_MySQL创建带特殊字符的数据库名称方法示例
  6. Sage X3 PJM之计划开票管理
  7. 数据结构课设-小老鼠走迷宫(JAVA版)
  8. 【Vivado那些事】关于reset_project和reset_project -exclude ip使用辑器
  9. oracle性能调优之--Oracle 10g AWR ASH 配置
  10. 坑人的小米净水器: 漏水, 废水堵塞, 费用陷阱