NLP算法-情绪分析-snowNLP算法库
snowNLP算法库
- 引入
- SnowNLP简介
- snowNLP功能
- SnowNLP分词
- snowNLP标注拼音
- snowNLP提取关键字
- snowNLP情感分析
- demo
- 代码实现
引入
上回讲到了Jieba和Gensim这两个算法库,都是可以很方便的处理中文文本内容;
今天我们来说道说道SnowNLP这个库
SnowNLP简介
SnowNLP是一个python写的类库,可以方便的处理中文文本内容。
SnowNLP的技术框架参考了英语自然语言处理工具库TextBlob,不过SnowNLP不引用NLTK库,所有的算法都是isnowfy大神实现的。
snowNLP功能
SnowNLP分词
中文分词是将一段话分解成若干词语,这并不是一件很容易的事。
例如,在句子“湖南省会是长沙”中,“湖南省会”部分由“湖南”和“省会”两个词语组成,而在“湖南省会不断发展”中,“湖南省会”部分由“湖南省”和“会”组成。
snownlp库能达到较好的分词效果,如下示例:
from snownlp import SnowNLP
s1 = SnowNLP('湖南省会是长沙')
print(s1.words) # ['湖南', '省会', '是', '长沙']
s2 = SnowNLP('湖南省会不断发展')
print(s2.words) # ['湖南省', '会', '不断', '发展']
输出:
[‘湖南’, ‘省会’, ‘是’, ‘长沙’]
[‘湖南省’, ‘会’, ‘不断’, ‘发展’]
snowNLP标注拼音
snownlp还可以为每个字标注拼音,示例:
from snownlp import SnowNLP
s = SnowNLP('湖南省会是长沙')
print(s.pinyin)
输出:
[‘hu’, ‘nan’, ‘sheng’, ‘hui’, ‘shi’, ‘chang’, ‘sha’]
snowNLP提取关键字
snownlp可以提取文本中的关键字以及选择一句话作为文本的摘要,示例:
from snownlp import SnowNLP
text = '国防科技大学是高素质新型军事人才培养和国防科技自主创新高地。' '要紧跟世界军事科技发展潮流,适应打赢信息化局部战争要求,' '抓好通用专业人才和联合作战保障人才培养,加强核心关键技术攻关,' '努力建设世界一流高等教育院校。'
s = SnowNLP(text)
print(s.keywords(3))
print(s.summary(1))
输出:
[‘科技’, ‘人才’, ‘军事’]
[‘国防科技大学是高素质新型军事人才培养和国防科技自主创新高地’]
snowNLP情感分析
snownlp还能对中文文本进行情感分析。
情感分析的结果是一个0~1之间的数字,数字越大表示这句话越偏向于肯定的态度,数字越小表示越偏向于否定的态度。
from snownlp import SnowNLP
s1 = SnowNLP('不错不错,楼主真棒')
s2 = SnowNLP('不知道你到底想说什么')
print(s1.sentiments)
print(s2.sentiments)
输出:
0.9719003655581226
0.2321400466499438
demo
提取HTML文件中的所有回复,分析帖子的好评度。
测试文件:
<!DOCTYPE html>
<html lang="en">
<body id="activity-detail" class="zh_CN mm_appmsg">
<p class="top">评论区域:</p><div class="text"><a target="_blank">用户1</a>:赞!
</div>
<div class="text"><a target="_blank">用户2</a>:不错不错,楼主真棒!
</div>
<div class="text"><a target="_blank">用户3</a>:还可以。
</div>
<div class="text"><a target="_blank">用户4</a>:楼主加油。
</div>
<div class="text"><a target="_blank">用户5</a>:向楼主学习。
</div>
<div class="text"><a target="_blank">用户6</a>:感谢楼主。
</div>
<div class="text"><a target="_blank">用户7</a>:这个帖子真心很赞,推荐大家都看看。
</div>
<div class="text"><a target="_blank">用户8</a>:受益颇多。
</div>
<div class="text"><a target="_blank">用户9</a>:赞赞赞赞赞赞赞赞。
</div>
</body>
</html>
代码实现
import re
from pyquery import PyQuery
from snownlp import SnowNLPdef evaluate(path):html = open(path,'r',encoding="utf-8")score, count = 0, 0# 任务:提取HTML文件中的所有回复,分析帖子的好评度。code = html.read()pq = PyQuery(code)tag = pq('div.text')taga = pq('a')words = ""for word in tag.text():if word not in taga.text():words += wordtxtlist = words.split(':')txtlist.pop(0)for txt in txtlist:count += 1s = SnowNLP(txt)score += s.sentimentsreturn int(score*100/count)
NLP算法-情绪分析-snowNLP算法库相关推荐
- 算法效率分析基础-算法四
主要内容: 介绍研究算法效率的通用框架 介绍三种符号: O(读作O),Ω(读作omega),和Θ(读作theta).这些数学借来的符号已经成为讨论算法效率的特定语言 使用通用框架系统对非递归算法进行分 ...
- 海外某音x-gorgon算法原理分析及算法源码公布
算法源码见附件 分享一个去年逆的一个海外版某音 1474版本 x-gorgon算法,这里简单介绍一下算法原理,首先malloc出来一个0x1A大小的空间,然后截取用户传入的byte数组中的参数,截取开 ...
- 通过网页查看服务器算法,java分析html算法(java网页蜘蛛算法示例)
遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费我们宝贵的时间. 第二个办法用开源组织htmlparser的包 ...
- 【NLP】情绪分析与酒店评论
- prim算法_数据结构与算法
根据MOOC上课程总结,文章目录为: 一.引论 数据结构的基本概念 数据的逻辑结构和存储结构 算法及其时间复杂度 时间复杂度及应用 二.线性表 线性表的概念及顺序存储 单链表的概念及其基本操作 建立单 ...
- NLP情感分析——KNN算法
一. 基本概念 文本情感分析是对文本中的某段已知文字的两极性进行分类,判断出此文字中表述的观点是积极的.消极的.还是中性的情绪. 目前的研究方法主要有两类:一种是基于情感词典的方法,另一种是基于机器学 ...
- Turf.js——用于地理空间分析的js库,处理各种地图算法
Turf.js--用于地理空间分析的js库,处理各种地图算法 一.官网 中文--https://turfjs.fenxianglu.cn/ 英文--https://turfjs.org/ npm地址- ...
- Wannacry之t.wnry核心库解密算法完全分析
已经发布于freebuf : http://www.freebuf.com/column/135103.html Wannacry机理很多安全厂商都已经分析透了,他的加密核心功能就在他释放的t.wrn ...
- NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要)
NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要) 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!
- 深度学习分析--TextCNN算法原理及分类实现
深度学习算法背景 人工智能发展历史 随着算力提高以及深度学习的应用,近几年算法发展很快 应用场景 计算机视觉 用于车牌识别和面部识别等的应用. 信息检索 用于诸如搜索引擎的应用 - 包括文本搜索和图像 ...
最新文章
- Win Srv 2012 R2 RDS移动RDS客户端
- [小技巧]PicGo、Gitee和Typora构建在线图床
- onenote快捷键_onenote链接系列:4种链接笔记的地址
- Spring基于 XML 的声明式事务控制(配置方式)
- java 无侵入监控_MyPerf4J 一个高性能、无侵入的Java性能监控和统计工具
- 今天的我家有12口人的即时通讯
- our happy ending(状压dp)
- java固定数组_Java在固定长度的数组里加入一个数
- php生成excel范例,支持任意行列
- JavaScript 变量提升
- Java项目架构演进和SpringCloud总结
- Liunx静态库和动态库
- EntityFramework codefirst
- linux dlopen 源码,采用dlopen、dlsym、dlclose加载动态链接库
- IDL编程实现拟合树的圆心代码
- AD教程系列 | 0-认识Altium Designer:汉化和新建项目
- h5页面如何切图_切图与CSS入门
- 【龙印】以程序员的角度整定3d打印机的pid实现控温
- java.sql.SQLException: Incorrect string value: '\xE5\x85\x89004' for column 'department_name' at row
- matlab保存所有图,Matlab中图片保存的5种方法