snowNLP算法库

  • 引入
  • SnowNLP简介
  • snowNLP功能
    • SnowNLP分词
    • snowNLP标注拼音
    • snowNLP提取关键字
    • snowNLP情感分析
  • demo
    • 代码实现

引入

上回讲到了Jieba和Gensim这两个算法库,都是可以很方便的处理中文文本内容;
今天我们来说道说道SnowNLP这个库

SnowNLP简介

SnowNLP是一个python写的类库,可以方便的处理中文文本内容。
SnowNLP的技术框架参考了英语自然语言处理工具库TextBlob,不过SnowNLP不引用NLTK库,所有的算法都是isnowfy大神实现的。

snowNLP功能

SnowNLP分词

中文分词是将一段话分解成若干词语,这并不是一件很容易的事。

例如,在句子“湖南省会是长沙”中,“湖南省会”部分由“湖南”和“省会”两个词语组成,而在“湖南省会不断发展”中,“湖南省会”部分由“湖南省”和“会”组成。

snownlp库能达到较好的分词效果,如下示例:

from snownlp import SnowNLP
s1 = SnowNLP('湖南省会是长沙')
print(s1.words)    # ['湖南', '省会', '是', '长沙']
s2 = SnowNLP('湖南省会不断发展')
print(s2.words)    # ['湖南省', '会', '不断', '发展']

输出:
[‘湖南’, ‘省会’, ‘是’, ‘长沙’]
[‘湖南省’, ‘会’, ‘不断’, ‘发展’]

snowNLP标注拼音

snownlp还可以为每个字标注拼音,示例:

from snownlp import SnowNLP
s = SnowNLP('湖南省会是长沙')
print(s.pinyin)

输出:
[‘hu’, ‘nan’, ‘sheng’, ‘hui’, ‘shi’, ‘chang’, ‘sha’]

snowNLP提取关键字

snownlp可以提取文本中的关键字以及选择一句话作为文本的摘要,示例:

from snownlp import SnowNLP
text = '国防科技大学是高素质新型军事人才培养和国防科技自主创新高地。' '要紧跟世界军事科技发展潮流,适应打赢信息化局部战争要求,' '抓好通用专业人才和联合作战保障人才培养,加强核心关键技术攻关,' '努力建设世界一流高等教育院校。'
s = SnowNLP(text)
print(s.keywords(3))
print(s.summary(1))

输出:
[‘科技’, ‘人才’, ‘军事’]
[‘国防科技大学是高素质新型军事人才培养和国防科技自主创新高地’]

snowNLP情感分析

snownlp还能对中文文本进行情感分析。

情感分析的结果是一个0~1之间的数字,数字越大表示这句话越偏向于肯定的态度,数字越小表示越偏向于否定的态度。

from snownlp import SnowNLP
s1 = SnowNLP('不错不错,楼主真棒')
s2 = SnowNLP('不知道你到底想说什么')
print(s1.sentiments)
print(s2.sentiments)

输出:
0.9719003655581226
0.2321400466499438


demo

提取HTML文件中的所有回复,分析帖子的好评度。

测试文件:

<!DOCTYPE html>
<html lang="en">
<body id="activity-detail" class="zh_CN mm_appmsg">
<p class="top">评论区域:</p><div class="text"><a target="_blank">用户1</a>:赞!
</div>
<div class="text"><a target="_blank">用户2</a>:不错不错,楼主真棒!
</div>
<div class="text"><a target="_blank">用户3</a>:还可以。
</div>
<div class="text"><a target="_blank">用户4</a>:楼主加油。
</div>
<div class="text"><a target="_blank">用户5</a>:向楼主学习。
</div>
<div class="text"><a target="_blank">用户6</a>:感谢楼主。
</div>
<div class="text"><a target="_blank">用户7</a>:这个帖子真心很赞,推荐大家都看看。
</div>
<div class="text"><a target="_blank">用户8</a>:受益颇多。
</div>
<div class="text"><a target="_blank">用户9</a>:赞赞赞赞赞赞赞赞。
</div>
</body>
</html>

代码实现

import re
from pyquery import PyQuery
from snownlp import SnowNLPdef evaluate(path):html = open(path,'r',encoding="utf-8")score, count = 0, 0# 任务:提取HTML文件中的所有回复,分析帖子的好评度。code = html.read()pq = PyQuery(code)tag = pq('div.text')taga = pq('a')words = ""for word in tag.text():if word not in taga.text():words += wordtxtlist = words.split(':')txtlist.pop(0)for txt in txtlist:count += 1s = SnowNLP(txt)score += s.sentimentsreturn  int(score*100/count)

NLP算法-情绪分析-snowNLP算法库相关推荐

  1. 算法效率分析基础-算法四

    主要内容: 介绍研究算法效率的通用框架 介绍三种符号: O(读作O),Ω(读作omega),和Θ(读作theta).这些数学借来的符号已经成为讨论算法效率的特定语言 使用通用框架系统对非递归算法进行分 ...

  2. 海外某音x-gorgon算法原理分析及算法源码公布

    算法源码见附件 分享一个去年逆的一个海外版某音 1474版本 x-gorgon算法,这里简单介绍一下算法原理,首先malloc出来一个0x1A大小的空间,然后截取用户传入的byte数组中的参数,截取开 ...

  3. 通过网页查看服务器算法,java分析html算法(java网页蜘蛛算法示例)

    遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费我们宝贵的时间. 第二个办法用开源组织htmlparser的包 ...

  4. 【NLP】情绪分析与酒店评论

  5. prim算法_数据结构与算法

    根据MOOC上课程总结,文章目录为: 一.引论 数据结构的基本概念 数据的逻辑结构和存储结构 算法及其时间复杂度 时间复杂度及应用 二.线性表 线性表的概念及顺序存储 单链表的概念及其基本操作 建立单 ...

  6. NLP情感分析——KNN算法

    一. 基本概念 文本情感分析是对文本中的某段已知文字的两极性进行分类,判断出此文字中表述的观点是积极的.消极的.还是中性的情绪. 目前的研究方法主要有两类:一种是基于情感词典的方法,另一种是基于机器学 ...

  7. Turf.js——用于地理空间分析的js库,处理各种地图算法

    Turf.js--用于地理空间分析的js库,处理各种地图算法 一.官网 中文--https://turfjs.fenxianglu.cn/ 英文--https://turfjs.org/ npm地址- ...

  8. Wannacry之t.wnry核心库解密算法完全分析

    已经发布于freebuf : http://www.freebuf.com/column/135103.html Wannacry机理很多安全厂商都已经分析透了,他的加密核心功能就在他释放的t.wrn ...

  9. NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要)

    NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要) 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!

  10. 深度学习分析--TextCNN算法原理及分类实现

    深度学习算法背景 人工智能发展历史 随着算力提高以及深度学习的应用,近几年算法发展很快 应用场景 计算机视觉 用于车牌识别和面部识别等的应用. 信息检索 用于诸如搜索引擎的应用 - 包括文本搜索和图像 ...

最新文章

  1. Win Srv 2012 R2 RDS移动RDS客户端
  2. [小技巧]PicGo、Gitee和Typora构建在线图床
  3. onenote快捷键_onenote链接系列:4种链接笔记的地址
  4. Spring基于 XML 的声明式事务控制(配置方式)
  5. java 无侵入监控_MyPerf4J 一个高性能、无侵入的Java性能监控和统计工具
  6. 今天的我家有12口人的即时通讯
  7. our happy ending(状压dp)
  8. java固定数组_Java在固定长度的数组里加入一个数
  9. php生成excel范例,支持任意行列
  10. JavaScript 变量提升
  11. Java项目架构演进和SpringCloud总结
  12. Liunx静态库和动态库
  13. EntityFramework codefirst
  14. linux dlopen 源码,采用dlopen、dlsym、dlclose加载动态链接库
  15. IDL编程实现拟合树的圆心代码
  16. AD教程系列 | 0-认识Altium Designer:汉化和新建项目
  17. h5页面如何切图_切图与CSS入门
  18. 【龙印】以程序员的角度整定3d打印机的pid实现控温
  19. java.sql.SQLException: Incorrect string value: '\xE5\x85\x89004' for column 'department_name' at row
  20. matlab保存所有图,Matlab中图片保存的5种方法

热门文章

  1. ECharts制作报表模板
  2. sql语句大全+实例讲解
  3. ad域 禁用账号_AD域撤销域用户管理员权限方案
  4. 无线通讯基站服务器,无线通信的软基站技术详解
  5. LoadRunner压力测试
  6. 零基础java学习笔记
  7. 数学建模常用模型10 :数据包络(DEA)分析法(投入产出法)
  8. wifi分析仪怎么看哪个信道好_无线路由器设置选择哪条信道比较好
  9. 关于电脑前置耳机插孔没声音的问题
  10. CPC软件使用 专利申请说明书附图插入(简单粗暴)CPC软件安装