词性标注

就是给每一个词确定一个词性分类。很多场景需要做词性标注,然后基于标注的词性可以做进一步应用。例如统计竞争对手新闻稿的主要词语分布、分词结果筛选和过滤、配合文章标签的提取等。
结巴分词的词性标注方法采用和ictclas兼容的标记法。常用的分类如下:

简单实现:

使用jieba.posseg做带有词性标注的分词,并通过循环得到每个分词的词语和类别结果;

import newspaper
import pandas as pd
import jieba.posseg as pseg# 加载停用词
stopWords = [line.strip() for line in open('stopWord2.txt', encoding='gbk').readlines()]# 获取文章 银保监会出台新政为例
article = newspaper.Article('https://finance.sina.com.cn/money/bank/bank_hydt/2019-02-25/doc-ihsxncvf7656807.shtml', language='zh')
# 下载文章
article.download()
# 解析文章
article.parse()
# 对文章进行nlp处理
article.nlp()
# nlp处理后的文章拼接
article_words = "".join(article.keywords)seg_list_exact = pseg.cut(article_words)  # 精确模式分词[默认模式]words_list = []  # 空列表用于存储分词和词性分类for word in seg_list_exact:  # 循环得到每个分词if word not in stopWords:  # 如果不在去除词库中words_list.append((word.word, word.flag))  # 将分词和词性分类追加到列表words_pd = pd.DataFrame(words_list, columns=['word', 'type'])  # 创建结果数据框
print (words_pd.head())  # 展示

python数据分析:词性标注相关推荐

  1. python 数据分析班_Python数据分析班

    第一课 Python入门 知识点1:Python安装 知识点2:常用数据分析库NumPy.Scipy.Pandas.matplotlib安装 知识点3:常用高级数据分析库scikit-learn.NL ...

  2. Python 数据分析第六期--文本数据分析

    Python 数据分析第六期–文本数据分析 1. Python 文本分析工具 NLTK NLTK (Natural Language Toolkit) NLP 领域最常用的一个 Python 库 , ...

  3. python数据分析要学什么_python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  4. python数据分析基础 余本国_Python数据分析基础

    本书根据作者多年教学经验编写, 条理清楚, 内容深浅适中, 尽量让读者从实例出发, 结合课后练习, 少走弯路.本书涉及的内容主要包括Python数据类型与运算.流程控制及函数与类.Pandas库的数据 ...

  5. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  6. 为什么学习Python数据分析

    为什么学习Python数据分析?这是很多人都比较关注的一个问题,Python编程语言近几年在互联网行业是非常火爆的,尤其是在人工智能这一领域,它会大大的提高我们的工作效率等等,具体来看看下面的详细介绍 ...

  7. Python数据分析可以应用到哪些领域

    随着大数据的应用越来越广泛,应用的行业也越来越多,我们每天都可以看到一些关于数据分析的新鲜应用,从而帮助人们获取到有价值的信息.例如,网购时经常发现电商平台向我们推荐商品,往往这类商品都是我们最近浏览 ...

  8. 1行代码实现Python数据分析:图表美观清晰,自带对比功能丨开源

    公众号关注 "视学算法" 设为 "星标",DLCV消息即可送达! 萧箫 发自 凹非寺 转自 | 量子位 你是否也在朋友圈看过这样的小广告: 「你要悄悄学Pyth ...

  9. 靠Python数据分析已赚10w的本科生,附赠学习资料

    今天小编给大家推荐一个Python终身学习者:老表,他是开源学习组织Datawhale终身成员,有一年半的Python编程学习经验,热爱爬虫与数据分析,掌握了Python Web开发框架 Flask, ...

  10. 只要60页!牛逼不行的Python数据分析入门知识手册

    一个月不走弯路快速入门学python和python数据分析路线,呕心沥血加班加点做了2天,一共63页,该课件讲的都是路线中的核心知识,今天把该PPT分享给大家,能根据该课件提到的知识有针对性的学,做到 ...

最新文章

  1. thymleaf th:text 和 th:utext 之间的区别
  2. 用户人品预测大赛--getmax队--竞赛分享
  3. 快刀斩“乱码”,你需要这些套路!
  4. SQL Server 2000查询n到m条记录
  5. [转]asp.net权限认证:摘要认证(digest authentication)
  6. 计算机原理存储器实验报告,计算机组成原理存储器实验报告.doc
  7. C# 类(7) 继承
  8. 【Boost】boost库asio详解4——deadline_timer使用说明
  9. kafka的反序列化类KafkaDeserializationSchema的使用(还没整理完)
  10. 【论文阅读】JDA(joint distribution adaptation)/2013初稿
  11. windows下如何使用QT编写dll程序 .
  12. STM32矩阵键盘——行列扫描编码模式
  13. 铃木dl250参数_豪爵铃木DL250 ABS测评-通勤篇
  14. oracle获取timestamp日期,oracle日期时间型timestamp的深入理解
  15. 微商大咖,从香港代购开始,做到流水十几亿平台创始人的董小姐
  16. PageOffice 在线打开 word 文件实现痕迹保留、键盘批注、手写批注
  17. Elasticsearch提高查询性能的方法
  18. 降噪蓝牙耳机对比测评:南卡和OPPO哪款降噪耳机好?
  19. 微信公众号文章添加腾讯问卷的方法
  20. 每天一个shell小知识(shell变量)

热门文章

  1. vs code查找内容(当前文件查找/全局查找)
  2. wekan 工具配置
  3. 安装在ntfs分区的linux,从硬盘NTFS分区安装mandriva linux
  4. Android基础之批量发送短信
  5. 不确定性推理——主观贝叶斯方法matlab实现
  6. 芒种时节,某地为何无人收割小麦?
  7. php 开源邮件系统,RoundCube Webmail
  8. 几种高效电路分析方法
  9. 风雨萧关道【电视专题片解说词】
  10. MSP430加密代码保护