之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集中去掉不需要的词汇,字符。虽然有通用的停用词表,但是如果想提高后续的分词效果,还是自己建立停用表比较好。

建立停用词表,实际上就是在txt中,输入想要删除的词汇,每个词汇用空格隔开即可。可以换行。

下面是我自己操作的效果图,及代码。方便自己及大家查看。

# 停用词表 []   停用词的标准格式应该是一个词一行在txt中展示.如果一行中有多词汇,可以采用本文方法转换成标准格式
# 文本集 []
# 处理后文本本 []
stop = []
standard_stop = []
text = []
after_text = []
file_stop = r'D:\PycharmProjects\tufaci20190218\ceshi-stop-shupai.txt'  # 停用词表
file_text = r'D:\PycharmProjects\tufaci20190218\ceshi-word.txt'  # 要处理的文本集合
with open(file_stop,'r',encoding='utf-8-sig') as f :lines = f.readlines()  # lines是list类型for line in lines:lline  = line.strip()     # line 是str类型,strip 去掉\n换行符stop.append(lline)        # 将stop 是列表形式# stop 的元素是一行一行的 句子,需要进行转化为一个词一行,即下面:
for i in range(0,len(stop)):for word in stop[i].split():standard_stop.append(word)
# print(standard_stop)# 读取文本集,
with open(file_text,'r',encoding='utf-8-sig') as f :lines = f.readlines()print(lines)for line  in lines:# lline = line.strip()# print(lline)lline = line.split()# print(lline)for i in lline:if i not in  standard_stop:after_text.append(i)
print(after_text)# 将结果保存在txt中
with open(r'D:\PycharmProjects\tufaci20190218\a-ceshi-jieguo.txt','w+')as f :for i in after_text:f.write(i)

python文本分析--停用词表的使用相关推荐

  1. Python文本分析---笔记

    Python文本分析 格式化数据:表格.json 非格式化数据:字符串.文本 内容: 1.中文分词 2.自定义词典.去停用词 3.词频统计.关键词抽取 4.案例:招聘需求关键词抽取 一. 中文分词 分 ...

  2. Python文本分析技巧

    上一章提到,Python是一门易用且强大的编程语言,所以本书将其作为示例语言使用,同时也提供了一套基础的Python文本分析的教程. 为什么要介绍这些Python技巧?原因是希望读者具有Python和 ...

  3. python文本分析与挖掘(一)-构建语料库

    实现功能: python文本分析与挖掘(一)-构建语料库 实现代码: import os from warnings import simplefilter simplefilter(action=' ...

  4. python 文本分析_使用Python进行文本分析–书评

    python 文本分析 This is a book review of Text Analytics with Python: A Practical Real-World Approach to ...

  5. Python文本分析-常用中文停用词表(Chinese Stop Words)

    在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个: 中文停用词表 哈工大停用词表 百度停用词表 四川大学机器智能实验室停用词库 而@elephan ...

  6. python 文本分析库_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  7. python文本分析和提取_python文本分析和提取 Python 文本内容指定字段提取

    使用python对txt文本进行分析和提取 首先,打开计算机上的pycharm编辑器,如下图所示,然后进入下一步. 开学以后,小编没有碰过电脑,第一次,这就说明了开学是多么的可怕 其次,完成上述步骤后 ...

  8. 本·拉登的书架:Python文本分析拉登最常念叨什么?

    本文首发于编程派的微信公众号,搜索"codingpy"关注编程派吧. 2015年,美国官方解密了一系列有关本·拉登的文件,其中最引人瞩目的,是美国国家情报总监办公室(The Off ...

  9. 【python】构建停用词表(文末附链接)

    构建停用词表 构建停用词表是数据预处理的必要步骤,可以减小不必要的开销. 哈工大.百度.川大等停用词表见GitHub链接:https://github.com/goto456/stopwords 经实 ...

最新文章

  1. 神经网络 | 神经网络概述及发展史
  2. IdentityServer4 实现 OpenID Connect 和 OAuth 2.0
  3. Dalvik/ART(ANDROID)中的多线程机制(3)
  4. java显示星期几_Java 使用日历显示星期几
  5. linux的基础知识——信号的四要素和kill
  6. DBA/运维人员近期直播活动日历
  7. linux自定义全局命令
  8. 推荐一款非常好用的文本替换工具“Replace Pioneer”
  9. CR渲染器全景图如何渲染颜色通道_3dmax云渲染是什么?渲染100使用步骤
  10. #1.生活小妙招-联想小新潮7000电脑摄像头打不开
  11. Fxfactory插件:电影调色插件PHYX Color
  12. Word打开docx文件报错
  13. Mate50落后又贵,iPhone性能超强更便宜,消费者还期待华为?
  14. 安卓开发 投屏安卓设备到电脑端 scrcpy
  15. word插入图片的同时自动插入图片名称
  16. GlboalMapper20如何把mbt转为tif
  17. 咕泡P5人工智能深度学习高薪就业班
  18. 原生js引入 elementUI
  19. 郑州师范学院计算机实验室,郑州师范学院---VR虚拟仿真实验中心
  20. 服务器显示屏出现白屏,前端性能优化之白屏时间

热门文章

  1. 外交教你用连词 Unit 2
  2. 我的第三本台湾版新书
  3. IT行业那么辛苦,我们为什么还要选择它?
  4. google在线翻译一
  5. 下拉列表刷新,分页加载
  6. callback(回调函数)
  7. 数据结构与算法-自定义双向链表API
  8. 平面设计师需要美术功底吗?
  9. “拿来主义”里面的道道
  10. USB/GPIO/SDIO