python文本分析--停用词表的使用
之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集中去掉不需要的词汇,字符。虽然有通用的停用词表,但是如果想提高后续的分词效果,还是自己建立停用表比较好。
建立停用词表,实际上就是在txt中,输入想要删除的词汇,每个词汇用空格隔开即可。可以换行。
下面是我自己操作的效果图,及代码。方便自己及大家查看。
# 停用词表 [] 停用词的标准格式应该是一个词一行在txt中展示.如果一行中有多词汇,可以采用本文方法转换成标准格式
# 文本集 []
# 处理后文本本 []
stop = []
standard_stop = []
text = []
after_text = []
file_stop = r'D:\PycharmProjects\tufaci20190218\ceshi-stop-shupai.txt' # 停用词表
file_text = r'D:\PycharmProjects\tufaci20190218\ceshi-word.txt' # 要处理的文本集合
with open(file_stop,'r',encoding='utf-8-sig') as f :lines = f.readlines() # lines是list类型for line in lines:lline = line.strip() # line 是str类型,strip 去掉\n换行符stop.append(lline) # 将stop 是列表形式# stop 的元素是一行一行的 句子,需要进行转化为一个词一行,即下面:
for i in range(0,len(stop)):for word in stop[i].split():standard_stop.append(word)
# print(standard_stop)# 读取文本集,
with open(file_text,'r',encoding='utf-8-sig') as f :lines = f.readlines()print(lines)for line in lines:# lline = line.strip()# print(lline)lline = line.split()# print(lline)for i in lline:if i not in standard_stop:after_text.append(i)
print(after_text)# 将结果保存在txt中
with open(r'D:\PycharmProjects\tufaci20190218\a-ceshi-jieguo.txt','w+')as f :for i in after_text:f.write(i)
python文本分析--停用词表的使用相关推荐
- Python文本分析---笔记
Python文本分析 格式化数据:表格.json 非格式化数据:字符串.文本 内容: 1.中文分词 2.自定义词典.去停用词 3.词频统计.关键词抽取 4.案例:招聘需求关键词抽取 一. 中文分词 分 ...
- Python文本分析技巧
上一章提到,Python是一门易用且强大的编程语言,所以本书将其作为示例语言使用,同时也提供了一套基础的Python文本分析的教程. 为什么要介绍这些Python技巧?原因是希望读者具有Python和 ...
- python文本分析与挖掘(一)-构建语料库
实现功能: python文本分析与挖掘(一)-构建语料库 实现代码: import os from warnings import simplefilter simplefilter(action=' ...
- python 文本分析_使用Python进行文本分析–书评
python 文本分析 This is a book review of Text Analytics with Python: A Practical Real-World Approach to ...
- Python文本分析-常用中文停用词表(Chinese Stop Words)
在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个: 中文停用词表 哈工大停用词表 百度停用词表 四川大学机器智能实验室停用词库 而@elephan ...
- python 文本分析库_Python有趣|中文文本情感分析
前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...
- python文本分析和提取_python文本分析和提取 Python 文本内容指定字段提取
使用python对txt文本进行分析和提取 首先,打开计算机上的pycharm编辑器,如下图所示,然后进入下一步. 开学以后,小编没有碰过电脑,第一次,这就说明了开学是多么的可怕 其次,完成上述步骤后 ...
- 本·拉登的书架:Python文本分析拉登最常念叨什么?
本文首发于编程派的微信公众号,搜索"codingpy"关注编程派吧. 2015年,美国官方解密了一系列有关本·拉登的文件,其中最引人瞩目的,是美国国家情报总监办公室(The Off ...
- 【python】构建停用词表(文末附链接)
构建停用词表 构建停用词表是数据预处理的必要步骤,可以减小不必要的开销. 哈工大.百度.川大等停用词表见GitHub链接:https://github.com/goto456/stopwords 经实 ...
最新文章
- 神经网络 | 神经网络概述及发展史
- IdentityServer4 实现 OpenID Connect 和 OAuth 2.0
- Dalvik/ART(ANDROID)中的多线程机制(3)
- java显示星期几_Java 使用日历显示星期几
- linux的基础知识——信号的四要素和kill
- DBA/运维人员近期直播活动日历
- linux自定义全局命令
- 推荐一款非常好用的文本替换工具“Replace Pioneer”
- CR渲染器全景图如何渲染颜色通道_3dmax云渲染是什么?渲染100使用步骤
- #1.生活小妙招-联想小新潮7000电脑摄像头打不开
- Fxfactory插件:电影调色插件PHYX Color
- Word打开docx文件报错
- Mate50落后又贵,iPhone性能超强更便宜,消费者还期待华为?
- 安卓开发 投屏安卓设备到电脑端 scrcpy
- word插入图片的同时自动插入图片名称
- GlboalMapper20如何把mbt转为tif
- 咕泡P5人工智能深度学习高薪就业班
- 原生js引入 elementUI
- 郑州师范学院计算机实验室,郑州师范学院---VR虚拟仿真实验中心
- 服务器显示屏出现白屏,前端性能优化之白屏时间