多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序
文章目录
- 文章简介与更新记录
- 停用词
- python合并中文停用词词表的代码
- 下载所有文件
文章简介与更新记录
如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件
- 2017/07/04 创建文章,上传文件
- 2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199
停用词
在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.
python合并中文停用词词表的代码
# - * - coding: utf - 8 -*-
#
# 作者:田丰(FontTian)
# 创建时间:'2017/7/4'
# 邮箱:fonttian@Gmaill.com
# CSDN:http://blog.csdn.net/fontthrone
import sysreload(sys)
sys.setdefaultencoding('utf-8')# 获取停用词的List
def GetListOfStopWords(filepath):f_stop = open(filepath)try:f_stop_text = f_stop.read()f_stop_text = unicode(f_stop_text, 'utf-8')finally:f_stop.close()f_stop_seg_list = f_stop_text.split('\n')return f_stop_seg_list# 保存List
def SaveFile(list, filename):f_stop = open(filename, 'w')for item in range(len(list)):if item != len(list):f_stop.writelines((list[item].encode('utf-8')) + '\n')else:f_stop.writelines(list[item].encode('utf-8'))f_stop.close()# 求List并集
def GetListUnion(listName):ListUnion = ['!']for item in listName:# print itemListUnion.extend(GetListOfStopWords(item))return list(set(ListUnion))def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1stopwords_pathEN = 'ENstopwords.txt' # 默认英文总表 2stopwords_pathCNEN = 'CNENstopwords.txt' # 默认中英文混合总表 4if keynumber == 1:listOfFileName.append(stopwords_pathCN)elif keynumber == 2:listOfFileName.append(stopwords_pathEN)elif keynumber == 3:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)elif keynumber == 5:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 6:listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 7:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)else:listOfFileName.append(stopwords_pathCN)print 'The keynumber is wrong,chage keynumber to 1 'listOfFileName.append(stopwords_pathCNEN)ListUnion = GetListUnion(listOfFileName)SaveFile(ListUnion, FileName)'''
stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1
stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2
stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4
'''listOfFileName = []# 需要添加的 中文 停用词词表
stopwords_path1 = 'stopwords1893.txt'
stopwords_path2 = 'stopwords1229.txt'
stopwords_path3 = 'stopwordshagongdakuozhan.txt'
stopwords_path4 = 'stop_words_zh.txt'# 需要添加的 英文 停用词词表
stopwords_path5 = 'stop_words_eng.txt'
stopwords_path6 = 'ENstopwords891.txt'# 需要添加的 中文 停用词词表路径
# listOfFileName.append(stopwords_path1)
# listOfFileName.append(stopwords_path2)
# listOfFileName.append(stopwords_path3)
# listOfFileName.append(stopwords_path4)# 需要添加的 英文 停用词词表路径
listOfFileName.append(stopwords_path5)
listOfFileName.append(stopwords_path6)GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)
下载所有文件
百度云:链接:https://pan.baidu.com/s/1s0lVoYQz38Tg2m3CdLflbg
提取码:cps1
复制这段内容后打开百度网盘手机App,操作更方便哦
github:https://github.com/FontTian/NLP_tools/tree/master/%E6%B1%89%E8%AF%AD%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%9F%BA%E6%9C%AC%E7%BB%84%E4%BB%B6
多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序相关推荐
- 自然语言处理(英文停用词删除) Java程序
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 英文语料预处理 针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词 ...
- python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...
文章简介与更新记录 如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件 201 ...
- Python 任意中文文本生成词云 最终版本
前叙 利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...
- 中文停用词表和英文停用词表
参考文章:中文停用词表和英文停用词表_tszupup的博客-CSDN博客_英文停用词表 中文分词列表链接:百度网盘 请输入提取码 提取码:dno0 英文分词列表链接:百度网盘 请输入提取码 提取码: ...
- 使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云
因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...
- 将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量
腾讯词向量介绍 腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word em ...
- 推荐:腾讯开源的词向量精简版本下载
腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...
- 推荐:腾讯开源的词向量精简版本下载|湾区人工智能
腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...
- python去停用词用nltk_使用nltk删除英文停用词
一.概念 首先我们来看一下停用词的概念,然后来介绍使用nltk如何删除英文的停用词: 由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我.它.个等,每个页面几乎都包 ...
最新文章
- python 优雅的 列表推导式(for in if)生成器表达式 集合推导式和字典推导式 列表动态构建器(不用先创建空容器【空列表】,再一个一个append()进去那样麻烦了)
- 代码创建 WPF 旋转动画
- 加油python_力扣——gas station (加油站) python实现
- 玩转数据结构——均摊复杂度和防止复杂度的震荡(笔记)
- Web端H.265播放器研发解密
- ubuntu 18.04 LTS 安装SecureCRT
- win2012故障转移mysql集群_Windows下SQLSERVER故障转移集群案例
- 二叉平衡树AVL简介
- [转]Java实现的求解经典罗马数字和阿拉伯数字相互转换问题示例
- 网络口碑推广的策略和实施技巧
- ajax技术的实质是什么意思,什么是Ajax?Ajax的原理是什么?Ajax的核心技术是什么?Ajax的优缺点是什么?...
- 三年上一大台阶,联想凌拓做对了什么?
- 修改 input checkbox(复选框) 选中的背景颜色 _@jie
- c# 调整图片分辨率
- 区分Internet和Local数据流的Qos实现
- 证书详解及使用openssl生成自签证书与SAN多域名证书
- 铁通用户,宽带测速很快,可是上网很慢的解决办法
- 信赖域(Trust Region)算法和L-M算法
- 数据结构与算法-打印直角三角形算法
- 浪漫游戏html,著名的激情浪漫