多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

文章目录

文章简介与更新记录
停用词
python合并中文停用词词表的代码
下载所有文件

文章简介与更新记录

如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件

2017/07/04 创建文章,上传文件
2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199

停用词

在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.

python合并中文停用词词表的代码

# - * - coding: utf - 8 -*-
#
# 作者：田丰(FontTian)
# 创建时间:'2017/7/4'
# 邮箱：fonttian@Gmaill.com
# CSDN：http://blog.csdn.net/fontthrone
import sysreload(sys)
sys.setdefaultencoding('utf-8')# 获取停用词的List
def GetListOfStopWords(filepath):f_stop = open(filepath)try:f_stop_text = f_stop.read()f_stop_text = unicode(f_stop_text, 'utf-8')finally:f_stop.close()f_stop_seg_list = f_stop_text.split('\n')return f_stop_seg_list# 保存List
def SaveFile(list, filename):f_stop = open(filename, 'w')for item in range(len(list)):if item != len(list):f_stop.writelines((list[item].encode('utf-8')) + '\n')else:f_stop.writelines(list[item].encode('utf-8'))f_stop.close()# 求List并集
def GetListUnion(listName):ListUnion = ['!']for item in listName:# print itemListUnion.extend(GetListOfStopWords(item))return list(set(ListUnion))def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):stopwords_pathCN = 'CNstopwords.txt'  # 默认中文总表 1stopwords_pathEN = 'ENstopwords.txt'  # 默认英文总表 2stopwords_pathCNEN = 'CNENstopwords.txt'  # 默认中英文混合总表 4if keynumber == 1:listOfFileName.append(stopwords_pathCN)elif keynumber == 2:listOfFileName.append(stopwords_pathEN)elif keynumber == 3:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)elif keynumber == 5:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 6:listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 7:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)else:listOfFileName.append(stopwords_pathCN)print 'The keynumber is wrong,chage keynumber to 1 'listOfFileName.append(stopwords_pathCNEN)ListUnion = GetListUnion(listOfFileName)SaveFile(ListUnion, FileName)'''
stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1
stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2
stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4
'''listOfFileName = []# 需要添加的 中文 停用词词表
stopwords_path1 = 'stopwords1893.txt'
stopwords_path2 = 'stopwords1229.txt'
stopwords_path3 = 'stopwordshagongdakuozhan.txt'
stopwords_path4 = 'stop_words_zh.txt'# 需要添加的 英文 停用词词表
stopwords_path5 = 'stop_words_eng.txt'
stopwords_path6 = 'ENstopwords891.txt'# 需要添加的 中文 停用词词表路径
# listOfFileName.append(stopwords_path1)
# listOfFileName.append(stopwords_path2)
# listOfFileName.append(stopwords_path3)
# listOfFileName.append(stopwords_path4)# 需要添加的 英文 停用词词表路径
listOfFileName.append(stopwords_path5)
listOfFileName.append(stopwords_path6)GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)

下载所有文件

百度云：链接：https://pan.baidu.com/s/1s0lVoYQz38Tg2m3CdLflbg
提取码：cps1
复制这段内容后打开百度网盘手机App，操作更方便哦

github：https://github.com/FontTian/NLP_tools/tree/master/%E6%B1%89%E8%AF%AD%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%9F%BA%E6%9C%AC%E7%BB%84%E4%BB%B6

多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序相关推荐

自然语言处理(英文停用词删除) Java程序
本文作者:合肥工业大学管理学院钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 英文语料预处理针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词 ...
python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...
文章简介与更新记录如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件 201 ...
Python 任意中文文本生成词云最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...
中文停用词表和英文停用词表
参考文章:中文停用词表和英文停用词表_tszupup的博客-CSDN博客_英文停用词表中文分词列表链接:百度网盘请输入提取码提取码:dno0 英文分词列表链接:百度网盘请输入提取码提取码: ...
使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云
因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...
将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量
腾讯词向量介绍腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word em ...
推荐：腾讯开源的词向量精简版本下载
腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...
推荐：腾讯开源的词向量精简版本下载|湾区人工智能
腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...
python去停用词用nltk_使用nltk删除英文停用词
一.概念首先我们来看一下停用词的概念,然后来介绍使用nltk如何删除英文的停用词: 由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我.它.个等,每个页面几乎都包 ...