文章目录

  • 文章简介与更新记录
  • 停用词
  • python合并中文停用词词表的代码
  • 下载所有文件

文章简介与更新记录

如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件

  • 2017/07/04 创建文章,上传文件
  • 2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)和一个新的停用词表,现在最全的中文停用词表为1927,添加了英文和中英文停用词表英文停用词词表为1199

停用词

在进行汉语自然语言处理时候,分词是必不可少的环节,但是在实际的自然语言中,有很多的非实意词语或者其他并没有实际作用的词语,这些词语我们必须在分词环节后进行过滤—这个环节也就是过滤停用词.不过想要获得好的分词效果,必须首先进行比较好的分词处理.这一点也是十分重要的.

python合并中文停用词词表的代码

# - * - coding: utf - 8 -*-
#
# 作者:田丰(FontTian)
# 创建时间:'2017/7/4'
# 邮箱:fonttian@Gmaill.com
# CSDN:http://blog.csdn.net/fontthrone
import sysreload(sys)
sys.setdefaultencoding('utf-8')# 获取停用词的List
def GetListOfStopWords(filepath):f_stop = open(filepath)try:f_stop_text = f_stop.read()f_stop_text = unicode(f_stop_text, 'utf-8')finally:f_stop.close()f_stop_seg_list = f_stop_text.split('\n')return f_stop_seg_list# 保存List
def SaveFile(list, filename):f_stop = open(filename, 'w')for item in range(len(list)):if item != len(list):f_stop.writelines((list[item].encode('utf-8')) + '\n')else:f_stop.writelines(list[item].encode('utf-8'))f_stop.close()# 求List并集
def GetListUnion(listName):ListUnion = ['!']for item in listName:# print itemListUnion.extend(GetListOfStopWords(item))return list(set(ListUnion))def GetStopWords(listOfFileName, FileName='CNstopwords.txt', keynumber=1):stopwords_pathCN = 'CNstopwords.txt'  # 默认中文总表 1stopwords_pathEN = 'ENstopwords.txt'  # 默认英文总表 2stopwords_pathCNEN = 'CNENstopwords.txt'  # 默认中英文混合总表 4if keynumber == 1:listOfFileName.append(stopwords_pathCN)elif keynumber == 2:listOfFileName.append(stopwords_pathEN)elif keynumber == 3:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)elif keynumber == 5:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 6:listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)elif keynumber == 7:listOfFileName.append(stopwords_pathCN)listOfFileName.append(stopwords_pathEN)listOfFileName.append(stopwords_pathCNEN)else:listOfFileName.append(stopwords_pathCN)print 'The keynumber is wrong,chage keynumber to 1 'listOfFileName.append(stopwords_pathCNEN)ListUnion = GetListUnion(listOfFileName)SaveFile(ListUnion, FileName)'''
stopwords_pathCN = 'CNstopwords.txt' # 默认中文总表 1
stopwords_pathEN = 'CNstopwords.txt' # 默认英文总表 2
stopwords_pathCNEN = 'CNstopwords.txt' # 默认中英文混合总表 4
'''listOfFileName = []# 需要添加的 中文 停用词词表
stopwords_path1 = 'stopwords1893.txt'
stopwords_path2 = 'stopwords1229.txt'
stopwords_path3 = 'stopwordshagongdakuozhan.txt'
stopwords_path4 = 'stop_words_zh.txt'# 需要添加的 英文 停用词词表
stopwords_path5 = 'stop_words_eng.txt'
stopwords_path6 = 'ENstopwords891.txt'# 需要添加的 中文 停用词词表路径
# listOfFileName.append(stopwords_path1)
# listOfFileName.append(stopwords_path2)
# listOfFileName.append(stopwords_path3)
# listOfFileName.append(stopwords_path4)# 需要添加的 英文 停用词词表路径
listOfFileName.append(stopwords_path5)
listOfFileName.append(stopwords_path6)GetStopWords(listOfFileName, FileName='ENstopwords.txt', keynumber=2)

下载所有文件

百度云:链接:https://pan.baidu.com/s/1s0lVoYQz38Tg2m3CdLflbg
提取码:cps1
复制这段内容后打开百度网盘手机App,操作更方便哦

github:https://github.com/FontTian/NLP_tools/tree/master/%E6%B1%89%E8%AF%AD%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%9F%BA%E6%9C%AC%E7%BB%84%E4%BB%B6

多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序相关推荐

  1. 自然语言处理(英文停用词删除) Java程序

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 英文语料预处理 针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词 ...

  2. python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...

    文章简介与更新记录 如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件 201 ...

  3. Python 任意中文文本生成词云 最终版本

    前叙 利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...

  4. 中文停用词表和英文停用词表

    参考文章:中文停用词表和英文停用词表_tszupup的博客-CSDN博客_英文停用词表 中文分词列表链接:百度网盘 请输入提取码 提取码:dno0 英文分词列表链接:百度网盘 请输入提取码  提取码: ...

  5. 使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云

    因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...

  6. 将词向量传入MySQL_【腾讯词向量】腾讯中文预训练词向量

    腾讯词向量介绍 腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)提供了预训练好的800万中文词汇的word em ...

  7. 推荐:腾讯开源的词向量精简版本下载

    腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...

  8. 推荐:腾讯开源的词向量精简版本下载|湾区人工智能

    腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...

  9. python去停用词用nltk_使用nltk删除英文停用词

    一.概念 首先我们来看一下停用词的概念,然后来介绍使用nltk如何删除英文的停用词: 由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我.它.个等,每个页面几乎都包 ...

最新文章

  1. python 优雅的 列表推导式(for in if)生成器表达式 集合推导式和字典推导式 列表动态构建器(不用先创建空容器【空列表】,再一个一个append()进去那样麻烦了)
  2. 代码创建 WPF 旋转动画
  3. 加油python_力扣——gas station (加油站) python实现
  4. 玩转数据结构——均摊复杂度和防止复杂度的震荡(笔记)
  5. Web端H.265播放器研发解密
  6. ubuntu 18.04 LTS 安装SecureCRT
  7. win2012故障转移mysql集群_Windows下SQLSERVER故障转移集群案例
  8. 二叉平衡树AVL简介
  9. [转]Java实现的求解经典罗马数字和阿拉伯数字相互转换问题示例
  10. 网络口碑推广的策略和实施技巧
  11. ajax技术的实质是什么意思,什么是Ajax?Ajax的原理是什么?Ajax的核心技术是什么?Ajax的优缺点是什么?...
  12. 三年上一大台阶,联想凌拓做对了什么?
  13. 修改 input checkbox(复选框) 选中的背景颜色 _@jie
  14. c# 调整图片分辨率
  15. 区分Internet和Local数据流的Qos实现
  16. 证书详解及使用openssl生成自签证书与SAN多域名证书
  17. 铁通用户,宽带测速很快,可是上网很慢的解决办法
  18. 信赖域(Trust Region)算法和L-M算法
  19. 数据结构与算法-打印直角三角形算法
  20. 浪漫游戏html,著名的激情浪漫

热门文章

  1. MyBatis源码简单分析
  2. BZOJ 4544: 椭圆上的整点
  3. 解决提示“npm audit fix“问题
  4. github上的免费书籍
  5. 关于SecureCRT工具的使用
  6. 【数据库】 如何对数据库进行操作
  7. android ellipsize 属性详解
  8. Linux内核TC工具链路带宽设计--CBQ队列规定
  9. ES数据架构与关系数据库Mysql对比,例如mysql库对应es索引
  10. 哈工大刘挺:自然语言处理中的可解释性问题!