我就这样做:from nltk.corpus import stopwords

s=set(stopwords.words('english'))

txt="a long string of text about him and her"

print filter(lambda w: not w in s,txt.split())

哪个指纹['long', 'string', 'text']

如果您认为散列集查找是O(1),那么在复杂度方面,字符串中的单词数应该是O(n)。

FWIW,我的NLTK版本定义了127stopwords:'all', 'just', 'being', 'over', 'both', 'through', 'yourselves', 'its', 'before', 'herself', 'had', 'should', 'to', 'only', 'under', 'ours', 'has', 'do', 'them', 'his', 'very', 'they', 'not', 'during', 'now', 'him', 'nor', 'did', 'this', 'she', 'each', 'further', 'where', 'few', 'because', 'doing', 'some', 'are', 'our', 'ourselves', 'out', 'what', 'for', 'while', 'does', 'above', 'between', 't', 'be', 'we', 'who', 'were', 'here', 'hers', 'by', 'on', 'about', 'of', 'against', 's', 'or', 'own', 'into', 'yourself', 'down', 'your', 'from', 'her', 'their', 'there', 'been', 'whom', 'too', 'themselves', 'was', 'until', 'more', 'himself', 'that', 'but', 'don', 'with', 'than', 'those', 'he', 'me', 'myself', 'these', 'up', 'will', 'below', 'can', 'theirs', 'my', 'and', 'then', 'is', 'am', 'it', 'an', 'as', 'itself', 'at', 'have', 'in', 'any', 'if', 'again', 'no', 'when', 'same', 'how', 'other', 'which', 'you', 'after', 'most', 'such', 'why', 'a', 'off', 'i', 'yours', 'so', 'the', 'having', 'once'

很明显,你可以提供你自己的一套;我同意对你的问题的评论,也许最简单(和最快)的方法是提供所有你想预先消除的变体,除非你想消除比这个多得多的单词,但随后它就变成了一个发现有趣的单词而不是消除虚假的单词的问题一个。

python输出复数去掉括号_从字符串中删除常用词(及其复数形式)的技术相关推荐

  1. python字符串去掉空行_Python从字符串中删除空格

    python字符串去掉空行 There are various ways to remove spaces from a string in Python. This tutorial is aime ...

  2. python统计元音字母个数_统计字符串中各元音字母(即A,E,I,O,U)的个数。

    下列给定函数中,函数 fun 的功能是:统计字符串中各元音字母 ( 即 A , E , I , O , U) 的个数.注意:字 母不分大小写.例如,输入 THIs is a boot ,则应输出是 1 ...

  3. python字符串去掉特殊符号和空格_从字符串中删除所有特殊字符,标点符号和空格...

    在看到这个之后,我有兴趣通过查找在最短的时间内执行哪些来扩展所提供的答案,所以我通过timeit对两个示例字符串检查了一些建议的答案: string1 = 'Special $#! character ...

  4. python去除字符串中的单词_从字符串中删除单词列表

    看着你问题的其他答案,我注意到他们告诉你如何做你想做的事,但他们没有回答你在最后提出的问题.If the input query is "What is Hello", I get ...

  5. Java通过正则剔除乱码_正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码...

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  6. 正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  7. python中指定最后一个字符_如何从Python字符串中删除最后一个字符?

    如何从Python字符串中删除最后一个字符? Python支持负索引切片和正切片.负索引从  -1 到-(iterable_length)开始.我们将使用负切片从可迭代对象的末尾获取元素. 索引  - ...

  8. [转载] Python从字符串中删除字符

    参考链接: Python | 字符串translate Sometimes we want to remove all occurrences of a character from a string ...

  9. python输出表格到word_如何将python输出的内容输入到表格Excel中_excel表格导入word太大...

    想问下python3怎么将列表数据逐行写入excel表格呢? import xlwtf = xlwt.Workbook() #创建工作薄sheet1 = f.add_sheet(u'sheet1',c ...

最新文章

  1. 一图看懂所有机器学习概念
  2. docker部署Javaweb环境数据库连接问题
  3. 实验1 词法分析程序设计
  4. C++多态的基本语法与原理剖析
  5. c++数据结构队列栈尸体_数据结构-第三章:栈和队列(栈的应用、括号匹配、表达式转换)...
  6. 基于Given变换的QR分解辨析
  7. SpringCloud工作笔记048---RESTful API 中 HTTP 状态码的定义_以及把RESTFul版本号_放到http协议header中_以及RestFul设计时的两个误区
  8. 微信一键设置“姓氏头像”,学起来!
  9. 常用算法2 - 广度优先搜索 深度优先搜索 (python实现)
  10. C# DataTable.Rows.Add(DataRow) 该行已经属于另一个表
  11. 天猫运动户外狂欢日来了!700多个大牌要如何回馈消费者
  12. TDH 更新Inceptor UDF步骤
  13. Spring Cloud 微服务
  14. Arrayfire E0992 命令行错误: 宏定义无效: AF_<CPU/CUDA/OPENCL>
  15. 实现流程管理的五个步骤
  16. excel打不开html格式的文件,excel扩展名,教您解决Excel无法打开文件因为文件或文件扩展名无效...
  17. 转录组入门(4):了解参考基因组及基因注释
  18. System.IO.Stream 中Flush函数的用法
  19. 【并发编程的艺术】并发机制原理
  20. UI层自动化测试框架(三):基础层

热门文章

  1. qss 更改图标_Qt实现自定义图标功能
  2. 【python Turtle源码】教你如何画一只迎福虎将~
  3. android软键盘enter键
  4. 华为od统一考试B卷【连续出牌数量】C++ 实现
  5. 网络安全工程师的学习路线,超级简单,收藏这一篇就够了
  6. log4j2 2.14.0之前的版本出现重大漏洞
  7. 【CV Transformer 论文笔记】Intriguing Properties of Vision Transformers
  8. 谁说程序员过了35岁之后就要去“送外卖”、“跑滴滴”?这几种发展走向照样解除焦虑
  9. php 表格制作教程下载,word表格如何制作教程?
  10. 爬虫时候遇到python connection error max retries exceeded whith url 怎么解决?