先看维基百科的解释:

In computing, stop words are words which are filtered out prior to, or after, processing of natural language data (text).There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search.

Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as theisatwhich, and on. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'. Other search engines remove some of the most common words—including lexical words, such as "want"—from a query in order to improve performance.

由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我、它、个等,每个页面几乎都包含了这些词汇,如果搜索引擎它们当关键字进行索引,那么所有的网站都会被索引,而且没有区分度,所以一般把这些词直接去掉,不可当做关键词。

G .W. H a r t 在研究中发现, 在典型英文段落中所有词的 50% 可以包含在一个具有 135 个词的普通词表中, Van Rijsbergen 认 为 这 些 词 应 被 视 为 噪 声,并且应当在文本分析的预处理中去除。目前,已经有了一些公开发表的英文停用词表, 其中比较著 名 的 是 Van Rijsbergen 发 表 的 停 用 词 表 以 及Brown Corpus 停用词表。如果对停用词按照其出现的文本频数降序排序,用前 10 个停用词削减特征向量空间, 不会产生负面影响; 用前 100个停用词削减特征向量空间, 所产生的负面影响非常小。 Catarina Silva 验证了应用停用词表削减特征空间, 对提高基于支持向量机的文本分类器准确率所产生的积 极作用。停止词对SEO的意义不是越多越好,而是尽量的减少为宜

停用词表链接:http://www.ranks.nl/stopwords,里面有很多语言的停用词表。

停用词stopWord相关推荐

  1. IKAnalyzer使用停用词词典进行分词

    转载自:https://www.cnblogs.com/yxwkf/p/5224231.html @Test // 測试分词的效果,以及停用词典是否起作用 public void test() thr ...

  2. pyhanlp 停用词与用户自定义词典

    hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集. 其核心词典形式如下: 自定义词典 自定 ...

  3. python去停用词用nltk_【NLTK】安装和使用NLTK分词和去停词

    黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 安装NL ...

  4. mysql读数据入库es_ES 实现实时从Mysql数据库中读取热词,停用词

    IK分词器虽然自带词库 但是在实际开发应用中对于词库的灵活度的要求是远远不够的,IK分词器虽然配置文件中能添加扩展词库,但是需要重启ES 这章就当写一篇扩展了 其实IK本身是支持热更新词库的,但是需要 ...

  5. python制作词云图设置停用词,Python生成词云图

    代码如下: from os import path from wordcloud import WordCloud import matplotlib matplotlib.use('TkAgg') ...

  6. 中文分词后去除停用词

     中文分词后去除停用词  当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的.所以在分词 ...

  7. NLP-统计词频之处理停用词

    前言 本文是该专栏的第1篇,后面会持续分享NLP的各种干货知识,值得关注. 一般来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或者应用服务. 举个例子,如Facebook News F ...

  8. 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)

    中文文本处理总结(读取文本.文本预处理.分词.去除停用词)  针对前面学习的 Python读取文本内容.中文文本预处理.利用jieba对中文进行分词.中文分词后去除停用词.调整jieba分词结果,我们 ...

  9. 自然语言处理(英文停用词删除) Java程序

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 英文语料预处理 针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词 ...

最新文章

  1. Day2 - Python基础2作业【文件操作--购物车程序(用户操作及商户操作)】
  2. 白话Elasticsearch58-数据建模实战_基于nested object实现博客与评论嵌套关系
  3. Maximum Subarray with Sum/ Multiply
  4. 数据库开发——MySQL——primary key
  5. Linux 文件安全之随机数生成器
  6. Java程序员需要掌握的计算机底层知识(五):内核同步方法
  7. Android之CheckBox进行代码设置setChecked(true)会触发setOnCheckedChangeListener事件
  8. 转: 记录centos7 安装erlang22.3和rabbitMQ
  9. 小米id锁状态查询_怎么通过序列号查询苹果手机真伪
  10. WPS Office宏病毒实现shell反弹
  11. 显卡对决nbsp;NVIDIAnbsp;GTnbsp;555Mnbsp;VS…
  12. 根据题3.9图的公差要求填写题3.9表,并绘出动态公差带图【(σ゚∀゚)σ..:*☆哎哟不错哦】
  13. 写给过得很辛苦很迷茫的你~一定要看啊
  14. 《专注力--化繁为简的惊人力量》之创造力的30天
  15. 最新河南电信、网通(联通)、铁通DNS地址ip
  16. Flutter Animation 3D仿真书本翻页动画效果
  17. stm32花式点流水灯
  18. linux执行startx进入桌面黑屏,linux下误操作startx命令后,在登录界面进不去解决办法...
  19. 【计算机毕业设计】基于微信小程序的高校课堂考勤签到系统
  20. 如何快速干净的卸载mysql数据库,不影响下次安装

热门文章

  1. 计算机ppt操作知识,职称计算机知识:Powerpoint幻灯片操作
  2. 数据透视表 筛选_筛选列表可见行中的数据透视表
  3. 97.在字符串前加入n个*号
  4. elasticsearch数据迁移备份还原
  5. Python如何接入ChatGPT
  6. ogre1.7 cookbook_OgreWin32Application
  7. mysql查询男生女生多少人_数据库查询男女的人数分别是多少
  8. jquery实现浏览器全屏和浏览器退出全屏
  9. 咸鱼菌玩3D—123D Design安装
  10. 启动多个tomcat IDEA下方显示为列表