以下是我对几十篇新华网的一个统计选择为appearCount>50 and possible>04 and possible<0.6

大概意思就是词频每篇一个,与文章的分类没什么影响的词。0.4与0.6是2分类的设置。

,    0.534606551921961      ,    w    1880
上 0.505789204468509      上 m    72
将 0.416122543377473      将 d     95
。 0.438038597619069      。 w    837
这 0.449684305887076      这 r      59
和 0.442210167735838      和 c     182
的 0.451497216703526      的 u     1114
新 0.514251730201348      新 a      49
是 0.536917840971011      是 v     249
目前 0.59181281716802 目前 t      51
与 0.480778076503969      与 p     72
还 0.586413572711937      还 d     63
了 0.544980393674803      了 u     204
有 0.52915586479371 有 v     129
多 0.515804441336147      多 m    71
也 0.442874228869804      也 d     78
年 0.476848076889714      年 q     54
都 0.476848076889714      都 d     54
个 0.446178648393815      个 q     88
并 0.459790531520973      并 c     52
不 0.579272271153612      不 d     130
后 0.56452484035225 后 f      48
一 0.524513271289974      一 m    145
问题 0.44237952587004 问题 n     47
进行 0.475353592837728      进行 v     52
社会 0.557587257495806      社会 n     49
但 0.519296679472669      但 c     52
停止词(应该删除词)在搜索引擎中一般是过滤的。基本上对结果没有影响。
目的是为了提高检索效率和节省空间。

停止词(stop words)相关推荐

  1. 什么是停止词stopword

    停止词 本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为 ...

  2. solr配置同义词,停止词,和扩展词库(IK分词器为例)

    定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...

  3. python去除中文停用词_删除停止词Python

    你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决.在import pandas as pd from ...

  4. 全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

    Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有 ...

  5. springboot基于Elasticsearch6.x版本进行ES同义词、停用词(停止词)插件配置,远程词典热加载及数据库词典热加载总结,es停用词热更新,es同义词热更新

    前言:ES版本差异较大,建议跨版本的同学,可以先了解一下版本区别,建议不要跨版本使用插件或者进行项目调试. 本总结主要基于6.x版本的6.5.1(6.2.2实测可用),分词器为IK,下载地址:http ...

  6. mysql全文索引与停止词

    #mysql全文索引与停止词/*1.全文索引(FULLTEXT INDEX) FULLTEXT索引仅可用于MyISAM表,不可用于INNODB表 2.全文索引在mysql的默认情况下,对于中文意义不大 ...

  7. ik与拼音分词器,拓展热词/停止词库

    说明:本篇文章讲述elasticsearch分词器插件的安装,热词库停止词库的拓展,文章后面提到elasticsearch ,都是以es简称. 以下分词器的安装以ik分词器和pinyin分词器为例说明 ...

  8. php返回当前字符串把所有敏感词变红,PHP 实现敏感词 / 停止词 过滤(附敏感词库)...

    敏感词.文字过滤是一个网站必不可少的功能,如何设计一个好的.高效的过滤算法是非常有必要的.在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转 ...

  9. solr之使用IKAnalyzer配置同义词,停止词,扩展词。

    环境如下: solr4.7 IKAnalyzer2012FF_u1 配置同义词 第一步 将IKAnalyzer2012FF_u1放到solr-4.7.2/example/solr-webapp/web ...

  10. 腾讯云docker下安装elasticsearch及IK分词器-扩展词-停止词Kibana

    1.拉取 docker pull elasticsearch:7.7.0 2.运行 docker run --name elasticsearch -d -e ES_JAVA_OPTS="- ...

最新文章

  1. c1 c2在c语言中,c1和c2科目一样吗
  2. hihocoder 1249(2015ACM/ICPC北京)
  3. 为何程序员上班时间总戴个耳机,看完恍然大悟...
  4. 软件工程 软件设计 步骤_好的软件设计特点 软件工程
  5. 计组之中央处理器:7、指令流水线基本概念性能指标、影响因素
  6. 【AD】PCB设计知识整理(持续更新)
  7. 知乎“下沉”,快手“上游”
  8. 蓝桥杯 ALGO-29 算法训练 校门外的树(区间处理)
  9. 可能是迄今为止最好的GitHub代码浏览插件--赞
  10. SQL server 數據庫 從SQL2000搬移到SQL2016
  11. android web service视频教程,需要一个简单的android / webservice工作教程?
  12. 牛股轮回另类可能:未来的牛股在哪?
  13. 【Usaco2008 Mar】土地购买
  14. 触摸屏计算机技术参数,触摸屏显示器
  15. 嵌入式常见的面试题汇总
  16. 部分安卓机型无法打开公众号/http链接,部分安卓机型无法打开公众号/http链接白屏
  17. 基于javaweb的大学生兼职系统(java+springboot+jsp+mysql)
  18. ngx之日志切割 、ngx信号
  19. 【新知实验室】TRTC
  20. 【图解算法数据结构】(九)数学

热门文章

  1. 【Java wrod文档导出 返回浏览器下载读取word文档】文档流转IO流
  2. 分割论文:Adapting The Hypersphere Loss Function From Anomaly Detection To Anomaly Segmentation
  3. 深兰科技:MetaMind吾启计划开启,硅基生命体验官首批招募
  4. stol函数在linux下使用,技术|在 Linux 命令行下使用“原力”
  5. 2D游戏开发 - SkyGameEngine2d 引擎架构 | 目录结构 | 引擎入口点
  6. 百分百财富管理软件V1.0
  7. 剩余电流动作继电器在农畜房屋中的应用-安科瑞耿敏花
  8. figma有哪些插件比较好用,分享5款必备figma插件
  9. debian java ee,Debian权威发音
  10. C语言中的大小端转换与高低位颠倒