之前大家会发现,字段全部是用英文

其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的
默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人 --> 中 国 人

在搜索引擎领域,比较成熟和流行的中文分词起,就是ik分词器

中国人很喜欢吃油条

standard:中 国 人 很 喜 欢 吃 油 条
ik:中国人 很 喜欢 吃 油条

1、在elasticsearch中安装ik中文分词器

因为使用es的版本是5.6.0

(1)git clone https://github.com/medcl/elasticsearch-analysis-ik
(2)git checkout tags/v5.6.0
(3)mvn package

或者直接访问https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.6.0去下载

(4)将target/releases/elasticsearch-analysis-ik-5.6.0.zip拷贝到es/plugins/ik目录下

(5)在es/plugins/ik下对elasticsearch-analysis-ik-5.6.0.zip进行解压缩

(6)删掉压缩包,重启es

2、ik分词器基础知识

两种analyzer:ik_max_word、ik_smart,你根据自己的需要自己选,但是一般是选用ik_max_word

ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;

ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

ik_smart搜索共和国 --> 中华人民共和国和国歌,就搜不到了

3、ik分词器的使用

删除索引my_index

DELETE /my_index

创建索引,设置text使用ik_max_word

PUT /my_index
{"mappings": {"my_type": {"properties": {"text": {"type": "text","analyzer": "ik_max_word"}}}}
}

增加数据

POST /my_index/my_type/_bulk
{ "index": { "_id": "1"} }
{ "text": "男子偷上万元发红包求交女友 被抓获时仍然单身" }
{ "index": { "_id": "2"} }
{ "text": "16岁少女为结婚“变”22岁 7年后想离婚被法院拒绝" }
{ "index": { "_id": "3"} }
{ "text": "深圳女孩骑车逆行撞奔驰 遭索赔被吓哭(图)" }
{ "index": { "_id": "4"} }
{ "text": "女人对护肤品比对男票好?网友神怼" }
{ "index": { "_id": "5"} }
{ "text": "为什么国内的街道招牌用的都是红黄配?" }

响应结果

{"took": 61,"errors": false,"items": [{"index": {"_index": "my_index","_type": "my_type","_id": "1","_version": 1,"result": "created","_shards": {"total": 2,"successful": 1,"failed": 0},"created": true,"status": 201}},{"index": {"_index": "my_index","_type": "my_type","_id": "2","_version": 1,"result": "created","_shards": {"total": 2,"successful": 1,"failed": 0},"created": true,"status": 201}},{"index": {"_index": "my_index","_type": "my_type","_id": "3","_version": 1,"result": "created","_shards": {"total": 2,"successful": 1,"failed": 0},"created": true,"status": 201}},{"index": {"_index": "my_index","_type": "my_type","_id": "4","_version": 1,"result": "created","_shards": {"total": 2,"successful": 1,"failed": 0},"created": true,"status": 201}},{"index": {"_index": "my_index","_type": "my_type","_id": "5","_version": 1,"result": "created","_shards": {"total": 2,"successful": 1,"failed": 0},"created": true,"status": 201}}]
}

测试分词器

GET /my_index/_analyze
{"text": "男子偷上万元发红包求交女友 被抓获时仍然单身","analyzer": "ik_max_word"
}

响应结果

{"tokens": [{"token": "男子","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "偷上","start_offset": 2,"end_offset": 4,"type": "CN_WORD","position": 1},{"token": "上万","start_offset": 3,"end_offset": 5,"type": "CN_WORD","position": 2},{"token": "万元","start_offset": 4,"end_offset": 6,"type": "CN_WORD","position": 3},{"token": "万","start_offset": 4,"end_offset": 5,"type": "TYPE_CNUM","position": 4},{"token": "元","start_offset": 5,"end_offset": 6,"type": "COUNT","position": 5},{"token": "发红包","start_offset": 6,"end_offset": 9,"type": "CN_WORD","position": 6},{"token": "发红","start_offset": 6,"end_offset": 8,"type": "CN_WORD","position": 7},{"token": "红包","start_offset": 7,"end_offset": 9,"type": "CN_WORD","position": 8},{"token": "求","start_offset": 9,"end_offset": 10,"type": "CN_CHAR","position": 9},{"token": "交","start_offset": 10,"end_offset": 11,"type": "CN_CHAR","position": 10},{"token": "女友","start_offset": 11,"end_offset": 13,"type": "CN_WORD","position": 11},{"token": "被","start_offset": 14,"end_offset": 15,"type": "CN_CHAR","position": 12},{"token": "抓获","start_offset": 15,"end_offset": 17,"type": "CN_WORD","position": 13},{"token": "时","start_offset": 17,"end_offset": 18,"type": "CN_CHAR","position": 14},{"token": "仍然","start_offset": 18,"end_offset": 20,"type": "CN_WORD","position": 15},{"token": "单身","start_offset": 20,"end_offset": 22,"type": "CN_WORD","position": 16}]
}

查询

GET /my_index/my_type/_search
{"query": {"match": {"text": "16岁少女结婚好还是单身好?"}}
}

响应结果

{"took": 6,"timed_out": false,"_shards": {"total": 5,"successful": 5,"skipped": 0,"failed": 0},"hits": {"total": 3,"max_score": 2.6093416,"hits": [{"_index": "my_index","_type": "my_type","_id": "2","_score": 2.6093416,"_source": {"text": "16岁少女为结婚“变”22岁 7年后想离婚被法院拒绝"}},{"_index": "my_index","_type": "my_type","_id": "4","_score": 1.3300087,"_source": {"text": "女人对护肤品比对男票好?网友神怼"}},{"_index": "my_index","_type": "my_type","_id": "1","_score": 0.26301134,"_source": {"text": "男子偷上万元发红包求交女友 被抓获时仍然单身"}}]}
}

30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用相关推荐

  1. 第50节:初识搜索引擎_上机动手实战多搜索条件组合查询

    课程大纲 GET /website/article/_search { "query": { "bool": { "must": [ { & ...

  2. mysql java中文乱码_解决Mysql+Java的中文乱码问题(学习心得)

    最近几天一直都在学JSP,我用的数据库是Mysql.在连接数据库的过程中,刚开始我只是简单的执行了查询命令,发现从数据库取出的中文数据全部显示成了乱码,查了一些资料之后,我先用了下面的一个转换函数,值 ...

  3. python 折线图中文乱码_彻底解决 Python画图中文乱码问题--Pyplotz组件

    1 源起 自从开始学习Python,就非常喜欢用来画图.一直没有需求画要中文显示信息的图,所以没有配置Python中文的环境.由于昨天就需要画几十个形式相同,只是数据不同的图,并且需要显示中文信息.如 ...

  4. mysql怎么把表中的内容分词_用mysql数据库写的分词算法代码

    我辛苦的整了几天才整好的 拿来给大家分享一下希望可以帮助大家 以下分为四步:每步都有注释说明的 #region 一.先从article表里查询数据 /// /// 一.先从article表里查询数据 ...

  5. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

  6. nltk中文分句_如何使用nltk进行中文分词?

    匿名用户 1级 2016-04-18 回答 中文里没有分词的说法,只有英文.法语.德语等有分词的说法. 分词是动词的三种非限定形式之一,分为两种:现在分词和过去分词.现在分词一般有四种形式,基本形式为 ...

  7. python 英语分词_如何用Python做中文分词?

    打算绘制中文词云图?那你得先学会如何做中文文本分词.跟着我们的教程,一步步用Python来动手实践吧. 需求 在<如何用Python做词云>一文中,我们介绍了英文文本的词云制作方法.大家玩 ...

  8. kodi没有中文设置_最完整的设置中文教程,不同平台

    网友使用xbmc最多碰到的是关于xbmc 中文显示的问题,网上有一大堆的xbmc教程,我就做一下总结吧.) H" m$ r- B. V. E' K' _% V ' B: J: H/ m* C ...

  9. ios请求头解决参数中文乱码_解决请求参数的中文乱码问题(get、post)

    2018-11-28 在web请求与响应中,会遇到乱码问题,比如填写表单数据时,难免会输入中文,姓名.公司名称等.由于HTML设置了浏览器在传递请求参数时,采用的编码方式是UTF-8,但在解码时采用的 ...

最新文章

  1. 题解 guP2421 【[NOI2002]荒岛野人】
  2. STM32F103 IAP升级时在app文件中放置标志字节处的地址计算
  3. 小创业项目组的管理和实践:快速迭代的思考
  4. DAY4(python)打印字符串以及增删改查
  5. nginx日志中添加请求的response日志
  6. 同一台机器上安装2个SDE服务
  7. 中秋节公司发了这个(结尾分享红包)
  8. 关于js中正则表达式链接
  9. 排序算法之六 堆排序(C++版本)
  10. java判断1到1000素数_JAVA作业.找出1~1000以内的质数
  11. axure原型图手机界面尺寸
  12. 金蝶KIS专业版V14.1生产任务单|销售单等单据图片打印
  13. 遥感植被指数128个
  14. 物联网毕业设计 车牌识别系统 stm32
  15. 中国传统文化的现代意义
  16. [游泳] 全浸式游泳呼吸法
  17. 【淘宝补单】操作干预单不能在犯的错误
  18. `Error:(11) No resource identifier found for attribute 'srcCompat' in package 'com.codifythings.ligh
  19. java 实现office转换pdf
  20. 基于ESP32+AMG8833的物联网红外成像测温枪

热门文章

  1. 股票入门—一揽子股票是什么意思
  2. WSL + Visual Studio Code 配置 Geant4
  3. HBase详细安装指南
  4. 2014年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题——纯享题目版
  5. 10W+爆文背后隐藏的10条规律(人人可复制)
  6. SQL SEVER修改主键
  7. 《代码整洁之道》(12)迭进
  8. android导入项目错误处理
  9. 2021-10-22 markdown初步学习笔记
  10. DotNetty使用之心跳机制