1.analysis 和 analyzer

analysis是指把全文本转换成一系列单词(term/token)的过程，也叫分词。

analysis是通过分词器analyzer来实现的

2.分词

String类型的数据在es中有两种类型:

keyword:

对于存储的数据不会进行分词,需要全文匹配才能,比方数据库存入"我爱中国",那么必须要搜索"我爱中国"才能匹配到该条数据

text:

会分词，先把对象进行分词处理，然后再再存入到es中。比方数据库存入"我爱中国",那么在数据库存入之前会分词可能为"我","爱","中国",那么通过分词后的三个词条都可以匹配到该条数据

ES 内置了许多分词器：

Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分（符号被过滤），小写处理
Stop Analyzer - 小写处理，停用词过滤（the ，a，is）
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当做输出
Pattern Analyzer - 正则表达式，默认 \W+
Language - 提供了 30 多种常见语言的分词器

ik_max_word和 ik_smart介绍

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

测试两种分词模式的效果：

发：post localhost:9200/_analyze
测试ik_max_word
{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_max_word” }
测试ik_smart
{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_smart” }

对于一些特定的情况,es内置的分词器无法完全符合我们业务的时候我们可以自己去创建分词器,并且制定分词规则,代码如下:

//设置分词器,一定需要在没有所有的时候设置
XContentBuilder settingsBuilder = XContentFactory.jsonBuilder().startObject().startObject("analysis").startObject("analyzer").startObject("comma_analyzer").field("type", "pattern").field("pattern", ",") //将分词器规则定义为按照","进行分词.endObject().endObject().endObject().endObject();//创建索引并且添加配置信息
CreateIndexResponse indexResponse = client.admin().indices().prepareCreate(indexName).setSettings(settingsBuilder).get();

es自定义分词器和分词规则相关推荐

CentOS安装Elasticsearch_IK分词器拼音分词器_部署kibana_部署es集群
CentOS安装Elasticsearch_IK分词器_部署kibana_部署es集群一.部署单点es ①:创建网络因为我们还需要部署kibana容器,因此需要让es和kibana容器互联.这里先 ...
本地elasticsearch中文分词器 ik分词器安装及使用
ElasticSearch 内置了分词器,如标准分词器.简单分词器.空白词器等.但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词. ik分词器就是一个标准的中文分词器.它可以根据 ...
ES自定义Analyzer扩展IK分词
IPS产品关键词搜索需求要对英文标题.品牌(英文).规格属性(英文).产品型号.描述属性.商品特征.关键搜索词等字段进行模糊匹配搜索前期由于拿不到数据也不清楚具体数据是什么样的,并且线上集群也没有安 ...
docker使用小记——docker安装es+ik分词器+拼音分词器+kibana
一.docker安装:Windows Docker 安装 | 菜鸟教程二.docker换镜像源修改或新增 /etc/docker/daemon.json vi /etc/docker/daemon ...
ElasticSearch中文分词器-IK分词器的使用
IK分词器的使用首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze {"text":"农业银行& ...
分词器——ik——分词算法
IK Analyzer 3.0特性采用了特有的"正向迭代最细粒度切分算法",具有80万字/秒的高速处理能力采用了多子处理器分析模式,支持:英文字母(IP地址.Email.URL ...
Elasticsearch之分词器查询分词效果
0.引言 Elasticsearch之分词器中文的我们一般使用IK,如果没有指定分词器.默认使用的是standard分词. IK分词能将中文分成词组: standard分词则会将每个中文分成一个单个的 ...
使用Docker快速安装部署ES和Kibana并配置IK中文分词器以及自定义分词拓展词库
使用Docker快速安装部署ES和Kibana的前提:首先需要确保已经安装了Docker环境如果没有安装Docker的话,可以参考上一篇的内容:Linux上安装Docker 有了Docker环境后, ...
ElasticSearch入门：ES分词器与自定义分词器
ES入门:ES分词器与自定义分词器分词器的简单介绍不同分词器的效果对比自定义分词器的应用分词器的简单介绍分词器是es中的一个组件,通俗意义上理解,就是将一段文本按照一定的逻辑,分析成多个词语 ...

es自定义分词器和分词规则

ik_max_word和 ik_smart介绍

es自定义分词器和分词规则相关推荐

最新文章

热门文章