Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）

IK分词提供的两个分词器，并不支持一些新的词汇，有时候也不能满足实际业务需要，这时候，我们可以定义自定义词库来完成目标。

文章目录

一、静态web搭建
- 1. 安装nginx
- 2. 创建es目录
- 3. 创建分词文件
- 4. 存放静态
- 5. 验证
二、配置远程分词
- 2.1. 切换用户
- 2.2. 配置分词
- 2.3. 远程分词
- 2.4. 重启es
- 2.5. 验证分词
三、热更新词库
- 3.1. 自定义分词
- 3.2. 分词结果
- 3.3. 添加分词库
- 3.4. 日志监控
- 3.5. 分词验证

一、静态web搭建

1. 安装nginx

nginx 1.9.9 Linux 环境安装

2. 创建es目录

在nginx新建一个文件夹es，将ik所需要使用的资源放在里面，用于存放新建的词库

cd /usr/local/nginx
mkdir es

3. 创建分词文件

在es目录下，新建一个文件new_word_fenci.dic，将需要分词的内容放在该文件中

cd es
vim new_word_fenci.dic

添加内容：

凯悦

4. 存放静态

将es移动到html目录下，因为nginx默认访问的是html目录

mv es ./html/

5. 验证

http://192.168.92.128/es/new_word_fenci.dic

如图：

二、配置远程分词

2.1. 切换用户

su - es

2.2. 配置分词

编辑IKAnalyzer

cd /app/elasticsearch-7.15.2/config/analysis-ik
vim IKAnalyzer.cfg.xml

2.3. 远程分词

原配置

调整后配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict"></entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --><entry key="remote_ext_dict">http://192.168.92.128:80/es/new_word_fenci.dic</entry><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

2.4. 重启es

说明：kibana需要一直处于启动

2.5. 验证分词


# 查阅凯悦分词
GET /shop/_analyze
{"analyzer": "ik_smart","text": "凯悦"
}GET /shop/_analyze
{"analyzer": "ik_max_word","text": "凯悦"
}

三、热更新词库

3.1. 自定义分词

# 查阅凯悦分词
GET /shop/_analyze
{"analyzer": "ik_smart","text": "我是专家"
}GET /shop/_analyze
{"analyzer": "ik_max_word","text": "我是专家"
}

3.2. 分词结果

{"tokens" : [{"token" : "我","start_offset" : 0,"end_offset" : 1,"type" : "CN_CHAR","position" : 0},{"token" : "是","start_offset" : 1,"end_offset" : 2,"type" : "CN_CHAR","position" : 1},{"token" : "专家","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 2}]
}

3.3. 添加分词库

把我是专家添加分词库

cd /usr/local/nginx/html/es/
vim new_word_fenci.dic

添加我是专家到分词库：

我是专家

一个分词为一行

3.4. 日志监控


[2021-11-21T16:26:35,785][INFO ][o.w.a.d.Dictionary       ] [es] start to reload ik dict.
[2021-11-21T16:26:35,787][INFO ][o.w.a.d.Dictionary       ] [es] try load config from /app/elasticsearch-7.15.2/config/analysis-ik/IKAnalyzer.cfg.xml
[2021-11-21T16:26:35,938][INFO ][o.w.a.d.Dictionary       ] [es] [Dict Loading] http://192.168.92.128:80/es/new_word_fenci.dic
[2021-11-21T16:26:35,946][INFO ][o.w.a.d.Dictionary       ] [es] 凯悦
[2021-11-21T16:26:35,947][INFO ][o.w.a.d.Dictionary       ] [es] 我是专家
[2021-11-21T16:26:35,947][INFO ][o.w.a.d.Dictionary       ] [es] reload ik dict finished.

3.5. 分词验证


# 查阅凯悦分词
GET /shop/_analyze
{"analyzer": "ik_smart","text": "我是专家"
}GET /shop/_analyze
{"analyzer": "ik_max_word","text": "我是专家"
}

Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）相关推荐

ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器
文章目录 ①. Mapping字段映射概述 ②. 常用类型如下 - text.keyword ③. 映射中对时间类型详解 ④. ES的keyword的属性ignore_above ⑤. 映射的查看.创 ...
商城项目18_esMapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器
文章目录 ①. Mapping字段映射概述 ②. 常用类型如下 - text.keyword ③. 映射中对时间类型详解 ④. ES的keyword的属性ignore_above ⑤. 映射的查看.创 ...
Elasticsearch生产实战（ik分词器、拼音分词、自动补全、自动纠错）
目录一.IK分词器 1.IK分词器介绍 2.安装 3.使用 4.自定义词库二.拼音分词器 1.拼音分词器介绍 2.安装三.自动补全 1.效果演示 2.实战四.自动纠错 1.场景描述 2.DSL ...
Lucene分词器，使用中文分词器，扩展词库，停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词博客分类: 搜索引擎,爬虫停止词:lucene的停止词是无功能意义的词 ...
Ik分词器（自定义分词-mysql）
引言:ik分词器的分词范围不够广泛.某些特定行业的专业用语分词能力就不够了,此时就需要自定义分词,与停顿词. 1.下载ik分词器源码 git地址:https://github.com/medcl/el ...
基于ik分词器和布隆过滤器实现敏感词过滤
文章目录准备阶段为何选用IK Analyzer 什么是布隆过滤器开发过程整合Ik 总结 <基于ik分词器和布隆过滤器实现敏感词过滤>首发牧马人博客转发请加此提示最近公司业务有个 ...
Elasticsearch7 分词器(内置分词器和自定义分词器)
文章目录 Elasticsearch7 分词器(内置分词器和自定义分词器) analysis 概览 char_filter html_strip mapping pattern_replace fil ...
solr配置同义词，停止词，和扩展词库（IK分词器为例）
定义同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...
python统计词频瓦尔登湖_自然语言处理之中文分词器－jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）

文章目录

一、静态web搭建

1. 安装nginx

2. 创建es目录

3. 创建分词文件

4. 存放静态

5. 验证

二、配置远程分词

2.1. 切换用户

2.2. 配置分词

2.3. 远程分词

2.4. 重启es

2.5. 验证分词

三、热更新词库

3.1. 自定义分词

3.2. 分词结果

3.3. 添加分词库

3.4. 日志监控

3.5. 分词验证

Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）相关推荐

最新文章

热门文章

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库（远程）

文章目录

一、静态web搭建

1. 安装nginx

2. 创建es目录

3. 创建分词文件

4. 存放静态

5. 验证

二、配置远程分词

2.1. 切换用户

2.2. 配置分词

2.3. 远程分词

2.4. 重启es

2.5. 验证分词

三、热更新词库

3.1. 自定义分词

3.2. 分词结果

3.3. 添加分词库

3.4. 日志监控

3.5. 分词验证

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库（远程）相关推荐

最新文章

热门文章

Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）

Elasticsearch7.15.2 ik中文分词器定制化分词器之扩展词库（远程）相关推荐