【ES插件】analysis-icu和analysis-kuromoji
《ES analysis-icu插件》
一、analysis-icu插件简介
ICU - International Components for Unicode
Elasticsearch的ICU 分析器插件使用国际化组件 Unicode (ICU) 函数库(详情查看 site.project.org)提供丰富的处理 Unicode 工具。 这些包含对处理亚洲语言特别有用的 icu_分词器 ,还有大量对除英语外其他语言进行正确匹配和排序所必须的分词过滤器。
注意事项
ICU 插件是处理英语之外语言的必需工具,非常推荐你安装并使用它,不幸的是,因为是基于额外的 ICU 函数库, 不同版本的ICU插件可能并不兼容之前的版本,当更新插件的时候,你需要重新索引你的数据。
icu_分词器
- icu_分词器 和 标准分词器 使用同样的 Unicode 文本分段算法, 只是为了更好的支持亚洲语,添加了泰语、老挝语、中文、日文、和韩文基于词典的词汇识别方法,并且可以使用自定义规则将缅甸语和柬埔寨语文本拆分成音节。
- 相较而言, 标准分词器 分词中文和日文的时候“过度分词”了,经常将一个完整的词拆分为独立的字符,因为单词之间并没有空格,很难区分连续的字符是间隔的单词还是一个句子中的单字。
- 虽然每个字符本身可以是一个单词,但使词汇单元保持更大的原始概念比使其仅作为一个词组的一部分要有意义的多:
- 标准分词器在下面的例子中将每个字符输出为单独的词汇单元: 向 , 日 , 葵 。
- icu_分词器则会输出单个词汇单元:向日葵 (sunflower) 。
GET /_analyze?tokenizer=standard
向日葵GET /_analyze?tokenizer=icu_tokenizer
向日葵
二、安装analysis-icu
可以通过plugin manager安装:
sudo bin/elasticsearch-plugin install analysis-icu
如果你有很多节点并以集群方式运行的,你需要在集群的每个节点都安装这个插件,每个节点安装完成后都需要重启才能生效。
三、卸载analysis-icu
在卸载icu插件之前,必须先停止节点,再通过以下命令进行移除:
sudo bin/elasticsearch-plugin remove analysis-icu
*######################################## 分割线 ######################################## *
《ES analysis-kuromoji插件》
- Introduction
The kuromoji_tokenizer accepts the following settings:
mode
discard_punctuation
user_dictionary
nbest_cost/nbest_examples
来看看mode参数
The tokenization mode determines how the tokenizer handles compound and unknown words. It can be set to:
- normal
Normal segmentation, no decomposition for compounds. Example output:
関西国際空港
アブラカダブラ- search
Segmentation geared towards search. This includes a decompounding process for long nouns, also including the full compound token as a synonym. Example output:
関西, 関西国際空港, 国際, 空港
アブラカダブラ- extended
Extended mode outputs unigrams for unknown words. Example output:
関西, 国際, 空港
ア, ブ, ラ, カ, ダ, ブ, ラ
- Installation
This plugin can be installed using the plugin manager:
sudo bin/elasticsearch-plugin install analysis-kuromoji
The plugin must be installed on every node in the cluster, and each node must be restarted after installation.
This plugin can be downloaded for offline install from
https://artifacts.elastic.co/downloads/elasticsearch-plugins/analysis-kuromoji/analysis-kuromoji-6.7.2.zip.
- Removal
The plugin can be removed with the following command:
sudo bin/elasticsearch-plugin remove analysis-kuromoji
The node must be stopped before removing the plugin.
【ES插件】analysis-icu和analysis-kuromoji相关推荐
- 【如何通过汉字首字母拼写查询数据】mysql数据库汉字首字母获取查询或通过ES插件elasticsearch-analysis-pinyin进行汉字首拼查询
一.mysql数据库汉字首字母获取查询 1.汉字提取首字母 get_first_pinyin_char: 此函数是将一个中文字符串的第一个汉字转成拼音字母 (例如:"李"-> ...
- 【ES实战】ES 插件包离线安装(本地文件)
ES 插件包离线安装(本地文件) 文章目录 ES 插件包离线安装(本地文件) 使用安装命令安装 直接解压式 验证安装情况 常用的分词插件 analysis-ik analysis-pinyin ana ...
- 【ElasticSearch系列】ES插件安装
上篇文章介绍了一下EleasticSearch以及安装,这篇文章继续,将介绍ES的插件安装. 其实最开始我也不知道要安装什么插件,其实也疑惑,为什么ES不将需要的插件集成到自身,这样就能避免很多问题. ...
- windows版本的docker安装es和es插件
windows版本的docker安装es和es插件 1.1 安装es 去docker官网下载es,网址 https://www.docker.com/products/docker-hub-- 所有官 ...
- real analysis and functional analysis 讲义
https://www.exobrain.online/2016/08/07/real-analysis-and-functional-analysis/#more real analysis and ...
- 【Elasticsearch】es 插件类型
1.概述 Elasticseaarch提供插件的方式来让更多的开发者来增强Elasticsearch的功能 插件类型 Elasticsearch提供了如下几种插件类型 类型 概述 ActionPlug ...
- ES插件在谷歌浏览器的安装
1.打开谷歌应用商店 2.搜索elasticsearch-head 3.点击安装 4.安装成功->将localhost地址改为要指向的服务器及端口号 5.点击[链接] 6.可成功进入已部署成功的 ...
- 怎么修改SQL Server服务器选项,Analysis Services 实例的 SPN 注册 | Microsoft Docs
SPN registration for an Analysis Services instance 05/02/2018 本文内容 适用于: SQL Server Analysis Services ...
- Abraham Robinson and Nonstandard Analysis: History, Philosophy, and Foundations of Mathematics
Abraham Robinson and Nonstandard Analysis: History, Philosophy, and Foundations of Mathematics Mathe ...
最新文章
- 使用spring initializr ( 4.快速创建springboot工程 )(入门结束)
- CentOS基础命令大全
- asp.net面试题收集[2006.4.28更新]
- Flink从入门到精通100篇(六)-Flink 应用之 对Release 文档进行深度解读
- springboot-websocket-netty
- Linux SD卡驱动开发(四) —— SD 控制器之真正的硬件操作
- 深入浅出FSUIPC的作用以及使用方法
- python数字转字符串_python如何将字符转换为数字
- java等待页面加载_java selenium (十三) 智能等待页面加载完成
- 前端开发常用网站整理
- 微型计算机控制技术应用,微型计算机控制技术(第3版)
- JavaScript学习手册四:JS对象
- html页面线条走动特效,html5 canvas绘制随机游动线条动画特效
- 谷歌金融 Onebox 实现实时信息更新
- 模具师傅告诉我塑胶模具是由这10大系统构成,不会的赶紧学习
- 触漫机器人_触漫携手壹心理打破亲子僵局 让爱驻家守护亲子健康
- SQL查询——查询和和xxx同学所选课程完全一样的同学
- 简易酒店管理系统(c++)
- 【原创】【个人向】CSP-S 2019 爆炸退役记 (已完成)
- Hander消息处理机制的步骤