7安装ik分词器_Solr7全文检索+IK分词
1. 概述
介绍Solr之前,就不得不提业界大名鼎鼎的Lucene。Lucene是一个完全用Java编写
的高性能、跨平台的全文搜索引擎工具包,能满足几乎所有软件项目的搜索需求。Lucene是Apache基金会的顶级开源项目。使用Lucene的方式主要有二种:一是自己编写程序,调用类库(创建索引、修改、删除、查询等);二是使用第三方基于Lucene编写的程序,如Solr等。
Solr是基于Lucene的企业级搜索引擎,是对Lucene的封装和扩展,是一个war包,需要基于Tomcat等web容器运行。Solr使项目更容易集成和开发搜索功能。
在solr5以前solr的启动都有tomcat作为容器,但是从solr5以后solr内部集成jetty服务器,可以通过bin目录中脚本直接启动。就是从solr5以后跟solr4最大的区别是被发布成一个独立的应用。
在solr5之后solr其实特别容易安装,有安装包,之后在解压,直接启动bin下solr,solr就这样完成的启动了。
2. Solr与Lucence的比较
Solr与Lucene 并不是竞争对立关系,恰恰相反Solr 依存于Lucene,因为Solr底层的核心技术是使用Lucene 来实现的,Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括 Solr: Solr是Lucene面向企业搜索应用的扩展。
3. Solr目录结构介绍
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
4. 创建core
启动完solr后可以看到solr的Admin页面,如下图:
![](/assets/blank.gif)
(1) 点击Core Admin创建core
InstanceDir 和 dataDir文件夹是在solr-7.7.2serversolr下创建的。
![](/assets/blank.gif)
![](/assets/blank.gif)
(2) 拷贝solrconfigsetssample_techproducts_configs中conf文件夹至
ywbzCore中;
![](/assets/blank.gif)
(3) 之后点击创建即可,成功后展示下图:
![](/assets/blank.gif)
5. 配置IK分词
· 下载IK分词的jar包。
![](/assets/blank.gif)
· 把ik-analyzer-solr5-5.x.jar和solr-analyzer-ik-5.1.0.jar两个jar包复制到solr-webappwebappWEB-INFlib中;
![](/assets/blank.gif)
· 在solr-7.4.0serversolr-webappwebappWEB-INFclasses目录下新建一个classes目录,把IK分词下的配置文件复制进去
![](/assets/blank.gif)
· 进入ywbzCore文件夹,修改conf文件下的managed-schema.xml配置,在配置文件下方添加IK分词器的配置;
![](/assets/blank.gif)
· 重启solr,重新打开solrAdmin页面。发现IK分词生效可用
![](/assets/blank.gif)
6. managed-schema.xml配置文件解析
它是solr模式关联的文件。打开这个配置文件,你会发现有详细的注释。
![](/assets/blank.gif)
![](/assets/blank.gif)
Field和dynamicField的解析:
![](/assets/blank.gif)
![](/assets/blank.gif)
7安装ik分词器_Solr7全文检索+IK分词相关推荐
- 中文分词器 jcseg 和 IK Analyzer
为什么要使用lucene中文分词器 在 lucene 的开发过程中,常常会遇到分词时中文识别的问题,lucene提供了 lucene-analyzers-common-5.0.0.jar包来支持分词, ...
- 双向最大匹配算法思想详解,分词器及全文检索工具及Lucene框架简介
一.中文分词理论描述 前言 这篇将使用Java实现基于规则的中文分词算法,一个中文词典将实现准确率高达85%的分词结果.使用经典算法:正向最大匹配和反向最大匹配算法,然后双剑合璧,双向最大匹配. 根据 ...
- Java开源的11个中文分词器使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 3.ElasticSearch分词器,包括默认分词器、英文分词器、中文分词器
注:测试环境:CentOS Linux release 7.6.1810 (Core) jdk:1.8 elasticsearch:6.8.2 单节点 es 安装:https://blo ...
- Lucene分词器,使用中文分词器,扩展词库,停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...
- Java web:基于jieba分词器(或ansj分词器)的文章关键词字符云(词云图)
上来先丢一个展示图,吸引一下注意力(跑. 上图为对某论文用jieba分词后,计算其逆文档频率(TF-IDF)作为权重,并用echarts的字符云扩展包echarts-wordcloud画出来的字符云图 ...
- (五)使用IK分词器、扩展ik词库和停词库
使用IK分词器 集成ik分词器 https://mp.csdn.net/postedit/93602713 实体类PosEntity /** 省略了getter.setter*/ class Pos ...
- Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
首发地址:http://www.54tianzhisheng.cn/2017/09/07/Elasticsearch-analyzers/ 介绍:ElasticSearch 是一个基于 Lucene ...
- Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
最新文章
- python装饰器-python修饰器(装饰器)以及wraps
- Android 混淆打包
- matlab narxnet,请问吧里有大神做过MATLAB时间序列神经网络(NARX)吗?
- 用计算机弹奏hop,关于职称计算机Photohop模拟练习题参考
- 三个值得期待的JavaScript新功能!
- [渝粤教育] 中国地质大学 操作系统原理(新) 复习题
- 一分钟搭建、运行、测试SSM项目
- 枚举Enumerations
- PDA连接远程SQL 2005数据库
- Docker集群的创建与管理
- python label字体_Matplotlib xlabel,Arial格式,带一个斜体字
- UTM坐标转GPS方法分享
- theano java_theano安装问题(示例代码)
- 服务器共享文件夹设置特殊权限,资料共享服务器权限设置、服务器共享盘设置权限、设置局域网共享文件夹访问权限的方法...
- 启动solidworks时显示VBE6EXT.OLB不能被加载
- hexo博客之yilia主题的个性化设置
- 录音音频如何转换为mp3格式
- 金融工程及其python应用pdf_金融工程及其Python应用
- 微信小程序踩坑–卸载所有页面(含tabBar)跳转到指定页面
- IPv6安装和配置方法,IPv6资源汇总
热门文章
- ThreadLocal到底有没有内存泄漏?
- 缓存模式以及缓存的数据一致性
- Spring 中策略模式的 2 个经典应用
- linux系统获取用户信息失败怎么办,异常详细信息: System.Data.SqlClient.SqlException: 用户 'NT AUTHORITY\IUSR' 登录失败解决办法...
- php file size,PHP filesize() 函数
- rabbitMQ在springboot中的使用
- retinaface 训练笔记
- VS调试dll详细过程记录
- python opencv读取网络图片
- float64toint