Lucene全文检索 luke查看工具查看索引 lk分词器
1、 全文检索
1.1数据分类
结构化:数据库中的数据。存储数据有规律。
非结构化:数据存储无规律。
1.2数据搜索
顺序扫描法:例如:数据库无索引搜索、新华词典 “传播”
全文检索:索引 新华词典:基于拼音首字母或者偏旁部首。
1.3全文检索技术应用场景
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (天猫、 京东、 taobao)将来基本都是做站内搜索 (重要 未来从事方向)
3、 垂直领域的搜索 (豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、百度)
mysql性能优化(面试题)
<1>Sql优化
<2>建立索引
<3>使用缓存(Solr)
<4>数据库读写分离
2、Lucene简介
2.1Lucene简介 (工具包)
Lucene是java中全文检索技术底层。是一套工具包(jar)。不是搜索引擎(搜索服务器)。
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎。
2.2Lucene底层原理倒排索引介绍
倒排索引:
3、Lucene的API创建索引
Lucene全文检索技术操作的是非结构化数据。
1、 准备资源(相关jar包)
2、 创建maven工程 (jar工程即可)
3、 导入相关依赖jar
4、 编写代码,基于Lucene提供的API实现创建索引操作
4、luke查看工具查看索引
查看文档内容页面
5、Lucene的API查询索引
6、中文分词介绍
6.1 Ik分词器实现中文分词效果 *****
优势:1、很好的支持中英文分词
2、可以动态的扩展词汇和动态的停用词汇。
使用步骤:
1、 导入相关jar包
2、 导入配置文件
3、 基于ik分词器针对中文分词
7、Lucene其他查询方式演示(补充)
8、Lucene删除文档演示(补充)
总结:
1、 知道Lucene底层依赖的索引结构 倒排索引
2、 知道Lucene的常用API实现索引文档查询操作
3、 全文检索技术应用场景 站内搜索 商品搜索功能
4、 第三方中文分词器 ik分词器掌握 优势
Lucene全文检索 luke查看工具查看索引 lk分词器相关推荐
- Postman查看Elasticsearch自带的分词器效果
Postman查看Elasticsearch自带的分词器效果 一.实验的前提是es服务器已经安装好并可以使用. 二.在postman上按照下图样式点击发送 查看结果 安装好ES之后,想看看ES自带的分 ...
- lucene(3)——版本5.X写中文同义词分词器
最基本的内容 如果你存储到硬盘的话,那么目录下就有这么几个文件 _0.fnm存储域的名字信息 _0.fdt域store.YES的数据信息 _0.fdx域store.YES的数据信息 _0.fdx保存字 ...
- 用内存查看工具vmmap来理解HINSTANCE和HMODULE的具体含义
做win32开发以来,HINSTANCE和HMODULE用到的地方很多,一般而言,HINSTANCE指的是跟exe相关的,HMODULE跟dll相关. 比如win32界面程序, int APIENTR ...
- Lucene—全文检索工具包
一.Lucene简介 Lucene是Apache Jakarta家族中的⼀个开源项目,是⼀个开放源代码的全文检索引擎工具包,但它不是⼀个 完整的 全文检索引擎,而是⼀个全文检索引擎的架构,提供了完整的 ...
- Lucene全文检索(一)
全文检索的概念 1.从大量的信息中快速.准确的查找要的信息 2.收索的内容是文本信息 3.不是根据语句的意思进行处理的(不处理语义) 4.全面.快速.准确是衡量全文检索系统的关键指标. 5.搜索时英文 ...
- elasticsearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解
一.快速入门 1. 查看集群的健康状况 http://localhost:9200/_cat http://localhost:9200/_cat/health?v 说明:v是用来要求在结果中返回表头 ...
- ElasticSearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解...
墨墨导读:之前我们分享了ElasticSearch最全详细使用教程:入门.索引管理.映射详解,本文详细介绍ElasticSearch的索引别名.分词器.文档管理.路由.搜索详解. 一.索引别名 1. ...
- 全文检索Lucence(三)——分词器
前面的文章中已经涉及到了分词器的概念,必须使用同一个分词器建立索引和检索.我们的编程只需要了解中.英两种语言的分词器. 一.大致了解下分词器的作用机制: 分词器:是建立索引和搜索的辅助工具,建 ...
- Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引
Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...
- kibana 查看索引库中文档个数_两款超好用的Kubernetes实时日志查看工具
通常情况下,Kubernetes 环境下的应用日志都需要通过日志系统来进行收集,比如:Filebeat + ElasticSearch + Kibana 的组合来实现.虽然这一组合的功能相当强大,但是 ...
最新文章
- 在 Azure 网站上使用 Memcached 改进 WordPress
- 2021年AI将改变制造业的6大应用趋势
- Windbg+VirtualBox调用内核
- mods文件夹怎么创建_TCL电视怎么安装蜜蜂视频通用教程
- 具有IOctl的简单字符驱动
- IDEA 惊天 bug:进程已结束,退出代码 1073741819
- 用php web编程作业,用PHP进行Web编程.ppt
- mail、sendEmail发送邮件命令
- 不允许更改采购订单币种
- 构建官方CoreOS COSA 镜像并构建 CoreOS
- SpringBoot学习笔记(4):自定义的过滤器
- MFC 教程【1_MFC概述 】
- Linux--进程组 作业 会话 守护(精灵)进程
- Linux的基础操作
- html表格中如何画单元格中对角线
- Windows Server 2012 和 System Center 2012 SP1,Virtual Machine Manager 中启用的软件定义的网络
- 1043 Eight(八数码问题 康托展开 A*算法)
- 【Python】Python脚本实现抢券
- Solr基础教程之Query(四)
- 关于浙政钉、专有钉钉的数据埋点小心得总结(稳定性监控、流量分析)
热门文章
- 基于SSH的电影票预订系统
- 记录|MacbookPro Shell|报错 cd: string not in pwd的解决办法
- 解析开关电源32个测试项:测试所需工具、测试方法、波形
- 苹果cms内容管理系统如何搭建,入门安装配置详细教程V10版本
- 翔楼新材通过注册:年营收10.6亿 清研汽车是股东
- Python 进阶之路 (一) List 进阶方法汇总,新年快乐!
- js验证各种文本框输入内容格式
- 信息化应用与实施效益评估体系初探
- 交换机密码丢失如何恢复
- Stonepeak Infrastructure Partners和Ironclad Energy Partners宣布以2.6亿美元的企业价值将罗切斯特地区能源资产出售给SDCL Energy Ef