1、 全文检索

1.1数据分类
结构化:数据库中的数据。存储数据有规律。
非结构化:数据存储无规律。
1.2数据搜索
顺序扫描法:例如:数据库无索引搜索、新华词典 “传播”
全文检索:索引 新华词典:基于拼音首字母或者偏旁部首。
1.3全文检索技术应用场景
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (天猫、 京东、 taobao)将来基本都是做站内搜索 (重要 未来从事方向)
3、 垂直领域的搜索 (豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、百度)

mysql性能优化(面试题)
<1>Sql优化
<2>建立索引
<3>使用缓存(Solr)
<4>数据库读写分离

2、Lucene简介

2.1Lucene简介 (工具包)
Lucene是java中全文检索技术底层。是一套工具包(jar)。不是搜索引擎(搜索服务器)。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎。
2.2Lucene底层原理倒排索引介绍
倒排索引:

3、Lucene的API创建索引

Lucene全文检索技术操作的是非结构化数据。

1、 准备资源(相关jar包)
2、 创建maven工程 (jar工程即可)
3、 导入相关依赖jar
4、 编写代码,基于Lucene提供的API实现创建索引操作

4、luke查看工具查看索引



查看文档内容页面

5、Lucene的API查询索引


6、中文分词介绍

6.1 Ik分词器实现中文分词效果 *****
优势:1、很好的支持中英文分词
2、可以动态的扩展词汇和动态的停用词汇。
使用步骤:
1、 导入相关jar包
2、 导入配置文件
3、 基于ik分词器针对中文分词

7、Lucene其他查询方式演示(补充)


8、Lucene删除文档演示(补充)


总结:
1、 知道Lucene底层依赖的索引结构 倒排索引
2、 知道Lucene的常用API实现索引文档查询操作
3、 全文检索技术应用场景 站内搜索 商品搜索功能
4、 第三方中文分词器 ik分词器掌握 优势

Lucene全文检索 luke查看工具查看索引 lk分词器相关推荐

  1. Postman查看Elasticsearch自带的分词器效果

    Postman查看Elasticsearch自带的分词器效果 一.实验的前提是es服务器已经安装好并可以使用. 二.在postman上按照下图样式点击发送 查看结果 安装好ES之后,想看看ES自带的分 ...

  2. lucene(3)——版本5.X写中文同义词分词器

    最基本的内容 如果你存储到硬盘的话,那么目录下就有这么几个文件 _0.fnm存储域的名字信息 _0.fdt域store.YES的数据信息 _0.fdx域store.YES的数据信息 _0.fdx保存字 ...

  3. 用内存查看工具vmmap来理解HINSTANCE和HMODULE的具体含义

    做win32开发以来,HINSTANCE和HMODULE用到的地方很多,一般而言,HINSTANCE指的是跟exe相关的,HMODULE跟dll相关. 比如win32界面程序, int APIENTR ...

  4. Lucene—全文检索工具包

    一.Lucene简介 Lucene是Apache Jakarta家族中的⼀个开源项目,是⼀个开放源代码的全文检索引擎工具包,但它不是⼀个 完整的 全文检索引擎,而是⼀个全文检索引擎的架构,提供了完整的 ...

  5. Lucene全文检索(一)

    全文检索的概念 1.从大量的信息中快速.准确的查找要的信息 2.收索的内容是文本信息 3.不是根据语句的意思进行处理的(不处理语义) 4.全面.快速.准确是衡量全文检索系统的关键指标. 5.搜索时英文 ...

  6. elasticsearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解

    一.快速入门 1. 查看集群的健康状况 http://localhost:9200/_cat http://localhost:9200/_cat/health?v 说明:v是用来要求在结果中返回表头 ...

  7. ElasticSearch最全详细使用教程:入门、索引管理、映射详解、索引别名、分词器、文档管理、路由、搜索详解...

    墨墨导读:之前我们分享了ElasticSearch最全详细使用教程:入门.索引管理.映射详解,本文详细介绍ElasticSearch的索引别名.分词器.文档管理.路由.搜索详解. 一.索引别名 1. ...

  8. 全文检索Lucence(三)——分词器

    前面的文章中已经涉及到了分词器的概念,必须使用同一个分词器建立索引和检索.我们的编程只需要了解中.英两种语言的分词器. 一.大致了解下分词器的作用机制:     分词器:是建立索引和搜索的辅助工具,建 ...

  9. Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

    Luke 5 发布,可视化 Lucene 索引查看工具  oschina 发布于2015年08月31日  这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...

  10. kibana 查看索引库中文档个数_两款超好用的Kubernetes实时日志查看工具

    通常情况下,Kubernetes 环境下的应用日志都需要通过日志系统来进行收集,比如:Filebeat + ElasticSearch + Kibana 的组合来实现.虽然这一组合的功能相当强大,但是 ...

最新文章

  1. 在 Azure 网站上使用 Memcached 改进 WordPress
  2. 2021年AI将改变制造业的6大应用趋势
  3. Windbg+VirtualBox调用内核
  4. mods文件夹怎么创建_TCL电视怎么安装蜜蜂视频通用教程
  5. 具有IOctl的简单字符驱动
  6. IDEA 惊天 bug:进程已结束,退出代码 1073741819
  7. 用php web编程作业,用PHP进行Web编程.ppt
  8. mail、sendEmail发送邮件命令
  9. 不允许更改采购订单币种
  10. 构建官方CoreOS COSA 镜像并构建 CoreOS
  11. SpringBoot学习笔记(4):自定义的过滤器
  12. MFC 教程【1_MFC概述 】
  13. Linux--进程组 作业 会话 守护(精灵)进程
  14. Linux的基础操作
  15. html表格中如何画单元格中对角线
  16. Windows Server 2012 和 System Center 2012 SP1,Virtual Machine Manager 中启用的软件定义的网络
  17. 1043 Eight(八数码问题 康托展开 A*算法)
  18. 【Python】Python脚本实现抢券
  19. Solr基础教程之Query(四)
  20. 关于浙政钉、专有钉钉的数据埋点小心得总结(稳定性监控、流量分析)

热门文章

  1. 基于SSH的电影票预订系统
  2. 记录|MacbookPro Shell|报错 cd: string not in pwd的解决办法
  3. 解析开关电源32个测试项:测试所需工具、测试方法、波形
  4. 苹果cms内容管理系统如何搭建,入门安装配置详细教程V10版本
  5. 翔楼新材通过注册:年营收10.6亿 清研汽车是股东
  6. Python 进阶之路 (一) List 进阶方法汇总,新年快乐!
  7. js验证各种文本框输入内容格式
  8. 信息化应用与实施效益评估体系初探
  9. 交换机密码丢失如何恢复
  10. Stonepeak Infrastructure Partners和Ironclad Energy Partners宣布以2.6亿美元的企业价值将罗切斯特地区能源资产出售给SDCL Energy Ef