一:前言

在操作数据库时,使用索引查找数据一般都是最有效率。但是,当开发一个大型项目时,比如说搜索引擎,操作的数据很多,有很多的用户进行检索时。数据库系统响应结果的速度就很慢了。
因此,在搜索引擎中,或者是对海量数据的操作,我们就要换掉传统的正向索引(Forward Index)(按照顺序依次一个个检索数据源),要使用一种叫倒排索引的技术来检索数据。

二:引言

1.概念解析:
倒排索引(Inverted Index),笔者和大家一样,在一开始时,以为它就是正向索引的反义词,操作应该就是正向索引反过来,倒序检索。
其实啊,有可能是因为翻译有点渣,直接根据Invert 有颠倒的意思意译,然后大家都这么用了。其实,在理解了其核心思想之后。
称为反向索引更为合理。

2.原理:
关键词------>文档的映射

3.应用:
首先,服务器端创建倒排索引
①创建文档列表:将所有的原始数据源进行编号。记录下文档编号以及文档内容,形成文档列表。
②创建倒排索引列表:将文档数据进行分词,会得到很多的词条。对词条进行编号,以词条创建索引。记录下词条编号、词条、词条所在文档编号到列表中,形成了倒排索引列表
词条所在列表就是倒排列表,也称反向列表;词条就是倒排索引,也称反向索引

然后,客户端用户搜索
①分词操作:服务器端会对用户输入的数据进行分词,得到要搜索的所有词条。
②匹配列表:分词得到的词条就是倒排索引,根据这些词条在倒排索引列表中找到对应文档编号。
③找到文档:根据得到的文档编号到文档列表中查找文档内容。

最后,输出检索结果。

三:尾言

①.倒排索引称之为反向索引更好。

②.正排索引就是通过文档找关键词。

③.倒排索引就是通过词条查找文档。

倒排索引原理及其应用相关推荐

  1. python倒排索引实现_倒排索引原理和实现 - uncle_LLD的个人空间 - OSCHINA - 中文开源技术交流社区...

    关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档.怎么快速找到包含某个关键词的文档就成为搜索的关键.这里我们借助单词--文档矩阵模型,通过这个模型我们可以很方便知道某篇文档 ...

  2. 【Elasticsearch】倒排索引原理

    1.概述 转载:elasticsearch 倒排索引原理 本文写的不错. 网上看到的一篇文章,对Lucene的倒排索引是如何执行的,说的比较易懂,就转过来分享下. Elasticsearch是通过Lu ...

  3. ElasticSearch倒排索引原理 数据的写入与查询过程

    Elasticsearch在生产中充当的角色 业务上,最早启用Elasticsearch(下称ES)是为了解决模糊查询的问题.具体业务场景为大量抓取回来的短视频内容.热门微博.公众号文章.小红书笔记. ...

  4. Lucene中倒排索引原理

    1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引 ...

  5. 倒排索引 java_倒排索引原理和实现

    关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档. 怎么快速找到包含某个关键词的文档就成为搜索的关键.这里我们借助单词--文档矩阵模型, 通过这个模型我们可以很方便知道某篇 ...

  6. java实践7索引之Hash索引、位图索引、倒排索引原理

    文章目录 java实践7索引之Hash索引.位图索引.倒排索引原理 Hash索引 优缺点: 位图索引: 优缺点: 倒排索引: B树+倒排索引 java实践7索引之Hash索引.位图索引.倒排索引原理 ...

  7. 倒排索引原理,即为什么叫倒排索引

    倒排索引的英文原名是Inverted index,大概因为Invert有颠倒的意思,所以就被翻译成了倒排,然后我们就会在字面上出现误解:理解为从A-Z颠倒成Z-A.其实它并不是字面上的意思. 倒排索引 ...

  8. 分布式搜索引擎01-elasticsearch-介绍、倒排索引原理、概念(文档和字段,索引和映射)、安装、索引库crud、文档crud、RestAPI(java代码实现es的crud)

    文章目录 分布式搜索引擎01 0.学习目标 1.初识elasticsearch 1.1.了解ES 1.1.1.elasticsearch的作用 1.1.2.ELK技术栈 1.1.3.elasticse ...

  9. 倒排索引原理_拜托,面试请不要再问我分布式搜索引擎的架构原理!

    欢迎关注头条号:石杉的架构笔记 周一至周五早八点半!精品技术文章准时送上!!! 精品学习资料获取通道,参见文末 目录 (1)倒排索引到底是啥? (2)什么叫分布式搜索引擎? (3)ElasticSea ...

  10. elasticsearch倒排索引原理与中文分词器

    1. 索引的方式: 1.1 正向索引 正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法在建立索引的时候结构 ...

最新文章

  1. Android之自定义AlertDialog的实现方法(一)
  2. 功能、资源权限管理的设计
  3. 如何返回一个只读泛型集合
  4. spring 事务控制 设置手动回滚 TransactionAspectSupport.currentTransactionStatus().setRollbackOnly();
  5. 产品设计体会(2011)网络推广实战
  6. 使用SDK进行二次开发流程简述
  7. cf375D. Tree and Queries(莫队)
  8. MySQL之Handler_read_*查看索引使用情况
  9. 社会工程学之《反欺骗的艺术》小结(二)
  10. 电脑服务器注册表,(恢复Windows服务器注册表的系统配置单元.doc
  11. 物联网(IoT)课程
  12. 神仙道丹药材料及掉落地点大全
  13. vue:监听浏览器地址栏变化
  14. 计算机系统是日语,如何在计算机系统中添加日语输入法
  15. 程序员工作压力大,为什么还这么多人想做程序员?是因为喜欢吗?
  16. MFRC53101TOFE小知识
  17. 网站自动翻译-网站批量自动翻译-网站免费翻译导出
  18. 人工客服 计算机英语怎么说,人工服务用英文怎么说? 电话上的。。。谢谢
  19. 基于LinkedList实现HashMap代码
  20. python爬虫表格中清除空格_Pandas中如何去掉空格

热门文章

  1. [附源码]计算机毕业设计springboot二手书店设计论文
  2. ib课程计算机科学内容,ib课程有哪些课
  3. [物理学与PDEs]书中出现的符号及其意义汇总
  4. excel 成绩排名(相同的成绩,拥有相同的名次)
  5. helm 部署 heapster 组件
  6. pygal绘制图表字体大小设置
  7. linux中常见渗透命令
  8. pcap文件格式及文件解析
  9. 夜光精讲 Opentcs 三大算法(二)任务分配算法
  10. Codeforces Round #774 (Div. 2) Power Board(数学)