开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记与猜想。若有不足之处还请不吝赐教,以不断完善之。
搜索引擎与信息检索
信息检索的过程:
构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。
倒排索引
常用的索引方式有3种,分别是倒排、后缀数组和签名文档。
从理论上说,倒排是一种面向单词的索引机制。通常,由词(关键字)和出现情况两部分组成。对于索引中的每个词(关键字),都跟随一个列表(位置表),用来记录单词在所有文档中出现的位置。
Lucene入门实例
Lucene充当的是一个全文索引工具的角色,因此,为了使用它,需要制造一个全文索引的环境。
开发过程:
对要进行查找的文档进行预处理
将大文档切分成多个小文档
创建eclipse工程并编写代码
效果测试
je-analysis是一个负责分词的。
通常情况下,使用Lucene的步骤如下所示:
为要处理的内容建立索引
构建查询对象
在索引中查找
Lucene中的Field类是文档索引期间很重要的类,控制着被索引的域值
http://blog.csdn.net/zhaoxiao2008/article/details/14180019
创建索引
开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门相关推荐
- 《android开发艺术探索》读书笔记(五)--RemoteViews
接上篇<android开发艺术探索>读书笔记(四)--View工作原理 No1: RemoteViews使用场景:通知栏和桌面小部件 No2: 通知栏主要通过NotificationMan ...
- Android深度探索--HAL与驱动开发----第五章读书笔记
第五章主要学习了搭建S3C6410开发板的测试环境.首先要了解到S3C6410是一款低功耗.高性价比的RISC处理器它是基于ARMI1内核,广泛应用于移动电话和通用处理等领域. 开发板从技术上说与我们 ...
- 《Android开发艺术探索》读书笔记
一.前言 花了几天整理完<Android进阶之光>的读书笔记,效果不是很满意,把以前零散整合成一片超长笔记,总感觉也不是那么好,决定接下来读书笔记还是拆开来,以后也好查找一点. 二.目录 ...
- 《android开发艺术探索》读书笔记(二)--IPC机制
接上篇<android开发艺术探索>读书笔记(一) No1: 在android中使用多进程只有一种方法,那就是给四大组件在AndroidMenifest中指定android:process ...
- 读书笔记——《Python编程从入门到实践》第二章
读书笔记--<Python编程从入门到实践>第二章 读书笔记--<Python编程从入门到实践>第二章 变量 如何使用变量 如何规范变量命名 字符串 字符串是什么 如何修改字符 ...
- 《程序员的思维修炼--开发认知潜能》读书笔记
转载原因] 我们很多人都会遇到这样的问题:刚刚看的书,却发现把书本一合上就啥都不记得了!比如,昨天阅读了<Spring in action>的第一章(总共三大章).当时觉得书很不错,虽然翻 ...
- 《音视频开发进阶指南》读书笔记(一) —— 音视频基础概念
前言 最近要学音视频,在图书馆借到这本<音视频开发进阶指南>,读了一段时间觉得挺好就在某宝买了. 以后一段时间应该都会沉浸在研究音视频中,开个专题记录哈每一章的读书笔记吧(以iOS开发的角 ...
- 《设计模式与游戏完美开发》——第二周读书笔记
在上一周的读书笔记中,我介绍了设计模式的概念.目的是什么,以及最后的最重要的面向对象的七大原则,在这篇读书笔记中,我要介绍其中的一种设计模式:状态模式. PS:这本书主要是以一个小游戏<p阵地& ...
- 《Android开发艺术探索》读书笔记 (3) 第3章 View的事件体系
本节和<Android群英传>中的第五章Scroll分析有关系,建议先阅读该章的总结 第3章 View的事件体系 3.1 View基本知识 (1)view的层次结构:ViewGroup也是 ...
最新文章
- 3D视觉创新应用(三维重建)竞赛作品系列——多楼层室内环境下的三维几何重建
- 汉诺塔问题java编程,Java经典编程300例之实例047 汉诺塔问题求解(递归)
- 120. 三角形最小路径和
- luogu P2791 幼儿园篮球题
- 关于导入项目eclipse出现乱码的问题
- python设计模式有哪些_设计模式教程
- 【Spring】事务
- InDesign: Interactive Documents InDesign:交互式文档 Lynda课程中文字幕
- 创业维艰,且行且珍惜
- 设计模式二 单例模式
- Google Colab中把pyth3.7版本更换成python3.6(tensorflow1.13)
- 数据可视化之小提琴图(原理+Python代码)
- 1月15日科技资讯|微信可直接转账到 QQ;小米联合中国联通推出当前最便宜 5G 套餐;Git 2.25.0 发布
- Java音乐播放器设计
- 图像处理---亚像素
- KioptrixVM3-writeup
- unity接入百度人体识别
- SOAP协议规范介绍
- oracle基础|oracle多表查询用法|什么是等值连接(inner join)|什么是不等值连接(between)|什么是左连接(left join)|什么是右连接(right join)
- 安卓JAVA调用解析青云客聊天API示例