coreseek中文搜索引擎简述及使用
什么是 coreseek?
coreseek 是一款基于 sphinx 开源的搜索引擎,专门为用户提供免费的中文全文检索系统,coreseek 被称为带有中文分词的 sphinx,与 sphinx 不同的是 coreseek 增加了一个带有中文分司的词库
什么是分词技术?
使用分词技术之后,可以查询更多更准确更丰富的内容。
Sphinx 特性
1、处理速度快
2、处理量大
3、支持的算法
高速的建立索引(可达 10M/秒)
高性能的搜索(平均检索时间小于 0.1 秒)
可处理海量数据
提供了优秀的相关度算法
支持分布式搜索
提供摘要生成功能
可作为 MYSQL 存储引擎提供搜索服务
支持布尔、短语、词语相似度等多种检索模式
单个文档支持多个全文检索字段(最大不超过 32 个)
支持额外的属性信息
支持单一字节编码和 UTF-8 编码
原生支持 MYSQL、PostgreSQL 数据库
解压
解压之后:
Sphinx 原理
第一步:
① sphinx 和 MySQL 建立联系
② sphinx 会分析 MySQL 数据表中的字符串类型的字段,从字段中自动拆取关键词,再根据
关键词获取所有相关的数据 id。
③ 将关键词和 id,记录到 sphinx 自己的索引库中
以上操作是 sphinx 自动完成的
第二步:PHP 读取 spinx 中关键词对应的数据,再从 MySQL 中查询数据
④ 根据关键词从 sphinx 的索引库中取出对应 id 值
⑤ 根据 id 值,从 mysql 中取出数据
程序员手动编写程序完成的
配置 Sphinx
将 sphinx 程序复制到合适的位置:
创建 MySQL 的 Sphinx 文件
将配置文件复制到 sphinx 的根目录下,并改名为 sphinx.conf
配置数据源
配置数据源:指定从哪个表中获取关键词
配置分词索引
分词索引配置: 指定要建立分词表(源),指定索引库保存位置
配置服务
创建分词索引
创建分词索引:
在 cmd 中运行 indexer.exe 命令
格式: indexer.exe -c 配置文件路径 数据源名称
示例: indexer.exe -c C:/work/dev/sphinx/sphinx.conf movie
查看索引文件:
安装 sphinx 服务
使用 searchd.exe -h 帮助命令
将 sphinx 安装为系统服务:
点击“启动”来启动 sphinx 服务。
第一步完成。
使用 PHP 操作 Sphinx
根据关键词从 sphinx 服务器中获取对应的 id 值
Sphinx 是一个类,该类并不在 php 底层程序中,在 sphinx 的安装包的 api 目录中
将该文件复制到项目中:
具体代码编写:
第一步:加载 sphinxapi 类
第二步:实例化 spinx 对象
第三步:链接 sphinx
第四步:执行 query()方法
返回值中 matches 中的下标就是数据在数据库中的 id
访问结果:
Matches 下标中的内容就是匹配到的 id 值。
2) 根据 id 值,从 MySQL 服务器中获取对应的内容
将关键词高亮显示
参数 1:$docs 每次从 mysql 结果集中取出的数组 ,就是程序中的 $row
参数 2:索引文件的名称 $index=’movie’ 参数
3:关键词 $word = ‘香港’ 参数
4:配置项
‘before_match’ : 在输出关键词之前输出的代码
‘after_match’ : 在输出关键词之后输出的代码
整体代码:
coreseek中文搜索引擎简述及使用相关推荐
- 发布中文搜索引擎数据库 TngouDB
为什么80%的码农都做不了架构师?>>> TngouDB中文索引数据库是天狗网(tngou.net)开发的中文搜索引擎数据库,用于天狗农业网的农业搜索引擎. 天狗希望基于开源的 ...
- linux php mysql 中文_Linux下PHP+MySQL+CoreSeek中文检索引擎配置 | 系统运维
说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...
- 多吉搜索不能用了_「转载」一个纯粹的中文搜索引擎:「Doge Doge」多吉搜索
偶然间在网上发现一个中文搜索引擎,使用了一下,感觉像是沙漠里发现了绿洲,有回到我使用Google的那个年代的感觉,没有百度那种广告竞价排名,搜索非常精准,不浪费我的搜索时间,简直就是中文版的Googl ...
- 百度谷歌2013年母亲节 赏析中文搜索引擎庆祝涂鸦
在写这篇文章之前,xxx已经写过了几篇关于改百度谷歌主题的文章,想要了解的朋友可以去翻一下之前的文章 母亲节是一个子女戴德母亲的节日,现在所知最早的母亲节起源于古希腊.在这一天,古希腊人向希腊众神之母 ...
- 百度董事长兼CEO李彦宏创立《百度互联网》全球最大的中文搜索引擎
百度目前是全球最大的中文搜索引擎,2000年1月创立于北京中关村.百度的使命是让人们最便捷地获取信息,找到所求.百度的核心价值观是"简单可依赖". 1999 年底,身在美国硅谷的李 ...
- 相关文章: 中文搜索引擎
1.为什么需要搜索引擎? 什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有.每天都有新的主机被连接到Internet ...
- mysql coreseek_Linux下PHP+MySQL+CoreSeek中文检索引擎配置
说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...
- 摆平中文搜索引擎的分词错误(转)
搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词). 举例来说,你搜索关键词"品行"可能搜到大量"商品行情",又如搜索关键词" ...
- 中文搜索引擎提交入口
中文搜索引擎提交入口 中文Blog搜索引擎: http://www.cnblog.org/rings/submit.asp 奇虎网站登录入口: http://blog.qihoo.com/submit ...
最新文章
- java 使用servlet做学生管理系统(无框架)
- php sprintf u,PHP sprintf()格式化用法详解
- PCL:PCL可视化显示点云
- 力扣452 用最少的箭引爆气球(个人感悟向,非完整代码)
- C++资源之不完全导引(下)
- js+svg实现的一个环图
- 经济下行,薅点羊毛吧!
- 如何突破织梦后台发布文章的250字符的内容摘要字数限制
- 什么是引流软件你了解吗,引流软件效果如何?
- 330tsl是什么意思_19款帕萨特330tsl哪款比较好?
- linux 服务器搭建opvn
- python和excel数据分析有什么区别_用Excel、SQL、Python做数据分析有何不同?
- Android 11.0 12.0蓝牙遥控器确认键弹不出输入法的解决方法
- php 电梯程序,干货:电梯调试流程内容!
- UE4之Control Rig
- 关于nacos配置中心配置不成功的问题
- java解析Excel
- ZSD017出货达成率
- VC++多线程全面讲解
- 开源C#2.0体温单程序