什么是 coreseek?

coreseek 是一款基于 sphinx 开源的搜索引擎,专门为用户提供免费的中文全文检索系统,coreseek 被称为带有中文分词的 sphinx,与 sphinx 不同的是 coreseek 增加了一个带有中文分司的词库

什么是分词技术?
使用分词技术之后,可以查询更多更准确更丰富的内容。

Sphinx 特性

1、处理速度快
2、处理量大
3、支持的算法
高速的建立索引(可达 10M/秒)
高性能的搜索(平均检索时间小于 0.1 秒)
可处理海量数据
提供了优秀的相关度算法
支持分布式搜索
提供摘要生成功能
可作为 MYSQL 存储引擎提供搜索服务
支持布尔、短语、词语相似度等多种检索模式
单个文档支持多个全文检索字段(最大不超过 32 个)
支持额外的属性信息
支持单一字节编码和 UTF-8 编码
原生支持 MYSQL、PostgreSQL 数据库

解压
解压之后:

Sphinx 原理

第一步:
① sphinx 和 MySQL 建立联系
② sphinx 会分析 MySQL 数据表中的字符串类型的字段,从字段中自动拆取关键词,再根据
关键词获取所有相关的数据 id。
③ 将关键词和 id,记录到 sphinx 自己的索引库中
以上操作是 sphinx 自动完成的

第二步:PHP 读取 spinx 中关键词对应的数据,再从 MySQL 中查询数据
④ 根据关键词从 sphinx 的索引库中取出对应 id 值
⑤ 根据 id 值,从 mysql 中取出数据
程序员手动编写程序完成的

配置 Sphinx

将 sphinx 程序复制到合适的位置:


创建 MySQL 的 Sphinx 文件


将配置文件复制到 sphinx 的根目录下,并改名为 sphinx.conf

配置数据源

配置数据源:指定从哪个表中获取关键词

配置分词索引

分词索引配置: 指定要建立分词表(源),指定索引库保存位置


配置服务


创建分词索引


创建分词索引:
在 cmd 中运行 indexer.exe 命令
格式: indexer.exe -c 配置文件路径 数据源名称
示例: indexer.exe -c C:/work/dev/sphinx/sphinx.conf movie

查看索引文件:

安装 sphinx 服务

使用 searchd.exe -h 帮助命令

将 sphinx 安装为系统服务:



点击“启动”来启动 sphinx 服务。

第一步完成。

使用 PHP 操作 Sphinx

根据关键词从 sphinx 服务器中获取对应的 id 值


Sphinx 是一个类,该类并不在 php 底层程序中,在 sphinx 的安装包的 api 目录中


将该文件复制到项目中:

具体代码编写:
第一步:加载 sphinxapi 类
第二步:实例化 spinx 对象
第三步:链接 sphinx
第四步:执行 query()方法
返回值中 matches 中的下标就是数据在数据库中的 id

访问结果:
Matches 下标中的内容就是匹配到的 id 值。
2) 根据 id 值,从 MySQL 服务器中获取对应的内容

将关键词高亮显示


参数 1:$docs 每次从 mysql 结果集中取出的数组 ,就是程序中的 $row
参数 2:索引文件的名称 $index=’movie’ 参数
3:关键词 $word = ‘香港’ 参数
4:配置项
‘before_match’ : 在输出关键词之前输出的代码
‘after_match’ : 在输出关键词之后输出的代码

整体代码:



coreseek中文搜索引擎简述及使用相关推荐

  1. 发布中文搜索引擎数据库 TngouDB

    为什么80%的码农都做不了架构师?>>>    TngouDB中文索引数据库是天狗网(tngou.net)开发的中文搜索引擎数据库,用于天狗农业网的农业搜索引擎. 天狗希望基于开源的 ...

  2. linux php mysql 中文_Linux下PHP+MySQL+CoreSeek中文检索引擎配置 | 系统运维

    说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...

  3. 多吉搜索不能用了_「转载」一个纯粹的中文搜索引擎:「Doge Doge」多吉搜索

    偶然间在网上发现一个中文搜索引擎,使用了一下,感觉像是沙漠里发现了绿洲,有回到我使用Google的那个年代的感觉,没有百度那种广告竞价排名,搜索非常精准,不浪费我的搜索时间,简直就是中文版的Googl ...

  4. 百度谷歌2013年母亲节 赏析中文搜索引擎庆祝涂鸦

    在写这篇文章之前,xxx已经写过了几篇关于改百度谷歌主题的文章,想要了解的朋友可以去翻一下之前的文章 母亲节是一个子女戴德母亲的节日,现在所知最早的母亲节起源于古希腊.在这一天,古希腊人向希腊众神之母 ...

  5. 百度董事长兼CEO李彦宏创立《百度互联网》全球最大的中文搜索引擎

    百度目前是全球最大的中文搜索引擎,2000年1月创立于北京中关村.百度的使命是让人们最便捷地获取信息,找到所求.百度的核心价值观是"简单可依赖". 1999 年底,身在美国硅谷的李 ...

  6. 相关文章: 中文搜索引擎

    1.为什么需要搜索引擎? 什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有.每天都有新的主机被连接到Internet ...

  7. mysql coreseek_Linux下PHP+MySQL+CoreSeek中文检索引擎配置

    说明: 操作系统:CentOS 5.X 服务器IP地址:192.168.21.127 Web环境:Nginx+PHP+MySQL 站点根目录:/usr/local/nginx/html 目的:安装co ...

  8. 摆平中文搜索引擎的分词错误(转)

    搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词). 举例来说,你搜索关键词"品行"可能搜到大量"商品行情",又如搜索关键词" ...

  9. 中文搜索引擎提交入口

    中文搜索引擎提交入口 中文Blog搜索引擎: http://www.cnblog.org/rings/submit.asp 奇虎网站登录入口: http://blog.qihoo.com/submit ...

最新文章

  1. java 使用servlet做学生管理系统(无框架)
  2. php sprintf u,PHP sprintf()格式化用法详解
  3. PCL:PCL可视化显示点云
  4. 力扣452 用最少的箭引爆气球(个人感悟向,非完整代码)
  5. C++资源之不完全导引(下)
  6. js+svg实现的一个环图
  7. 经济下行,薅点羊毛吧!
  8. 如何突破织梦后台发布文章的250字符的内容摘要字数限制
  9. 什么是引流软件你了解吗,引流软件效果如何?
  10. 330tsl是什么意思_19款帕萨特330tsl哪款比较好?
  11. linux 服务器搭建opvn
  12. python和excel数据分析有什么区别_用Excel、SQL、Python做数据分析有何不同?
  13. Android 11.0 12.0蓝牙遥控器确认键弹不出输入法的解决方法
  14. php 电梯程序,干货:电梯调试流程内容!
  15. UE4之Control Rig
  16. 关于nacos配置中心配置不成功的问题
  17. java解析Excel
  18. ZSD017出货达成率
  19. VC++多线程全面讲解
  20. 开源C#2.0体温单程序

热门文章

  1. 谈谈B端后台开发的出路在哪里?
  2. 洛谷U115360 炫耀英文的琦琦
  3. 删除文件夹内的重复图片
  4. APAX-5017PG 项目开发全程记录 - 调试篇
  5. 奇迹mu服务端开服架设技术搭建Data文件说明
  6. 跨国面板数据(1960-2020)三:金融、上市企业、对外援助(stata版)
  7. df -i 与df -h 的不同
  8. 什么是AEP(Automated Error Prevention)
  9. MS SQL 2016数据库安装部署步骤
  10. Python基础学习二