导读:本文对MySQL中几种常用的模糊搜索方式进行了介绍,包括LIKE通配符、RegExp正则匹配、内置字符串函数以及全文索引,最后给出了性能对比。

01 引言

MySQL根据不同的应用场景,支持的模糊搜索方式有多种,例如应用最广泛的可能是Like匹配和RegExp正则匹配,二者虽然用法和原理都很相似,但实际上匹配原则却不尽相同,其中Like要求模式串与整个目标字段完全匹配才检索该记录,而RegExp则是要求目标字段包含模式串即可。

对于简单的判断模式串是否存在类型的模糊搜索,应用MySQL内置函数即可实现,例如Instr()、Locate()、Position()等。

当然,提到MySQL查询性能就不得不提到索引,对于字段模糊查询需求,我们也可以考虑添加全文索引(Fulltext)。

注:本文所用MySQL版本8.0.19,可视化工具Navicat Primium。

02 4种模糊查询

为了便于描述和测试不同模糊查询方式结果,首先给出一个简单的测试用数据表tests如下:

其中,tests表仅含有一个名为words的字段,并对该字段添加全文索引。表中共有6条记录。Like

Like算作MySQL中的谓词,其应用与is、=、>和

例如,在如上表中查找所有以"hello"开头的记录,则其SQL语句为:

SELECT words FROM tests WHERE words LIKE 'hello%';

查询结果:

如果想查找所有以"hello"开头且至少含有6个字符的记录,则可简单修改SQL语句如下:

SELECT words FROM tests WHERE words LIKE 'hello_%';

查询结果:

另外:当在Like模式字段中,若不包含任何"_"和"%"通配符,则等价于"=",表示精确匹配,例如查询语句……Like "hello",则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。RegExp

正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。

如前所述,Like匹配原则是要求模式串与整个目标字段匹配时,才返回该条记录;而RegExp中则是当目标字段包含模式串时即返回该条记录。例如如下SQL语句将返回所有包含"hello"的记录:

SELECT words FROM tests WHERE words REGEXP 'hello';

而在Like中这样的写法仅返回记录="hello"的记录。为了限定正则表达式以某个模式串开头或者结尾,可以通过添加"^"和"$"标识符来限定,例如仍然搜索以"hello"开头的目标字段,则其SQL语句为:

SELECT words FROM tests WHERE words REGEXP '^hello';内置函数

对于包含某些特定模式串的模糊搜索,可以通过MySQL内置函数实现。可以完成这一功能的函数包括Instr()、Locate()和Position()等,其功能语法很相近,均是返回子串在字符串中的索引,且索引下标从1开始,当子串不存在是返回0。需要注意的是三个函数中子串和字符串的先后顺序是不一致的。例如以下语句均成功检索,且返回目标索引1

SELECT INSTR("hello,world", 'hello');-- 1

SELECT LOCATE('hello', "hello,world");-- 1

SELECT POSITION('hello' in "hello, world"); -- 1

应用以上3个内置函数,搜索上述测试表中包含"hello"的记录,则相应SQL语句为:

SELECT words FROM tests WHERE INSTR(words, 'hello');

SELECT words FROM tests WHERE LOCATE('hello', words);

SELECT words FROM tests WHERE POSITION('hello' in words);全文索引抛开索引谈查询性能,都是耍流氓!

全文索引是MySQL中索引的一种,曾经仅在引擎为MyISAM的表中支持,从5.6版本开始在InnoDB中也开始支持全文索引,支持的字段格式包括CHAR、VARCHAR和TEXT。在如上已经添加了全文索引的tests表中,仍然查询包含"hello"的记录,应用全文索引查询的SQL语句为:

SELECT words FROM tests WHERE MATCH(words) against('hello');

实际上,MATCH(words) against('hello')返回的是字段words对目标字符"hello"的匹配程度:当不存在任何匹配结果时,返回0;否则,根据匹配次数的多少和位置先后返回一个匹配度。例如,如下SQL语句返回表中每条记录对目标字段"hello"的匹配度:

SELECT MATCH(words) against('hello') FROM tests;

返回结果如下:

03 查询性能对比

为了对比以上4种模糊搜索方式的性能,我们这里构建一个规模较大且更具一般性的数据表。本文选择采集若干条英文格言,用于创建目标数据库。创建数据表。为简单起见,仅创建一个名为says的字段,且对其添加全文索引。

CREATE TABLE IF NOT EXISTS sayings(says TEXT, FULLTEXT (says));英文格言信息获取

在网上找了个英文格言的网站,并写了一个python小爬虫爬取页面全部300条英文格言,爬虫源码如下(为了增加记录条数,将300条记录重写100词,即数据库中包含30000条记录):

from pyquery import PyQuery as pq

from pymysql import connect

doc = pq(url='http://www.1juzi.com/new/43141.html', encoding = 'gb18030')

items=doc("div.content>p:nth-child(2n+1)").items()

hots = [item.text() for item in items]

with connect(host="localhost", user="root", password="123456", db='teststr', charset='utf8') as cur:

sql_insert = 'insert into sayings values (%s);'

for _ in range(100):

cur.executemany(sql_insert, hots)

注:如果对pyquery爬虫运用感兴趣,可移步:用pyquery5行代码爬取百度热点新闻一文

对爬取的英文短句写入创建的数据表中,结果如下:

既然是英文励志格言短句,那么我们就来查询其中包括"success"的记录。首先查询语句中任意位置包含"success"的记录,4种方式SQL语句及执行时间为:

-- LIKE通配符SELECT says FROM sayings WHERE says LIKE '%success%'

> OK

> 时间: 0.036s

-- REGEXP正则匹配SELECT says FROM sayings WHERE says REGEXP 'success'

> OK

> 时间: 0.053s

-- 内置函数查找SELECT says FROM sayings WHERE INSTR(says, 'success')

> OK

> 时间: 0.045s

SELECT says FROM sayings WHERE LOCATE('success', says)

> OK

> 时间: 0.044s

SELECT says FROM sayings WHERE POSITION('success' in says)

> OK

> 时间: 0.047s

-- 全文索引SELECT says FROM sayings WHERE MATCH(says) against('Success')

> OK

> 时间: 0.006s

可见,全文索引速度最宽,领先其他方式接近一个量级;Like通配符速度其次,但与其他几种查询方式效率相差不大。

通过Explain查询计划,我们可以发现全文索引方式由于应用了索引而无需全表查询,所以执行速度快,而其他三种模糊查询方式均为执行全表查询。全文索引查询计划Like通配符查询计划

实际上,对于添加索引的字段应用Like查询时,可以应用索引加速查询,为勒验证全文索引条件下是否仍然可以应用索引,我们进行第二组性能测试:查询语句中以"success"开头的记录(全文索引方式不支持指定单词开头的查询任务),相应SQL语句即执行时间如下:

SELECT says FROM sayings WHERE says LIKE 'success%'

> OK

> 时间: 0.015s

SELECT says FROM sayings WHERE says REGEXP '^success'

> OK

> 时间: 0.046s

SELECT says FROM sayings WHERE INSTR(says, 'success')=1

> OK

> 时间: 0.042s

SELECT says FROM sayings WHERE LOCATE('success', says)=1

> OK

> 时间: 0.051s

SELECT says FROM sayings WHERE POSITION('success' in says)=1

> OK

> 时间: 0.049s 20 21SELECT says FROM sayings WHERE MATCH(says) against('Success')

> OK

> 时间: 0.007s

可以看到,修改后的Like查询效率提升明显,并大幅超过其他方式。但解释查询计划发现,虽然possible_key显示了索引字段,但实际仍然未应用任何索引(key为null),即仍然进行全表查询(Type = All)。之所以带来速度上的大幅提升,仅仅是因为对'success%'要比'%success%'执行字符串匹配要快得多(后者要整列匹配,前者仅需匹配开头的单词即可),而与索引无关。Like'success%'仍然无法应用全文索引

所以,得到的结论是Like通配符无法有效利用全文索引加速查询,但在特定模式下的查询速度可快于通配符%模式下的查询。

04 总结

本文探讨了MySQL中4中模糊查询方式,包括:Like通配符用于查询目标字段与模式串完全匹配的记录,且无法应用全文索引提高查询速度,但以特定字符开头的模糊查询比以"%"开头时速度提升明显

RegExp正则表达式功能强大,可实现任意模式查询,但执行效率一般

简单的子串有无查询还可应用MySQL内置函数,包括Instr()、Locate()和Position()等,用法相近,但效率一般

对于包含全文索引的目标字段查询,应用全文索引查询效率最高,但可定制性差,不支持任意匹配查询

记录数目较少时,几种查询方式效率均可接受,可根据任务需求灵活选用

mysql模糊_MySQL模糊搜索的几种姿势相关推荐

  1. 空间mysql升级_MySQL升级的3种方法

    MySQL数据库的版本更新很快,新的特性也随之不断的更新,更主要的是解决了很多影响我们应用的BUG,为了让我们的MySQL变得更美好,我们有必要去给它升级,尽管你会说它现在已经跑得很好很稳定完全够用了 ...

  2. php mysql 去重_mysql去重的两种方法实例详解

    这篇文章主要介绍了mysql去重的两种方法详解及实例代码的相关资料,这里对去重的两种方法进行了一一实例详解,需要的朋友可以参考下 mysql去重 方法一: 在使用MySQL时,有时需要查询出某个字段不 ...

  3. mysql临时表_MySQL中的两种临时表

    目录: MySQL 临时表在我们需要保存一些临时数据时是非常有用的.临时表只在当前连接可见,当关闭连接时,MySQL会自动删除表并释放所有空间. 使用其他MySQL客户端程序连接MySQL数据库服务器 ...

  4. mysql导出表_mysql导出表的3种方式

    文章转载自 : https://blog.csdn.net/jbb0403/article/details/26359573 navicat导出表一共有三中用法: 第一种:数据库上右键->&qu ...

  5. mysql模糊连接查询_mysql 模糊查询 concat()

    concat() 函数,是用来连接字符串. 精确查询: select * from user where name="zhangsan" 模糊查询: select * from u ...

  6. MySQL模糊查询:LIKE模式和REGEXP模式

    转自:http://www.linuxidc.com/Linux/2015-03/114580.htm MySQL模糊查询提供了两种模式:LIKE模式和REGEXP模式. LIKE模式 LIKE模式是 ...

  7. MySQL模糊查询日期时间的方法

    今天在写一个SSM项目时,其中需要到用模糊查询日期,之前没有用过 ,在网上翻阅一些资料查找到一些方法,特来跟大家分享下: Mysql模糊查询有以下三种方法: 1.Convert转成日期时间型,在用Li ...

  8. 关于解决MYSQL的like模糊查询效率的一种方案

    大家都知道like %suibin% 这种查询的效率极低,而MYSQL也建议不要这样模糊查询,常用的是把数据同步到CACHE里: 1.比如同步到ES里用ES模糊查询.或者同步数据到MongoDB实现模 ...

  9. mysql模糊查询xml_在userMapper.xml文件中模糊查询的常用的3种方法

    在userMapper.xml文件中新建映射sql的标签 select from users name like "%"#{name}"%" and phone ...

最新文章

  1. 近20年3867篇AI论文大调研:有缺陷的指标被滥用,好的指标被忽视
  2. sql 两个表字段不一样合并查询_数据分析进阶--SQL多表查询
  3. linkedlist 置顶
  4. React Native填坑之旅 -- 回归小插曲
  5. kaggle颅内出血比赛分析
  6. ssh sftp 免密码 公钥登录
  7. 合并排序算法排序过程_外部合并排序算法
  8. UI实用素材|设计直观和用户友好的404页面
  9. python 线程安全的数据类型_详解python多线程、锁、event事件机制的简单使用
  10. C语言char的大小写转换
  11. 计算机算法应用状况,详解机器学习中的现状,算法,应用
  12. PostgreSQL10.1-CN-v0.1.chm中文手册
  13. java 智能一卡通系统_基于Java框架的银医一卡通系统设计
  14. 记录破解某网站 php代码 加密
  15. [python] 正则
  16. php 处理eml,php读取eml实例、php解析eml、eml解析成网页
  17. 业务流程与组织结构优化
  18. 两个一维数组合成二维数组
  19. CSS3实战-文字篇
  20. 教你如何对产品做AB测试(abtest)

热门文章

  1. 这或许是东半球讲十大排序算法最好的一篇文章
  2. JSP学习心得(一)
  3. 类似百度图片排版效果
  4. discuz 运营管理-站点帮助
  5. 国产同轴电缆型号分类
  6. 区块链技术与应用实验 day-03
  7. Android GLSurfaceView笔记
  8. CreateFileMapping , OpenFileMapping, MapViewOfFile, UnmapViewOfFile 和 FlushViewOfFile
  9. 中国石油大学-《现代应用文写作》第二阶段在线作业
  10. 【IMX6ULL驱动开发学习】17.内核定时器(按键消抖)