优化大数据量查询方案——SpringBoot(Cloud)整合ES
一、Elasticsearch简介
实际业务场景中,多端的查询功能都有很大的优化空间。常见的处理方式有:建索引、建物化视图简化查询逻辑、DB层之上建立缓存、分页…然而随着业务数据量的不断增多,总有那么一张表或一个业务,是无法通过常规的处理方式来缩短查询时间的。在查询功能优化上,作为开发人员应该站在公司的角度,本着优化客户体验的目的去寻找解决方案。本人有幸做过Tomcat整合solr,今天一起研究一下当前比较火热的Elasticsearch搜索引擎。
Elasticsearch 是一个非常强大的搜索引擎。它目前被广泛地使用于各个 IT 公司。Elasticsearch 是由 Elastic 公司创建。它的代码位于 GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine。目前,Elasticsearch 是一个免费及开放(free and open)的项目。同时,Elastic 公司也拥有 Logstash 及 Kibana 开源项目。这个三个项目组合在一起,就形成了 ELK 软件栈。他们三个共同形成了一个强大的生态圈。简单地说,Logstash 负责数据的采集,处理(丰富数据,数据转换等),Kibana 负责数据展示,分析,管理,监督及应用。Elasticsearch 处于最核心的位置,它可以帮我们对数据进行快速地搜索及分析。
二、Elasticsearch使用
1.1下载
下载的方式有很多中,下面介绍我使用的方式。(MacOS系统)
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512
shasum -a 512 -c elasticsearch-7.3.0-darwin-x86_64.tar.gz.sha512
tar -xzf elasticsearch-7.3.0-darwin-x86_64.tar.gz
cd elasticsearch-7.3.0/
1)weget命令下载,其中第三步是对下载内容进行完整性校验,当出现OK时,说明下载的内容共是完整无误的。
2)brew命令下载
brew install elasticsearch
我的电脑是macOS12.0系统,下载时提示我的Xcode版本过低不兼容。网上有很多使用brew命令下载成功的,可以进行参考。
1.2启动Elasticsearch
完成下载后,在bin目录下进行启动
./bin/elasticsearch
完成启动后,控制台显示如下
而后进行页面测试访问,postman也可以, curl也行,默认启动端口9200。
当出现如上图显示,表示ES第一步启动成功。
同时,为了方便查看ES中的相关数据,可以安装一下elasticsearch-head 可视化插件,网址如下
可视化插件下载
下载完成后打开代码,是一个前端项目
控制台启动
npm install
npm run start
启动成功如上图,打开浏览器访问9100
做到这步感觉对了又好像有点问题,打开控制台查看
发现全部是CORS错误。到下载的ESconfig文件夹下,修改文件elasticsearch.yml ,添加下面两行配置。
http.cors.enabled: true
http.cors.allow-origin: "*"
若出现如下图显示的内容,标识启动成功。如果未有下图这样显示,留言交流。
1.3Kibana
除了上面下载的可视化插件。官方提供的是Kibana。Kibana 是一个开源分析和可视化平台,旨在与 Elasticsearch 协同工作。 你使用 Kibana 搜索,查看和与存储在 Elasticsearch 索引中的数据进行交互。 你可以轻松执行高级数据分析,并在各种图表,表格和地图中可视化你的数据。
Kibana 使你可以轻松理解大量数据。 其简单的基于浏览器的界面使你能够快速创建和共享动态仪表板,实时显示 Elasticsearch 查询的更改。
1.3.1安装
官方网址
不支持运行 Kibana 和 Elasticsearch 的不同主要版本(例如 Kibana 5.x 和 Elasticsearch 2.x),也不支持比 Elasticsearch 版本更新的 Kibana 次要版本(例如 Kibana 5.1 和 Elasticsearch 5.0)。
curl -O https://artifacts.elastic.co/downloads/kibana/kibana-7.3.0-darwin-x86_64.tar.gz
shasum -a 512 kibana-7.3.0-darwin-x86_64.tar.gz
tar -xzf kibana-7.3.0-darwin-x86_64.tar.gz
cd kibana-7.3.0-darwin-x86_64/
同时也可以使用brew命令下载
brew install kibana
启动命令
./bin/kibana
当出现上图所示以后,访问端口,默认5601
我们也可以在浏览器中输入如下的地址 http://localhost:5601/status 以查看 Kibana 的状态:
1.3.1汉化Kibana
进入Kibana的config文件下,修改yml文件
i18n.locale: "zh-CN"
完成后 重新启动Kibana,访问地址如下:
成功汉化。
1.4创建索引及文档
有了上面的实例化工具,下面在页面上创建一个索引(index),并插入一个文档(document)。在日常的DB层,我们通常需要有专用的语句来生产相应的数据库,表格,然后才可以让我们输入相应的记录,但是针对 Elasticsearch 来说,这个是不必须的。ES是resultful请求完成操作。我们在左边的窗口中输入如下:
PUT estest/_doc/1
{"user": "zym","uid": 1,"city": "Nanjing","province": "Nanjing","country": "China"
}
请求参数解析:PUT请求。estest为索引名称,_doc 为索引类型。json为存储的内容。返回sussessful:1时候,表示成功。其实,从创建就可以看出来一个很明显的问题,我们的字段定义,如user,uid,city等我们并没有像常规数据库中把每个目标值定义数据类型,数据长度。为了提高入门时的易用性,Elasticsearch 可以自动动态地为你创建索 mapping。当我们建立一个索引的第一个文档时,如果你没有创建它的 schema,那么 Elasticsearch 会根据所输入字段的数据进行猜测它的数据类型,比如上面的 user 被被认为是 text 类型,而 uid 将被猜测为整数类型。这种方式我们称之为 schema on write,也即当我们写入第一个文档时,Elasticsearch 会自动帮我们创建相应的 schema。
写入文档时,如ID已存在,则更新文档内容,如不存在,创建文档。
根据索引名称_mapping请求,可以得到在ES中各字段被定义的类型。
关于控制台的resultful请求有很多,在这里不做过多诠释,创建(Create),读取(Read),修改(Update),删除文档(Delete)(CRUD)全部包含。具体的请求及参数可以查看官方文档。
至此,完成ES的配置、安装、启动。下面进行关键的一步,整合SpringBoot。
1.4整合SpringBoot
Sringboot整合ES的方法有很多,我也查询了相关资料,分别是TransportClient、RestClient、SpringData-Es、Elasticsearch-SQL。官方推荐的是RestClient。
相关依赖:
1.4.1引入依赖
<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch</artifactId></dependency>
1.4.2配置bean
@Beanpublic RestHighLevelClient restHighLevelClient() {// 如果有多个从节点可以持续在内部new多个HttpHost,参数1是IP,参数2是端口,参数3是通信协议return new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));}
该配置指向启动的ES服务。
1.4.2测试
做一个添加测试,代码如下
@Autowiredprivate RestHighLevelClient restHighLevelClient;
// IndexRequestIndexRequest indexRequest = new IndexRequest("users");User user = new User();user.setName("张一鸣");user.setAge(20);String source = JSONObject.toJSONString(user);indexRequest.id("1").source(source, XContentType.JSON);// 操作ESIndexResponse indexResponse = restHighLevelClient.index(indexRequest, RequestOptions.DEFAULT);
debug查看,发现执行完成。
从Kibana控制台查看资源,像索引为users里 添加一条用户信息。通过控制台_source查询资源可以看到,数据已成功放入ES。
修改操作
// UpdateRequestUpdateRequest updateRequest = new UpdateRequest("users", "1");User user = new User();user.setName("南京擎天");user.setAge(20);updateRequest.doc(JSON.toJSONString(user), XContentType.JSON);// 操作ESrestHighLevelClient.update(updateRequest, RequestOptions.DEFAULT);
修改操作
// DeleteRequest
DeleteRequest deleteRequest = new DeleteRequest("users", "1");
// 操作ES
DeleteResponse deleteResponse = restHighLevelClient.delete(deleteRequest, RequestOptions.DEFAULT);
查询操作
@Test
public void search() throws IOException {// SearchRequestSearchRequest searchRequest = new SearchRequest();searchRequest.indices("users");// 构建检索条件SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();// 分页采用简单的from + size分页,适用数据量小的,了解更多分页方式可自行查阅资料// searchSourceBuilder.from((page - 1) * rows);// searchSourceBuilder.size(rows);// 查询所有// QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();// 根据字段匹配QueryBuilder queryBuilder = QueryBuilders.matchQuery("userName","李四");searchSourceBuilder.query(queryBuilder);searchRequest.source(searchSourceBuilder);// 查询ESSearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);System.out.println("查询结果:" + searchResponse.toString());SearchHits hits = searchResponse.getHits();// 遍历封装列表对象List<User> userList = new ArrayList<>();SearchHit[] searchHits = hits.getHits();for (SearchHit searchHit : searchHits) {userList.add(JSON.parseObject(searchHit.getSourceAsString(), User.class));}System.out.println(userList);
}
以上以以简单的样例实现了springboot整合ES。使用起来很方便,对20W+的数据进行了测试,结果是毫秒级的响应。当然在实际项目应用当中,要充分根据项目的业务、框架进行拓展,充分发挥搜索引擎的优势,不断的提高客户体验,这样的产品才会得到客户的青睐。
注意问题
ES是个近实时查询引擎,和solr一样,所有的数据是在建立索引之上进行。在项目中对某一条数据的CUD一定要和数据库同步,对ES中的数据就行了相关调整后,也要异步对DB层的数据进行调整。确保数据的一致性。由于近段时间项目工作时间紧张,很多的细节操作及底层的实现包括结合项目的整体设计思路没有一一说明,需要用到的朋友可以对此篇文章做一个参考,有疑问欢迎留言沟通。
/* Powerd by zym */
0 error(s),0 warning(s)
优化大数据量查询方案——SpringBoot(Cloud)整合ES相关推荐
- 高并发的大数据量查询导致系统频繁死机
我们的大数据量查询是数据库分页的, 但是导出和打印功能是基于全部数据的. 系统投入使用后,对于导出和打印功能的使用远远要高于我们的预期. 而我们的系统的硬件设备是有限的 不能再升级了. 抓取内存大对象 ...
- 大数据量查询:流式查询与游标查询
最近在做一个计算相关的功能,大体就是有很多条SQL,每条SQL都涉及复杂地运算,最后要将所有计算结果进行合并分析.经初步测试,每个SQL起码会查出几十万条记录,我们现在有毛毛多的这种SQL. 最大的问 ...
- 一次mysql大数据量查询 慢查询导致服务阻塞后的学习
场景还原:前一个月给朋友写了个简单的登录功能,简单的查询数据库登录逻辑,使用mysbatis-plus进行的dao层代码生成(吐槽一下这个工具,真是方便一时爽,后面维护难,比较喜欢自己能够组装和优化s ...
- MyBatis Plus 解决大数据量查询慢问题
分享知识 传递快乐 大数据量操作的场景大致如下: 数据迁移 数据导出 批量处理数据 在实际工作中当指定查询数据过大时,我们一般使用分页查询的方式一页一页的将数据放到内存处理.但有些情况不需要分页的方式 ...
- 大数据量查询解决方案
1. java.lang.OutOfMemoryError: GC overhead limit exceeded 报错: 代码: 场景:当sql查询量过大时,切断任务,但是造成上述错误 解决方案: ...
- oracle大数据量删除方案
oracle进行大数据量删除的时候,容易报错表temp表空间空间不够导致删除失败,此时的处理方案有: 方案一: 分批删除,提交之后继续执行 方案二: 当剩下的数据量小于待删除的数据量时,可以使用转表的 ...
- Mysql优化-大数据量下的分页策略
一.前言 通常,我们分页时怎么实现呢? 1 SELECT * FROM table ORDER BY id LIMIT 1000, 10; 但是,数据量猛增以后呢? 1 SELECT * FROM t ...
- 搞懂 SQL 查询优化原理分析,秒速处理大数据量查询
点击上方"朱小厮的博客",选择"设为星标" 后台回复"书",获取 有一张财务流水表,未分库分表,目前的数据量为9555695,分页查询使用到 ...
- oracle大数据量查询超时排查
首先声明,为实际项目中用到技术,绝非水文,手打不易,禁止抄袭!!!!!! 项目背景,做的是银行项目,ods实时查询接口,java开发接口,数据库为Oracle 19c.最近生产运维反馈,手机银行查询个 ...
最新文章
- CDN 二级回源实现
- ML顶会论文都可复现吗?来挑战一下,还能拿500美元补贴
- numpy笔记 linalg
- redis的redisvCommand的%b
- java方法重载和重载方法_Java 8的方法参考进一步限制了重载
- LeetCode-MySQL-174. 第二高的薪水
- [渝粤教育] 西安工业大学 数字电子技术基础 参考 资料
- 数据结构与算法(四)-线性表之循环链表
- 打开量化投资黑箱-v2-黑箱结构
- highmem 分配使用与物理地址的对应关系
- FMI飞马网 | 【线上直播】如何处理好横向关系 在协同与合作中实现双赢(下)
- iconv()和mb_conver_encoding()字符编码转换函数
- 动态内存管理(开辟以及释放动态内存空间)
- BeiJing2006 狼抓兔子
- [译]带你揭开Kotlin中属性代理和懒加载语法糖衣
- 1-3 Burpsuite 抓取手机APP流量
- Vue相关软件的安装
- 1.1、SR(Segment Routing Over MPLS) 介绍
- Pycharm更换清华、阿里、豆瓣软件源提高依赖包下载速度
- s3c6410时钟体系