【华为云技术分享】上亿条数据,如何查询分析简单又高效?
正值618大促,小张遇到了一个棘手的问题,需要在一周内将公司近1年电商部门的营收和线下门店经营数据进行联合分析。
这将产生哪些数据难题呢?
- 数据孤岛:电商部门的数据存在数仓A、门店经营收入数据存在数仓B,如何便捷的进行多仓联合分析?
- PB级数据量:多电商平台+全国线下门店每天将产生TB级数据量,年数据量高达PB级!
他在第一时间联系了集团CTO,希望将各部门数据在一天内导出给他。
这时候,CTO犯难了:
公司现有的资源池可自如应对TB级数据量,而小张要的数据量粗略估计达到了PB级,大大超出了公司现有资源池承受范围,只能以时间为代价导出;而为了不常见场景扩大公司资源池,整体的成本太高。
面对小张遇到的棘手问题,云湖湖推荐了一款华为云大数据查询分析神器——数据湖探索(DLI)服务;一个DLI即可撬动EB级数据量联合查询,每CU仅需0.35元/小时(1CU=1Core4G Mem),1CU包月仅需150元。
数据湖探索(DLI)服务 2.0是完全兼容Apache Spark和Apache Flink生态的Serverless大数据计算分析服务,用户仅需使用标准SQL或程序即可查询分析各类异构数据源。
DLI是如何解决小张问题的呢?
DLI服务架构——Serverless
DLI是无服务器化的大数据查询分析服务它的优势在于:
- 按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
- 自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。
DLI Serverless架构就可轻松解决小张成本、资源不足和临时性业务需求的问题。
1、DLI核心引擎——Spark+Flink
Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
同时,DLI也提供用于实时处理的Flink引擎。
2、DLI王牌功能——跨源分析
DLI支持云上多种云服务、自建数据库以及线下数据库,可直接实现多数据源跨库分析,构建企业的统一视图。
小张将线下数仓A与数仓B同时接入DLI,就可直接在DLI上进行联合查询。避免了两仓数据迁移再重新建仓进行联合查询的过程,轻松搞定跨库查询。
数据湖探索(DLI)服务的其他优势
- 纯SQL操作:提供标准SQL接口,用户仅需使用SQL便可实现海量数据查询分析。
- 存算分离:存储和计算解耦,分开申请和计费,降低成本的同时,提高了资源利用率。
- 企业级多租户:支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间数据共享和权限管理
- 免运维、高可用:用户无需感知底层运维、升级、跨AZ高可用,跨AZ双活。
数据湖探索(DLI)服务的应用场景
数据库分析+DLI 2.0 :一键建仓 保留数据库的易用体验
痛点:
- 数据库多无法做全量分析
- 数据库复杂关系无法查询
- 影响在线其他数据业务
解决方案:
仅使用标准SQL即可完成大数据查询分析
精准营销+DLI 2.0:电商智能推荐 跨库跨源海量数据秒级查询
痛点:
- 数据源太多怎么联合分析
- 智能推荐需要短时间内实现
解决方案:
DLI跨源能力,轻松打破数据孤岛。现已支持10类数据源和线下自建数据。
日志分析+DLI 2.0:公司必备场景 按量计费成本更低
痛点:
- 日志分析时间跨度大
- 资源空闲大利用率低
解决方案:
DLI按量计费,单CU每小时仅需0.35元。
实时风控+DLI 2.0:金融、运维等实时场景 减少风险事件发生
痛点:
数据刷新不及时,风险事件频繁发生
需要深入了解Flink后台架构进行实时数据分析
解决方案:
风控系统对实时性要求很高,DLI采用高性能计算资源,单CPU每秒吞吐1千~2万条消息。
Serverless大数据服务是一种面向未来的形态。随着逐个攻破当前存在的问题,它在大数据分析所占的比重一定会逐年增加。真正把大数据分析变成跟水和电一样随取随用,每个企业都能用得起的工具。华为云数据湖探索(DLI)服务能够助力企业轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
了解更多内容,可登入华为云数据湖探索(DLI)服务官
点击这里→了解更多精彩内容
相关推荐
华为云“智能数据湖”解决之道
华为云多元计算+AI 打造企业级智能数据湖
玩转云上数据湖,解析Serverless 技术落地
数据湖&数据库,别再傻傻分不清了
【华为云技术分享】上亿条数据,如何查询分析简单又高效?相关推荐
- 【华为云技术分享】如何处理暗数据?
有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据.这些数据主要由结构化数据.非结构化数据等类型数据构成.企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险. 结构化的数据 ...
- 【华为云技术分享】Linux内核补丁源码分析(1)
在上一期中,我们介绍了Linux内核编程环境,在这一期中,我们将通过实例来介绍如何分析Linux内核的补丁. 一.Linux内核补丁 在"Linux内核发展史"中,我们简要介绍了L ...
- 【华为云技术分享】“技术-经济范式”视角下的开源软件演进剖析-part 1
前言 以互联网为代表的信息技术的迅猛发展对整个经济体系产生了巨大的影响.信息技术的发展一方面使知识的积累和传播更加迅速,知识爆炸性的增长:另一方面,使信息的获取变得越来越容易,信息交流的强度逐渐增加, ...
- 【华为云技术分享】三大前端技术(React,Vue,Angular)探密(下)
[华为云技术分享]三大前端技术(React,Vue,Angular)探密(上) [Angular] Angular(通常被称为 "Angular 2+"或 "Angula ...
- 【华为云技术分享】“技术-经济范式”视角下的开源软件演进剖析-part 3
4. 微观层面 4.1 个体动机 在开源软件发展之初, 商业组织的投入很少甚至没有, 完全是靠Richard Stallman 或者 linus Torvalds 这样的个人在努力推动开源软件艰难前行 ...
- 【华为云技术分享】直播回顾丨激发数据裂变新动能,HDC.Cloud云数据库前沿技术解读
3月24日14:00-17:00,HDC.Cloud开发者沙龙系列云数据库专场直播线上开启,此次华为云数据库通过三场直播从NoSQL数据库新技术.数据库迁移.行业解决方案等方面对云端数据库进行深度解读 ...
- 【华为云技术分享】Spark如何与深度学习框架协作,处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...
- 【华为云技术分享】云小课 | 搬迁本地数据至OBS,多种方式任你选
摘要:搬迁本地数据至OBS,包括OBS工具方式.CDM方式.DES磁盘方式.DES Teleport方式和云专线方式,每种方式特点不同,本节课我们就一起看看有什么区别. 已有的业务数据可能保存在本地的 ...
- 【华为云技术分享】数据赋能,如何精细化保障企业大数据安全
云湖湖导读:随着企业业务的不断发展,企业大数据资产在企业辅助决策.用户画像.推荐系统等诸多业务流程中扮演着越来越重要的作用,如何保证企业大数据在满足各业务部门数据访问需求的同时又能精细化保障数据访问安 ...
- 【华为云技术分享】敏捷开发落地不实际?原因可能在于你的 IDE 工具
对于企业来说,效率就是一切.开发效率的工程化建设已经开始被各大企业提到技术管理日程中.而且现阶段,无论是框架也好.模板也好,目的都是在为提升代码开发效率而努力.随着云计算的深入,端 + 云的开发模式以 ...
最新文章
- ViSP安装与配置VS工程(常见方式-VS2019属性页方法)
- php 换行 \n \r\n br 简介
- ssh中exit命令退出远程服务器_Linux:ssh远程执行命令并自动退出
- 配置普通用户可以运行saltstack的模块
- C++——异步操作(std::future、std::async、std::packaged_task、std::promise)
- android适配器持有者模式
- java使用linux常用命令_linux常用Java程序员使用命令(一)
- 互联网从业者平均年薪19万,程序员最高!
- 工商银行黄金开户问答题答案
- 中科院-杨力祥视频教程	02课程
- 【C++】优先级队列priority_queue模拟实现仿函数
- JDK下载、安装和环境配置
- 旅行,写作,编程 :IT文艺青年的生活态度
- 计算机算法在生物信息学中的应用,引力场算法及其在生物信息学中的应用
- Geogebra拓扑学家的正弦曲线
- 首涂第八套苹果CMSv10自适应视频模板原创4种颜色风格一键切换
- 代码服务流水线部署平台
- Jedis 读写效率测试 hgetAll hmset
- python axes3d函数_Python绘制3D图形:Axes3D
- Give root password for maintenace (or press Control-D to continue):解决方法