摘要:全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本。

1. 趋势和挑战

1.1. 趋势

随着云化技术越来越成熟,企业开始逐步上云,其中辅助决策的数据分析业务也发生了如下几个方面的变化:

 从结构化多元化转变:随着数据采集技术的提高和存储设备的降价,半结构化、非结构化数据被越来越多的采集和存储,很多关键信息,如身份证(图片)中的个人信息,也需要被参与到日常的数据分析中

 从单数据源多数据源转变:除了读取存储业务数据信息的关系型数据库中的数据,存储全量数据的对象存储服务、存储多维数据的数据仓库服务等越来越多的数据源之间需要做一些联合查询

 从统计分析预测分析转变:BI/报表等是数据分析最常见的应用场景,这些场景更多的是去总结过去。随着AI技术的普及,如何从历史数据中预测未来的趋势成了数据分析师需要考虑的内容

1.2. 挑战

1.1.1. 多元化

半结构化数据主要包括CSV、XML、JSON等,非结构数据主要包括图像、音频、视频等,这些数据无法像传统结构化数据一样直接用数据库进行分析,需要按一定规则将其转化为结构化数据才能进行进一步分析。如身份证(图片),需要先通过图片识别提取身份证中的信息,再进行分析,整个过程比较繁琐。

1.1.2. 多数据源

为了实现不同特征的数据最高效地存储和分析,数据被分散存放在不同的存储服务中,不同的存储服务之间的数据形成了数据孤岛,如果想要做一些联合查询,需要在不同存储服务之间拷贝数据,不仅容易形成冗余存储,而且数据同步也是一个问题。

1.1.3. 预测分析

如果想要进行预测分析,势必需要用到AI机器学习算法。目前比较流行的开源机器学习框架主要有TensorFlow、PyTorch、Keras等。如果用户想在服务中直接调用AI框架,就需要提前手动登录机器,一台一台进行安装。如果后续删除/扩容集群,又需要重新进行安装。

2. 数据湖解决方案

2.1. 解决方案介绍

华为云数据湖探索(Data Lake Insight)DLI服务诞生之初,就是为了帮助企业以轻量级地方式快速解决这些挑战。这里说的轻量级,主要指两方面:

 资源轻量级:DLI提供共享资源和独享资源两种资源,共享资源可以按需取用,不需要长期持有,支持按扫描量计费和按CU时(1CU = 1Core4GB)计费

 开发轻量级:DLI主打会SQL就会大数据分析,批处理引擎Spark和流处理引擎Flink均提供SQL能力,用户日常80%以上的业务开发都可以直接使用SQL完成

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值

2.2. 如何解决挑战

2.2.1 AI SQL

DLI内部封装了一些AI算子,可以使用SQL的方式直接调用AI能力。我们继续拿上面的身份证(图片)这个例子来举例,DLI内部封装了调用OCR的算子,通过SQL的方式调用OCR图像识别能力,建表时传入身份证路径及ORC相关信息,如:

CREATE TABLE id_cards(name STRING, age INT, city STRING)
USING OCR OPTIONS (path "obs://bucketName/id_cards",ocrApiUrl "/v1.0/ocr/plate-number",ocrEndpoint "https://ais.cn-north-4.myhuaweicloud.com",ocrRegion "cn-north-4")

使用id_cards表跟使用普通表一样,可以直接进行SELECT查询,DLI会自动调用OCR能力解析身份证获取相关属性。同时,可以对获取的相关属性使用SQL做进一步分析处理,如:获取上传身份证进行实名认证的游戏玩家的城市排名。

SELECT city, count(*) as c FROM id_cards GROUP BY city ORDER BY c

2.2.2 联合查询(跨源)

DLI目前支持绝大多数的数据源,如下图所示:

用户可以很方便地使用SQL来建表关联数据源,如

OBS数据源,只需要指定数据的存储格式和存储路径:

CREATE TABLE dli_to_obs (id INT, action STRING) USING CSV
OPTIONS (path "obs://bucketName/filePath")

RDS数据源,只需要指定JDBC URL信息:

CREATE TABLE dli_to_rdsUSING JDBC OPTIONS ('url'='jdbc:mysql://to-rds-117405104-3eAHxnlz.datasource.com:3306','driver'='com.mysql.jdbc.Driver','dbtable'='rds_test.test1','passwdauth' = 'xxx','encryption' = 'true')

在DLI中建完对应数据源的跨源表后,就可以使用SQL直接对这些表进行联合查询,如:

SELECT t2.name, t1.action FROM dli_to_obs t1 JOIN dli_to_rds t2 ON t1.id = t2.id

借助联合查询功能,企业可以很方便地构建起企业的统一视图,更全面地完成业务创新和数据价值探索

2.2.3 支持K8S生态自定义镜像

DLI提供包含TensorFlow、PyTorch、Keras等这些开源AI框架的AI镜像,用户可以直接在业务代码中调用相关模型进行分析。同时,考虑到不同行业有不同的框架需求。DLI也提供带有Spark/Flink组件的基础镜像,用户可以基于基础镜像将自己需求的框架打包进去,上传到容器镜像服务SWR。DLI运行作业时,会自动从SWR中拉取对应名字的镜像。这种方式避免了用户手动重复安装依赖包,后续新增节点也无需做额外操作。

3. 总结

全托管Serverless服务DLI就像是我们日常使用的滴滴共享打车,我们不再需要为购买和保养私家车而支出固定成本。DLI除了AI SQL、联合查询、支持K8S生态自定义镜像这三个功能以外,还包括企业级多租户管理、批流一体、自动扩缩容等其它更多特性,下一次,我们再一一道来。

点击关注,第一时间了解华为云新鲜技术~

有了数据湖探索服务,企业决策“新”中有数相关推荐

  1. 华为云服务权限在哪_华为云数据湖探索服务DLI,精细化保障企业大数据安全

    原标题:华为云数据湖探索服务DLI,精细化保障企业大数据安全 随着企业业务的不断发展,企业大数据资产在企业辅助决策.用户画像.推荐系统等诸多业务流程中扮演着越来越重要的作用,如何保证企业大数据在满足各 ...

  2. 星环云原生数据湖,为企业精准决策提供全方位技术支撑

    随着数据价值由数据统一化逐渐到数据生态化演进,企业对数据平台的需求越来越高,许多企业面临内部数据孤岛等现状,需要全集团统一的.可共享的数据平台,来推进建设统一的数据平台,构建数据驱动业务的数字化转型战 ...

  3. 【年度榜单】2020大数据产业创新服务企业丨数据猿·金猿榜

    数据猿&金猿出品 <2020数据猿年度金猿主题策划活动>之2020大数据产业创新服务企业榜丨"数据猿&金猿--金猿榜·金猿奖"年度巨献! 大数据产业创新 ...

  4. 数据湖元数据服务的实现和挑战

    简介: 数据湖元数据服务为大数据而生,为互通生态而生,期望后续继续完善其服务能力和支撑更多的大数据引擎,通过开放的服务能力.存储能力.统一的权限及元数据管理能力,为客户节省管理/人力/存储等各项成本, ...

  5. 数据湖探索DLI新功能:基于openLooKeng的交互式分析

    摘要:基于华为开源openLooKeng引擎的交互式分析功能,将重磅发布便于用户构建轻量级流.批.交互式全场景数据湖. 在这个"信息爆炸"的时代,大数据已经成为这个时代的关键词之一 ...

  6. 【2022分布式存储峰会】腾讯云存储为您带来:云原生时代下的数据湖存储服务

    大会时间:今日15:00-15:30 大会主题:云原生时代下的数据湖存储服务 2022年4月14日,由百易传媒 (DOIT) 与厦门大学信息学院联合主办的"2022分布式存储论坛峰会&quo ...

  7. 阿里云贾扬清:数据湖正成为企业数据应用创新标配

    简介:全球数据湖峰会开幕 数字经济蓬勃发展的今天,越来越多的用户已经从"上好云",走到了"用好云"的这个阶段.如果说在"上好云这个阶段,大多数用户关心 ...

  8. 华为云数据湖工厂服务DLF

    1. DLF服务说明 参考官网:https://support.huaweicloud.com/productdesc-dlf/dlf_07_001.html ,数据湖工厂服务(Data Lake F ...

  9. 数据湖 data lake_在Data Lake中高效更新TB级数据的模式

    数据湖 data lake GOAL: This post discusses SQL "UPDATE" statement equivalent for a data lake ...

最新文章

  1. mysql group by 报错 ,only_full_group_by 三种解决方案
  2. OpenGL画矩形,三角形,点(第一个图形学的小程序)
  3. EXt js 学习笔记总结
  4. #if DEBUG 和 if (env.IsDevelopment()) 的用法区别
  5. linux基础命令学习笔记(二)
  6. 2018年秋计算机应用基础本科,广东开放大学远程教育专科2018年秋计算机应用基础Word模块测试...
  7. 一道简单而又容易出错的题目
  8. Tensorflow中训练得到Nan错误的分析
  9. 2021年“泰迪杯”数据分析技能赛A题
  10. 矢量图标库Font Awesome的SVG新版本图标库5.x
  11. 邢帅——一个逆袭的草根
  12. 树莓派pico从零开始的入门(一)
  13. 从ccps项目中学习bottle,sqlalchemy,jinja2
  14. Windows11专业版安装USBCAN-II驱动后报错“……无法加载这个硬件的设备驱动程序……(代码39)”解决方案
  15. 苹果呼叫转移设置不了_手机不想接电话怎么设置为空号教程
  16. 20172313 2017-2018-2 《程序设计与数据结构》第十一周学习总结
  17. oracle 删除原有的数据,oracle数据库删除数据的两种方式
  18. 进入Ubuntu的命令行模式
  19. 【重新定义matlab强大系列一】利用MATLAB进行清洗缺失数据
  20. Javascript兼容IE8

热门文章

  1. 八.激光SLAM框架学习之LeGO-LOAM框架---框架介绍和运行演示
  2. linux防止文件被复制,技术|如何在 Linux 系统中防止文件和目录被意外的删除或修改...
  3. 单片机应用中的c语言用词注解,单片机C语言程序注解
  4. 手写一个promise用法_手写一个Promise
  5. python获取pc微信好友列表_python使用itchat获取微信好友列表
  6. java 最少使用(lru)置换算法_「Redis源码分析」Redis中的LRU算法实现
  7. Expected one result (or null) to be returned by selectOne(), but found: 2
  8. list、tuple
  9. 2. APIS官网剖析(博主推荐)
  10. 程序员初涉江湖 宜步步为赢(转-2) 作者:IT168 职业发展顾问Leo