这是彭文华的第176篇原创

如果你是在 2015 年前玩大数据,你会遇到一个巨大的障碍,就是装上 Hadoop 之后,计算是不成问题了,但是怎么解决在线分析的需求?

因为分布式计算引擎 MapReduce 的计算步骤非常复杂,计算命令下达之后得先调拨资源才能启动计算,然后还得先拆开任务方便各节点分别计算,计算完之后还要合并,这效率可想而知。你去 Hive 里取数再运算,那起码得好几分钟才能出结果。这谁能忍得了啊?

所以当时的 Hadoop 都只是当做存储数据的介质,最多当做数据仓库的 ODS 和 DWD 层。甚至恨不得数据刚进 ODS ,就马上写个 MapReduce 汇总一下直接扔到 MySQL 里去。至少在 MySQL 速度还能快点,但是 MySQL 数据上千万也完蛋。

你说,咋办?

中国神兽出笼!

当时的 eBay 也遇到这个问题了。之前分享过,当时最牛的数据仓库工具是 Oracle、Teradata 等业界大佬。他们不仅也有性能瓶颈,而且还有一个更让人无法接受的阻碍-价格。

他们可不是只是按用户数收费,他们还按机器的 CPU 收费!也就是说,你的数据量上去了,不仅要买更牛的机器,还要给 Oracle、Teradata 付更多的钱才能用。动辄几千万的单机,这谁玩儿的起啊?

eBay虽然有钱,但也不想乱花,这简直是个无底洞啊!换谁都肉疼。于是 eBay 就想搞一个 Hadoop 环境下的 OLAP 产品,内部试一试,不成就算,成了不是可以省好大一笔钱么?于是,在 2013 年底, eBay 中国区组建了一个 4、5 人的小团队。项目经理叫韩卿,主程是李扬。

经过小团伙一年多的内部开发,一个叫“Kylin”的产品悄摸儿的上线了。你看,Kylin 的生态位站的那叫一个稳啊!以前从数据存储和计算的 Hadoop 平台到用户的在线多维分析需求中间是一个天堑,Kylin 直接填补了这个空白!

这一上线就吧,可不得了啦!数据分析师同学们都爱死他们了,因为 Kylin 可以做到在线多维分析的亚秒级反应。

这是啥概念?

原来的工作状态是:选好分析维度和度量,点一下运行,然后可以去开个会再回来看看。等数据跑出来,估计都忘了要分析啥了。

现在呢?点一下,马上就看到结果,这简直给跪了好么?当时的项目经理韩卿把源码放到 git 上开源了。上去就是爆赞!那句话怎么说来着?出道就无敌!

紧接着, Kylin 在无数人的支持下,韩卿又把Kylin贡献给 Apache 基金会进行孵化,由 Apache 孵化副总裁亲自担任孵化导师!是 当时Apache 160 多个顶级项目中唯一一个完全由中国人开发出来的!也是 Apache 动物园里唯一一只中国神兽。对,就是这货:麒麟!

这还不算完。从 Apache 毕业后,这只麒麟神兽不断斩获各种大奖,“最佳开源大数据工具奖”都拿到手软!

这是啥?中国码农走向世界巅峰的桥段么?小说也不敢这么写好吗?

Kylin怎么这么猛?

你可能会说Kylin 当时猛,原理其实也没啥复杂的,无非是生态位站的好。

确实,当时Kylin就是把 BI 产品里建 Cube 的那套逻辑搬到 Hadoop 大数据环境里了。详细的技术说明我介绍过,这里就不重复了,你可以参考一下【戳我查阅:传统数据仓库转型最佳利器:Kylin!】。

这个 Cube 简单来说,就是先算好放在哪里,想用的时候就不用算了,直接读取就好了,这当然就快了。

没有 Kylin 的时候,小学生算乘法,就像没有乘法表一样,得挨个加:3*3,就是 3 个 3,3+3=6,再加 3 等于 9。

有 Kylin ,提前就把数算好了,就相当于给小学生一个九九乘法表,背下来就好了。3*3 ,三三得九么!

而且 Kylin 还有 Hadoop 的加持,数据量轻松过 PB 级别!而普通的结构化数据库,单表过2千万条数据,性能就开始直线下滑。这完全没有可比性,直接碾压。

但是!光凭这一招,只能是一时的威猛。因为你能这么做,回头我也弄一个开源项目跟你竞争也行啊。所以还得不能一时威猛,还得持久的威猛。

持久得有钱才能持久啊,要不一帮人喝西北风?于是韩卿带着Kylin 开发团队创业了,取名 Kyligence ,就是 Kylin + Intelligence。

如果说开源代表着梦想中的爱情,那么创业就是照进现实的婚姻,要面对无数的琐事。

于是,Kyligence 的小伙伴一边挣钱养家,一边努力生娃。啊不对,是努力迭代产品:

2016年3月:支持自定义聚合类型、TopN聚合、BitMap、克隆Cube;

2016年4月:支持从事实表查询详细数据、自定义维度;

2016年9月:支持窗口函数、分组功能、cube导入;

2017年4月:支持Spark的Cube构建、高可用的Job引擎;

2017年11月:支持Ranger、传统关系型数据库、流式多维数据集示例;

2018年6月:支持kafka与Hive表join、各种case when等处理函数;

2019年4月:全面支持实时流式数据处理、云原生,支持通过Livy递交Spark作业;

2019年12月:支持presto,支持列计数,支持Docker!

他们保持着每两个月就迭代一次的速度!就在刚过去的2021年2月,Kylin4.0版本发布,新增各种高级函数,关键还支持读写分离!

这真是一帮勤奋的中国汉子,在孜孜不倦的建造属于中国的大数据智能产品。这实在是太猛了!又猛又持久的真男人!

Kylin咋用?有啥案例不?

话都说到这里了,我还能不给点真货啊?我这么实诚的人,事儿得办妥了!二话不说,上干货!2本电子书+22份实操案例,理论实践全都有了!

2本电子书,尤其是第一本权威指南,Kylin核心团队编写,没有比这个再权威的了!

22份案例,eBay、携程、马蜂窝、小米、58、腾讯、中通快递、平安、建行、滴滴等国内外各大厂的实践经验,那是杠杠的干货啊,干的不能再干了。

技术引领,数据赋能——建行大数据能力建设之路.docx

【05-倪春恩-Kyligence】Apache Kylin 大数据 OLAP 利器.pdf

「案例」Kylin 在携程的实践_20210303_202427.pdf

Kylin在马蜂窝数据分析团队的应用实战_20210303_202427.pdf

Kylin–基于Hadoop的大规模联机分析引擎_20210303_202427.pdf

Kylin-on-Kubernetes-in-eBay.pdf

Kylin 最佳实践|爱奇艺如何处理千亿级数据_20210303_202426.pdf

Kylin 在小米大数据中的应用_20210303_202425.pdf

Kylin 在 58 集团的实践和应用_20210303_202429.pdf

Apache-Kylin在爱奇艺的实践.pdf

Apache Kylin-Hadoop上的大规模联机分析平台_20210303_202428.pdf

Apache Kylin 在中通快递的实践_20210303_202428.pdf

5-Apache Kylin 在腾讯的平台化及 Flink 引擎实践_20210303_202351.pdf

4-RocketMQ 高可用存储演进之路_20210303_202359.pdf

4-Kylin 在一点资讯的实践_20210303_202412.pdf

4 大数据多维分析引擎在MEIZU的实践-Kylin分享.pdf

3-Kylin在用户行为分析场景的应用_20210303_202412.pdf

3-Kylin 精确去重及在用户行为分析中的应用_20210303_202351.pdf

2-基于 RocketMQ Connect构建全新数据流转处理平台_20210303_202354.pdf

2-Linkis on Kylin meetup_20210303_202413.pdf

1-Kylin 在平安云大数据组的探索与实现_20210303_202353.pdf

1-Kylin 引擎在滴滴的应用及实践_20210303_202412.pdf

24份资料下载方式:关注本公众号“大数据架构师”,后台回复“kylin”即可下载。

你也可以加我微信:shirenpengwh,随时聊啊~

配合以下文章享受更佳

【附下载】实时数仓架构设计与选型

干货 | 如何搭建一个数据仓库

【资料包】 实时数仓架构选型资料包

【实战】 手摸手搭建一个实时数据仓库

【干货】 数仓到底要分多少层?

传统金融业务场景下Flink实时计算的探索与实践?

我需要你的转发,小小的满足一下我的虚荣心

强势围观:征服大数据的东方神兽-kylin!by彭文华相关推荐

  1. 顶级评委“天团”亮相,强势围观算法大咖争夺战

    2020腾讯广告算法大赛已于4月15日正式开启线上报名,自赛事开展以来受到了高等院校及一线企业等多领域技术人才的广泛关注.目前大赛报名火热进行中,欢迎各方技术人才点击文末官方报名入口链接踊跃报名(报名 ...

  2. 分布式大数据多维分析引擎:Kylin 在百度地图的实践

    2019独角兽企业重金招聘Python工程师标准>>> 1. 前言 百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提 ...

  3. 小米大数据:借助Apache Kylin打造高效、易用的一站式OLAP解决方案

    如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司.随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显.而与此同时,各业务团队在数据查询.分析等方面的压力同样正在剧增.因此,为帮助公司 ...

  4. 大数据面试通关手册 | Kylin入门/原理/调优/OLAP解决方案和行业典型应用

    Kylin入门/原理/调优/OLAP解决方案和行业典型应用一网打尽. 一:背景历史和使命 背景和历史 现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣.作为大数据领域最重要的技术的 A ...

  5. 就光会拉个数,要你数据分析师有何用? by彭文华

    这是彭文华的第151篇原创 最近在疯狂找素材呢.老朋友Lindsey给我发一个连接,是宋世君老师的周末分享,正是瞌睡递枕头,太舒服了有没有? 这期分享,主要是问题导向.分享前,收集了20个问题,光看这 ...

  6. 带你去看快手数据管治技术交流会-模型规范 | 彭文华

    这是彭文华的第127篇原创 目录 快手数据治理的依据和核心 快手模型规范治理实践 快手模型规范 快手模型治理案例 快手数据治理体系 展望与总结 年底真的是各种分享的集中点,也是我等菜鸟的饕餮盛宴时刻啊 ...

  7. 多数大数据项目都以失败而告终的原因

    多数大数据项目都以失败而告终的原因 摘要:核心提示:几乎每个人的心目中,大数据就是企业IT部门的大大小小的结构化和非结构化数据,而且其量正在成倍的增长. [...] 核心提示:几乎每个人的心目中,大数 ...

  8. 专家:大数据正成为促进经济转型新动能

    大数据驱动经济发展 "大数据"是个出现没多久的新名词,但已经渗透到人们日常生活的方方面面,在制造.交通.金融.零售.家居等行业得到了广泛应用,成为推动经济转型的新动能.统计数据显示 ...

  9. 贵州立足三大核心 全面试验大数据国家战略

    "100亿神经元大脑实时仿真模拟器,神经元数量为Google的10倍,摆脱了冯·诺依曼计算机结构,是目前最小体积单位实现最多神经元数量的人脑模拟器."项目首席科学家.西悉尼大学生物 ...

最新文章

  1. C#与西门子PLC通讯
  2. Webserver管理系列:11、注意默认的隐含共享
  3. Linux日志系统-07:案例3-rsyslog+logrotate实现SSH的日志滚动
  4. JAVA 设计模式 : 状态模式
  5. mybatis 动态字段与表中不一样_mybatis创建一个或多个新用户 insert 字段和表名不确定时动态添加问题...
  6. java中集合的结构list类型
  7. 23行代码AC_2017 蓝桥杯A组 正则问题(解题报告)
  8. Angular routerLink指令的href属性生成逻辑
  9. 用户模式 内核模式 linux,linux – “内核模式”和“用户模式”硬件...
  10. oracle11g日志原理,oracle11gRAC之log日志体系
  11. CentOS5.6环境安装oracle 10g(完整版)
  12. 使用数据库保存Asterisk sip账号信息(odbc方式)
  13. 【JQuery】jQuery中的常用方法小结
  14. 【kafka】kafka 消息头的强大功能
  15. html制作我和我的家乡,《我和我的家乡》怎么参与投资?投资流程是什么?
  16. 重装系统后mac语言怎么改成中文?
  17. Codeforces 1032F Vasya and Maximum Matching dp
  18. N的阶乘的长度 V2(斯特林近似)
  19. python库手册(官方)python文档
  20. 在线教育平台源码组成概述

热门文章

  1. 数据分析_Python作图
  2. AudioRecord 录音和播放的Demo
  3. STM32——FSMC读写外部SRAM
  4. oracle新建数据库并新建用户
  5. Swift5.x - 中文文档
  6. 软件测试(3)测试分类、原则
  7. 对Java面向对象的理解
  8. Matlab根据用户选择更新绘图的自动调整布局式 App
  9. unity农场模拟经营游戏源码
  10. Redis 雪崩 击穿