Hadoop生态系统应用状况大调查：互联网篇！

国内外对hadoop生态系统的生存状况争论不休，既然如此，我们不妨摸底调查一番，看看国内一线互联网公司(具备自我搭建大数据平台能力的厂商)的大数据平台是如何搭建的?是否基于Hadoop生态系统?Hadoop的存在感有多少?庞大的Hadoop生态系统中又有哪些组件真正脱颖而出了呢?(本文内容来源于公开资料整理)

　　BAT之阿里巴巴

如果要论数据，恐怕只有以电商起家的阿里巴巴才能拥有如此丰富且庞大的数据。有业务场景也有技术能力，阿里巴巴的大数据实力不容置疑。目前，阿里巴巴对外提供基于阿里云的大数据服务。众多大数据产品中，笔者看到了Elasticsearch的身影。

在数据分析和搜索等方面，阿里提供基于开源Elasticsearch及商业版X-Pack插件。Elasticsearch想必大家都不陌生，是继Hadoop之后非常受欢迎的后起之秀。阿里巴巴的大数据解决方案中会有它的出现一点也不让人惊讶，有了Elasticsearch还有Hadoop的用武之地吗?

　　在阿里巴巴早年的数加平台(整个大数据部分统称为数加)介绍中，阿里云大数据事业部数加平台技术负责人陈廷曾表示，阿里统一的自主可控的大数据平台是在Hadoop的基础上构建的，这套平台支撑了阿里很重要的一些业务，可见Hadoop对于阿里大数据平台的构建起到了至关重要的作用。

　　BAT之腾讯

　　腾讯的数据量虽然也不小，但多来源于社交数据。在离线数据处理的介绍中，我们看到腾讯大数据套件基于Hadoop体系的MapReduce、HIVE、PIG、Spark技术向企业用户提供强大的数据离线批处理能力。

　　除此之外，Hadoop生态体系还包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

　　很多人认为Hadoop生态体系中实力最弱的就是MapReduce，然而目前的腾讯大数据体系中仍然可以看到MapReduce的身影，不知道之后是否会考虑更换。

　　BAT之百度

　　百度的数据与上述两家又不同，百度的数据来源多为搜索数据，依托自身百度引擎。进入百度的大数据产品页面，可以发现百度主打的招牌是“智能”。百度的大数据产品中应用了大规模的机器学习、深度学习等能力。

　　百度的大数据基础套件“鲁班”的基础架构如下，可以很直观地看到，百度大数据基础套件中的Kafka和YARN均来源于Hadoop生态系统。

　　京东：

　　京东的电商业务和物流业务如今也是越做越大，京东大数据部为了解决公司越来越广泛的实时业务需求，推出了一整套技术解决方案——JRDW(JD Realtime Data Warehouse)。

　　根据介绍，整个大数据平台有不少开源组件的加入，京东大数据部门在开源组件的基础上又针对其缺点进行了部分调整，形成了最终框架。在后期的发展中，京东意识到如果要搭建一个稳定可靠的实时任务运行平台很重要，通过对Storm、Hadoop、HBase、Kafka等的研究，京东自主开发了高可用调度平台Magpie。

　　图中可以很直接地看出Hadoop的身影，明显Hadoop对其大数据平台架构的搭建过程起到了启发作用。

　　美团：

　　美团的大数据平台主要支撑了美团的到店餐饮、到店综合、酒店旅游、猫眼电影、外卖配送等业务，中间则是基础数据部，最下层基于美团云。如果将基础数据部放大，基本如下图所示：

　　离线计算部分是基于Hadoop的数据仓库数据应用。具体到组件，基础服务层有HDFS和YARN的参与，计算引擎层有HBase、Kylin、Hive、Spark、Presto等来自Hadoop生态系统的组件参与。

　　根据一年前的统计数据，这套平台有42P+总存储量，每天有15万个MapReduce和Spark任务，现在想必数据量和复杂度已经再一次升高了。

　　网易：

　　网易的一站式大数据管理和应用开发平台——网易猛犸，覆盖了大闺蜜数据存储与计算、应用开发、数据管理与集成等场景。

　　在其公布的大数据架构图中，我们可以看到底层基本完全构建于Hadoop生态系统，数据集成、数据存储、资源管理都和Hadoop生态系统有关。这套系统支持HDFS、Hbase、Kudu等从GB到PB级别的存储方案，支持Hive和MapReduce等批量计算、Spark内存计算、Kylin多维分析等多种计算方案。

　　今日头条：

　　2014年之前，今日头条并没有专门的人负责做数据。随着活跃用户数的迅猛增长，各种各样的需求不断，今日头条意识到几个数据工程师单打独斗根本解决不了问题，于是数据平台团队成立了。

　　该团队将Hadoop、Hive、Spark和Kylin等封装成工具，将工具与分析模式相结合包装成解决方案以提供给业务部门。在数据生成与采集方面，今日头条使用Spark实现类Sqoop的分布式抓取;在数据传输方面，采用Kafka作为数据总线，连接在线和离线系统;在数据计算方面，今日头条使用了Spark SQL和Hive;在Cube类查询引擎，今日头条已经成为Kylin国内最大使用用户之一。

　　滴滴：

　　作为目前最大且最活跃的独角兽企业，滴滴的大数据架构部门十分年轻，成立时间仅一年有余。去年，滴滴宣布向各地交通管理部门开放“滴滴交通信息平台”数据，而滴滴当时的平台日订单量已经超过2000万，流量高峰期每分钟接到的用户需求高达两万次。

　　从图中不难看出，滴滴大数据平台分为多个组成部分，数据加工和数据采集两阶段明显用到了不少Hadoop生态系统的组件，数据加工部分完全依托Hadoop生态系统。

　　知乎

　　截止2017年8月，知乎注册用户数破亿，全站DAU达2600万，月浏览量180亿……知乎大数据架构分为数据采集、数据计算、数据服务和数据产品层。

　　对于很多公司都会出现的MySQL数据实时查询需求，知乎调研了Hive和HBase，但最后选择了将BinLog实时打入Kafka，起一套Spark Streaming程序，将数据写入Kudu，这样做的性能会更高一些。虽然这部分组件来源Hadoop生态系统，但知乎内部架构师曾表示公司正在考虑采用TiDB。

　　新浪

新浪同样掌握着大量社交数据，在之前有关新浪大数据体系架构的介绍中，我们可以了解到新浪的技术架构同样基于Hadoop生态圈，最下面是日志接受传输，然后进入Hadoop层，在这之上是ETL数据的整合，随后是中央数据仓库，数据挖掘、实时统计与计算等操作。

　　近几年，随着新技术的不断发展，新浪的大数据体系也在不断改变，但Hadoop生态体系依旧占据着重要位置。

　　58同城

　　58的大数据体系主要分为数据应用、数据应用平台、数据基础平台三层。在接入层，58使用了Canal/Sqoop解决数据接入问题，另一部分数据使用Flume，其中Sqoop和Flume均来源于Hadoop生态体系;存储层全是熟人：HDFS、HBase、Kafka;调度层是Yarn;计算层全部来自于Hadoop生态体系，比如MR、Hive等。

　　……

　　总结

　　最新调查结果显示，中国每年进口最多的不是石油，而是芯片。国内一线互联网公司的大数据生态体系建设基本被Hadoop包圆，这种存在感快赶上芯片在中国的地位了。庞大的Hadoop生态体系中，MapReduce、HDFS、Kafka和Yarn的出现频度最高。然而，不少言论都认为MapReduce的市场竞争力在逐渐减弱，如今这个应用状况似乎一点失宠的意思都没有啊!

很多问题其实答案很简单，但是背后的思考和逻辑不简单，要做到知其然还要知其所以然。如果想学习大数据开发，挖掘，算法在这里给大家提供一个学习交流的平台，微信729317315

具有1-5工作经验的，面对目前流行的技术不知从何下手，需要突破技术瓶颈的可以加群。

在公司待久了，过得很安逸，但跳槽时面试碰壁。需要在短时间内进修、跳槽拿高薪的可以加群。

如果没有工作经验，但Java基础非常扎实，对java工作机制，常用设计思想，常用java开发框架掌握熟练的可以加群。

Hadoop生态系统应用状况大调查：互联网篇！相关推荐

大数据入门（Hadoop生态系统）
Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门学习,介绍其中分布式文件系统HDFS.分布式资源调度YARN.分布式计算框架MapRe ...
阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...
大数据概况及Hadoop生态系统总结
觉得有帮助的,请多多支持博主,点赞关注哦~ 文章目录大数据概况及Hadoop生态系统 1.大数据概念理解 1.1.什么是大数据? 1.2.大数据特征(4V)? 1.3.大数据应用场景? 1.4.大数 ...
GitChat · 大数据 | 一步一步学习大数据：Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划硬件配置软件配置 Hado ...
试述hadoop生态系统以及每个部分的具体功能_Hadoop在大数据分析中的意义和作用...
什么是Hadoop? Apache Hadoop是一个开放源代码软件框架,用于开发在分布式计算环境中执行的数据处理应用程序. 使用HADOOP构建的应用程序可在分布在商用计算机群集上的大型数据集上运行 ...
【大数据】Hadoop生态系统及其组件
Hadoop 生态系统及其组件 1.Hadoop 生态系统的组成本篇文章将向大家介绍 Hadoop 生态系统的不同组件.也正是因为这些组件,使得 Hadoop 如此强大.通过学习 HDFS 和 HD ...
【Hadoop】第一篇--Hadoop生态系统学习路线
一.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实 ...
大数据学习笔记：Hadoop生态系统
文章目录一.Hadoop是什么二.Hadoop生态系统图三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
大数据系统架构-Hadoop生态系统
Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储.简单来说,Hadoop是一 ...

Hadoop生态系统应用状况大调查：互联网篇！

Hadoop生态系统应用状况大调查：互联网篇！相关推荐

最新文章

热门文章