Hadoop分布式文件系统,MapReduce编程框架以及用于在大型商用硬件集群上处理海量数据集的扩展工具系列,在十多年来,Hadoop一直是“大数据”的同义词。 但是,没有任何技术可以永远吸引人们的注意。

尽管Hadoop仍然是大数据平台的重要组成部分,但主要的Hadoop供应商(即Cloudera,Hortonworks和MapR)已经大大改变了他们的平台。 曾经作为外围项目的Apache Spark和Apache Kafka等已成为新的明星,并且焦点已转向其他方法来钻取数据并提取见解。

[InfoWorld的要点: 什么是Apache Spark? 大数据分析平台介绍了以下内容 • Spark教程:Apache Spark入门 • 什么是数据挖掘? 分析如何发现见解 。 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

让我们简要浏览一下三个领先的大数据平台,每种技术如何将Hadoop技术组合在一起以使其与众不同以及它们如何发展以拥抱容器,Kubernetes,机器学习和深度学习的新时代。

Cloudera企业数据中心

Cloudera是第一个通过Hadoop发行版进入市场的公司,这并不奇怪,因为其核心团队由在Yahoo,Google和Facebook等地方利用过Hadoop的工程师组成。 Hadoop共同创建者Doug Cutting担任首席架构师。

该公司采用Cloudera企业数据中心(EDH)的策略是“策划和扩展” Hadoop生态系统中的开源项目,以提供商业许可的平台,其中企业级支持和服务是价格的一部分。 该公司还提供称为Cloudera Data Hub(CDH)的开源,免费使用的Hadoop发行版。 此外,Cloudera还提供了EDH的60天试用版,作为另一种入门方法。

在哪里下载Cloudera

Cloudera提供了多种下载和使用CDH的方式 。 VM和Docker映像可用于在本地运行EDH; Cloudera Manager可以用于在集群上部署CDH和EDH(包括试用版)。 Cloudera Director可以通过AWS快速入门部署到云环境中,其中包括Amazon。

Cloudera的独特功能

Cloudera一直以Apache Spark和与Spark相关的项目为中心,这是其发行的核心。 充分利用统一分析引擎的优势,Cloudera分别利用Spark Streaming,Spark MLlib和Spark SQL进行实时流数据,机器学习和SQL风格的数据查询。

Cloudera提供的一项重要增值是其Cloudera Navigator软件,这是一组专有的数据治理,管理和优化工具。 Cloudera Navigator跟踪组织中数据的来源以进行管理,合规性和审计,提供持续的数据工作量使用情况统计信息,并建议匹配的数据放置策略。

Cloudera EDH的本地机器学习方面仅限于Spark MLlib。 例如,对TensorFlow的本机支持不是广告的EDH功能。 但是,Cloudera Data Science Workbench产品为EDH提供了一个用户友好的数据科学前端,最终用户可以在EDH与TensorFlow等框架之间创建自己的集成。

Hortonworks数据平台

Hortonworks数据平台(HDP)是纯开源Hadoop发行版。 产品本身可以免费使用。 Hortonworks的企业客户为支持服务付费,并获得了主动的故障排除工具(其本身是专有的)来避免将来的问题。

何处下载Hortonworks

Hortonworks网站提供了多种格式的HDP下载 。 自动化的安装程序可以在各种本地或云体系结构上部署HDP,而RPM可用于想要手动部署的人。 HDP的早期版本可作为Hortonworks Sandbox版本获得,它们是预配置的HDP环境,打包在虚拟机中,供开发人员测试使用。

Hortonworks的独特功能

现在已在GA中发布的HDP 3.0包括针对云环境和云原生数据存储格式(例如Amazon S3和Google Cloud Storage)的自动配置; 借助Apache Hive的交互式SQL查询功能,并支持基于GPU的处理。

最重要的新增功能涉及容器。 Docker容器中的应用程序可以作为YARN作业与传统Hadoop工作负载并行运行。 在Docker容器中进行部署是确保作业可以使用特定版本的语言运行时运行的有用方法。 也可以通过YARN上的Kubernetes在Kubernetes上运行容器,其中YARN在Kubernetes中用作调度程序。

另一个新功能(当前可作为技术预览使用)使您可以在整个HDP集群的容器中部署TensorFlow深度学习应用程序。 显然,这是将HDP变成端到端机器智能平台的一步。

MapR融合数据平台

MapR的旗舰产品在2016年更名为“ MapR融合数据平台”,就其许可而言,它位于Hortonworks和Cloudera之间。 MapR具有完全开源的社区发行版,可以免费使用,但也提供具有高可用性,数据快照,灾难恢复,技术支持和其他企业级功能的付费企业版。

在哪里下载MapR

MapR提供了一个安装程序包,以部署社区版或企业版 。 云部署可直接用于全球的AWS,Microsoft Azure,Google Cloud和其他云提供商。 MapR还提供了“沙盒”版本 ,其中包含适用于VMware或VirtualBox的虚拟机映像。

独特的MapR功能

MapR融合数据平台包括三个主要组件:MapR-FS文件系统(实质上是将多个数据存储范例透明地集成到文件系统接口中,包括Hadoop的HDFS); NoSQL样式的文档数据库; 以及与Apache Kafka兼容的事件流引擎。

这个与Kafka兼容的MapR Streams事件流引擎是MapR的另一个主要优势,它着重于在线,流,实时和边缘处理场景。 一个名为MapR Edge的MapR的小尺寸版本旨在在IoT场景中处理数据。

MapR已在其平台中腾出空间以适应容器和机器学习这两个最近的重要趋势。 可以使用Kubernetes调度Docker映像并在整个MapR群集上运行Docker映像,并且MapR提供了Kubernetes卷驱动程序,该驱动程序允许这些容器直接连接到MapR-FS资源。

From: https://www.infoworld.com/article/3290344/3-big-data-platforms-look-beyond-hadoop.html

Hadoop之外的3个大数据平台相关推荐

  1. Peter Cnudde谈雅虎如何使用Hadoop、深度学习和大数据平台

    \ 本文要点 \ 了解雅虎如何利用Hadoop和大数据平台技术: \ 在类似Flickr和Esports这样的产品中,雅虎如何使用深度学习技术进行场景检测和对象识别: \ 机器学习在图像识别.定向广告 ...

  2. 昨日黄花Hadoop 方兴未艾云原生——传统大数据平台的云原生化改造

    本文6539字,阅读时间约20分钟 以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发 ...

  3. 从 Hadoop 到云原生, 大数据平台如何做存算分离

    Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...

  4. 企业大数据平台仓库架构建设思路

    https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...

  5. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  6. SQL on Hadoop在快手大数据平台的实践与优化 | 分享实录

    快手大数据架构工程师钟靓 本文是根据快手大数据架构工程师钟靓于 5月18-19日在A2M人工智能与机器学习创新峰会<SQL on Hadoop在快手大数据平台的实践与优化>演讲中的分享内容 ...

  7. Hadoop大数据平台安装

    实验一:Hadoop大数据平台安装 16281002 杜永坤 1.实验目的 在大数据时代,存在很多开源的分布式数据采集.计算.存储技术,本实验将熟悉并搭建几种常用的大数据采集.处理分析技术环境. &l ...

  8. 比Hadoop快至少10倍的物联网大数据平台,我把它开源了

    作者 | 陶建辉 转载自爱倒腾的程序员(ID: taosdata) 导读:7月12日,涛思数据的TDengine物联网大数据平台宣布正式开源.涛思数据希望尽最大努力打造开发者社区,维护这个开源的商业模 ...

  9. 基于Hadoop的大数据平台实施记——整体架构设计[转]

    http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

最新文章

  1. linux透明大页内存,Linux如何禁用透明大页
  2. Could not load dynamic library ‘cudart64_101.dll‘
  3. python 笔记 size-constrained-clustering (对类别大小做限制的聚类问题)
  4. Windows Server 2012 DHCP 服务器中的新功能:故障转移和策略
  5. 最新版dotnet-cli下的ASP.NET Core和asp.net mvc【RC2尝鲜】
  6. python随机生成定长字符串(转)
  7. 10大反直觉的数学结论
  8. python字符数组输出_python字符串格式化输出
  9. DB2 Vs MySQL系列 | MySQL与DB2的数据类型对比
  10. 音视频开发(8)---nginx+nginx-rtmp-module+ffmpeg搭建流媒体服务器
  11. 20161120-安全测试
  12. opencv打开Lena图像,并且将Lena改成单通道的图片
  13. 标准正态分布怎么算_标准正态分布密度函数计算公式怎么算、
  14. pcs9000系统plat服务器,CSD361現场调试手册.docx
  15. 记忆力训练软件测试自学,记忆力训练题,每天10分钟,一周提高5倍记忆力
  16. unity 鼠标拖动UI 滚轮缩放大小
  17. Linux-USB学习 -- USB枚举过程
  18. Android Switch和ToggleButton控件
  19. 俄罗斯套娃信封问题 转https://www.jianshu.com/p/9d9495ef4372
  20. Qt大屏电子看板系统源码

热门文章

  1. steamlit安装
  2. 自闭症的白质微观结构研究
  3. 下面列出了 网上招聘,人才招聘,招聘信息,网上求职,招聘机遇,招聘网,人才网,工作网
  4. WPS表格转换成Excel用什么方法
  5. Web前端是干嘛的 为什么要学Web前端
  6. 数据科学的原理与技巧 五、探索性数据分析
  7. 题目58 工厂流水线调度(ok)
  8. 如何将一个向量投影到一个平面上_向量积的种类以及表示方法
  9. C语言之出圈游戏(详解)
  10. hbase 使用lzo_hbase 使用LZO笔记