直至今日,企业虽然认识到大数据分析能给企业带来发展的价值,但传统的数据管理和安全问题已经阻碍了大数据的部署。

企业在什么情况下适合大数据,这是由企业处于发展中的位置决定的。

许多提供大数据业务的厂商肯定都争相想做企业的生意。毕竟,大的数据不是最小的数据集合,但大数据需要充分利用尽可能多的数据管理。如果你正在寻找一个部署大数据的定义,这却不是完整的定义。你需要一个增长的数据中心基础设施相匹配所有这些增长的数据。

这个大的数据热潮才真正开始与Apache Hadoop的分布式文件系统(HDFS),开启了基于成本效益规模的服务器使用相对便宜的本地磁盘群集的作为海量数据分析的时代。不管企业发展如何迅 速,Hadoop及其相关大数据的解决方案,都可以保证持续分析各种原始数据(即,不完全结构化的数据库)。

问题在于,一旦你想从大数据入手,会发现传统的数据项目,包括那些熟悉的企业数据管理问题又会涌现出来了,比如数据的安全性,可靠性,性能和如何保护数据。

虽然Hadoop HDFS已经趋于成熟,但仍有不少差距以满足企业需求。事实证明,当大数据在进行产品生产数据收集时,这些存储集群(DAS)上的产品可能实际上没有提供最低的成本核算。

这里面,最关键的一点其实是大企业如何将大数据盘活了。我们当然不是想简单地拷贝、移动、备份大数据数据副本,复制大数据是一个大的工作。我们 需要管理作为安全和谨慎,甚至更多的要求,所以,比小的不同的数据库,不要抱着尽可能多的详细信息。如果我们的关键业务流程的基础上新的大数据的储存中, 我们会需要它的所有的操作弹性和高性能。

大数据归属的新选择

物理DAS仍然是Hadoop最好的存储介质,因为相关的高水平的专业和业务的公司的都是经过研究和实践来确定存储介质。但这样基于HDFS的数据储存却有很大的问题。

首先,默认方案是所有资料进行复制,移动,然后备份。HDFS是基于大数据块的I/O优化,省去了数据交互的时间。以后的使用通常意味着数据复制出来。尽管有本地快照,但他们并不完全一致或时间点不完全可恢复。

对于这些和其他原因,企业存储厂商聪明的将HDFS做改变,一些技术狂人类型的大数据专家使Hadoop计算利用外部存储。但对许多企业来说,它提供了一个很好的妥协:无需高维护存储或存储新的维护方式的适应,但这有一定的成本。

许多供应商,如EMC的 isilon提供对Hadoop集群远程HDFS的接口,是生意量比较大的企业首选。因为他们将是在isilon里,进行任何其他数据处理大数据的保护, 其中包括安全和其他问题。另一个好处是,在外部存储的数据通常可以访问其他协议(如网络文件系统,NFS)的储存,支持工作流和限制数据的传输和企业内需 要的数据副本。NetApp也基于这样的原理处理大数据,一个大的数据参考架构,结合一个组合的存储解决方案,直接进入Hadoop集群。

另外值得一提的是,虚拟化大数据分析。理论上,所有计算和存储节点可以都可以进行虚拟化。VMware和RedHat/OpenStack有 Hadoop的虚拟化解决方案。然而,几乎所有的HDFS主机节点不能解决企业的存储问题。一个有创意的新公司bluedata提出一个新的选择。它模拟 Hadoop计算方面使企业把现有的数据集——SAN/NAS——加速和转储到它的HDFS的覆盖之下。在这种方式中,大数据分析可以做到一个数据中心的 数据没有任何变动,从而使用新的存储架构和新的数据流或数据管理的所有变化。

大多数Hadoop分布都是从近Apache的开源HDFS(目前软件定义的存储大数据)开始,区别是它们采取了不同的方法。这基本上就是企业 Hadoop所需存储,从而建立自己的兼容存储层在Hadoop HDFS上。MAPR版本是完全有能力处理I/O快照复制的支持,同时和原生支持的其他协议兼容,如NFS。它也非常有效,并有助于主要提供企业业务智能 应用程序,运行决策支持解决方案依赖于大数据的历史和实时信息。类似的想法,IBM已经出炉的高性能计算系统存储API为Hadoop发行版作为一种替代 HDFS。

另一个有趣的解决方案可以帮助解决数据的问题。一个是dataguise,数据安全启动,能切实有效地保护Hadoop的大数据集的一些独特的 IP,它可以在一个大的数据聚类自动识别和全局覆盖或加密敏感资料。水平线数据科学(Water LineScience)是这个领域的新兴技术,如果你连线登陆你的数据文件到Hadoop,无论数据在哪里,即使是HDFS,它都将自动储存。 大数据提供的产出物有助于快速建立商业应用,利用数据的来源和位置来统计商业所需的资料。

如果你一直持有Hadoop的管理或企业数据中心存储的兴趣,这是一个好时机去update自己对大数据的了解,如果你想跟得上大数据的脚步,就不应该拒绝新技术的应用。

强力推荐阅读文章

大数据零基础快速入门教程

Java基础教程

web前端开发基础教程

大数据工程师必须了解的七大概念

云计算和大数据未来五大趋势

如何快速建立自己的大数据知识体系

企业大数据部署 Hadoop的新选择相关推荐

  1. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  2. CM+CDH构建企业大数据平台系列(一)

    问题导读: 1.CM是什么? 2.CDH是什么? 3.CM+CDH是什么? 4.什么是企业大数据平台? 5.如何用CM+CDH构建企业大数据平台? .......... 带着种种疑问让我们开启真正的企 ...

  3. 大数据平台hadoop运维之hadoop入门-高俊峰-专题视频课程

    大数据平台hadoop运维之hadoop入门-5245人已学习 课程介绍         主要介绍hadoop生态圈的常用软件和基础知识,可使学员迅速了解hadoop运维的基础知识,并迅速掌握hado ...

  4. 大数据和Hadoop时代的维度建模和Kimball数据集市

    维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了 ...

  5. 大数据004——Hadoop

    大数据004--Hadoop 1. 前言 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据.它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提 ...

  6. 企业大数据CDH管理平台搭建方案

    1 基本介绍 1.1 概述 Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等.所有发行版都是基于Apach ...

  7. 《企业大数据系统构建实战:技术、架构、实施与应用》——第3章 企业大数据解决方案 3.1 企业大数据解决方案实现方式...

    本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...

  8. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  9. 企业大数据项目规划落地实施路线图

    一般来说,一个完整的大数据项目实施,需要经过开发环境搭建.集群环境部署.数据采集.数据存储与交换.数据离线与实时分析.大数据可视化等多个实现流程,这就要求系统掌握大数据技术知识. 下面以一个完整的大数 ...

最新文章

  1. 如何在React中使用Typescript
  2. 调优 DB2 UDB v8.1 及其数据库的最佳实践-IBM developerWorks
  3. 看职场老人教你如何平稳度过职场“更年期”
  4. Android中Http网络请求库框架Volley和Asnyc-http的使用---第三方库学习笔记(一)
  5. 周鸿祎评互联网大佬的编程能力:我能排前三
  6. python爬取知乎live_Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)...
  7. android面试题2019中高级,2019Android 最新面试题 持续更新
  8. java中jtextpane_Java JTextPane
  9. S5pv210裸机实验——SDRAM重定位
  10. linux子系统 显卡,bash 漏洞?linux授权命令sudo?windows linux子系统?新手理解的bash环境变量解析漏洞...
  11. Struts2——(3)ValueStack(值栈)
  12. linux c 笔记-1
  13. 写得蛮好的linux学习笔记[转]
  14. C++ 输出Unicode字符的正确方法
  15. java、python什么意思_java和python是什么
  16. c语言小组作业报告,C语言实训总结报告范文
  17. outlook怎么配置126邮箱服务器,outlook 如何配置126邮箱
  18. 云平台与操作系统两种架构的分析
  19. OSPF Vlink peer的配置
  20. 7-3 地下迷宫探索(30 分)(dfs)

热门文章

  1. 新站发布——寻爱交友网
  2. 计算机三维造型 试题,计算机三维建模复习题.doc
  3. 2010年SD2C软件开发大会圆满结束 媒体报道及相关
  4. 单工、半双工和全双工
  5. swift escaping逃逸闭包用法
  6. leetcode1049. 最后一块石头的重量 II(java)
  7. JavaScript常用函数整理
  8. 路由器NAT类型检测
  9. 百度搜索怎么关闭右边相关推荐!
  10. 主动扬声器(有源音箱)和被动扬声器(无源音箱)哪个好 如何选择?有什么区别?