以最常使用的Hadoop为例:

Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。

集群是指,2台或2台以上服务器构建节点,提供数据服务。单台服务器,无法处理海量的大数据。服务器越多,集群的威力越大。

Hadoop类似于一个数据生态圈,不同的模块各司其职。

Hadoop的LOGO是一只灵活的大象。关于LOGO的来源,网上众说纷纭,有人说,是因为大象象征庞然大物,指代大数据,Hadoop让大数据变得灵活。而官方盖章,LOGO来源于创始人DougCutting的孩子曾为一个大象玩具取名hadoop。

Hadoop的核心是HDFS,YARN和MapReduce,下面和大家讲一讲,几个主要模块的含义和功能。

1、HDFS(分布式文件存储系统)

数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。

2、MapReduce(分布式计算框架)

分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。大家可以结合下图理解MapReduce原理:

26d2000037034e122ddf.jpg

计算机要对输入的单词进行计数:

如果采用集中式计算方式,我们要先算出一个单词如Deer出现了多少次,再算另一个单词出现了多少次,直到所有单词统计完毕,将浪费大量的时间和资源。

如果采用分布式计算方式,计算将变得高效。我们将数据随机分配给三个节点,由节点去分别统计各自处理的数据中单词出现的次数,再将相同的单词进行聚合,输出最后的结果。

3、YARN(资源调度器)

相当于电脑的任务管理器,对资源进行管理和调度。

4、HBASE(分布式数据库)

HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。

关于关系型数据库和菲关系型数据库的区别,会在以后的文章进行详述。

5、HIVE(数据仓库)

HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成MapReduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写MapReduce任务,只需要掌握SQL即可完成查询分析工作。

6、Spark(大数据计算引擎)

Spark是专为大规模数据处理而设计的快速通用的计算引擎

7、Mahout(机器学习挖掘库)

Mahout是一个可扩展的机器学习和数据挖掘库

8、Sqoop

Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

除上述模块外,Hadoop还有Zookeeper、Chukwa等多种模块,因为是开源的,所以未来还有出现更多更高效的模块,大家感兴趣可以上网了解。

通过Hadoop强大的生态圈,完成大数据处理流程。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据主要应用于哪些行业,应用价值是什么?
http://www.duozhishidai.com/article-1195-1.html
大数据应用越来越广泛, 大数据主要应用于哪些领域?
http://www.duozhishidai.com/article-1501-1.html
大数据应用,主要包括哪几种商业模式
http://www.duozhishidai.com/article-12470-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

大数据技术主要有哪些,之间是什么关系?相关推荐

  1. 大数据技术是“地球的神经系统”

    本文讲的是大数据技术是"地球的神经系统",雅虎CEO玛丽莎·梅耶尔将大数据技术称为"地球的神经系统".提起大数据,人们普遍认为,这是大型互联网公司的项目,与普通 ...

  2. 解决方案和项目的区别_沃尔玛用大数据提高销售额,云计算和大数据技术之间的区别汇总...

    自从<纽约时报>发表有关沃尔玛如何利用大数据分析来最大化其销售额的文章以来,人们就对大数据充满了狂热.零售商发现飓风期间流行的糖果品牌Pop-Tarts的销量激增,并利用此知识增加了利润. ...

  3. 大数据技术和云计算之间,主要有什么关系?

    大数据有两大特点,一是数据来源多,包括各种结构化数据和非结构化数据,如网络日志.视频.图片.地理位置信息等等,同时数量相对巨大,大数据中的'大'本身就是一个相对的概念;二是数据处于"onli ...

  4. 5折票倒计时3天 | 超干货议程首度曝光!2019 中国大数据技术大会邀您共赴

    (大会官网https://t.csdnimg.cn/U1wA) 2019年,大数据与人工智能的热度已经蔓延到了各个领域,智能交通.AIoT.智慧城市,智慧物流.AI中台.工业制造等各种黑科技成为热搜名 ...

  5. 顶尖技术专家严选,15场前沿论坛思辨,2019中国大数据技术大会邀您共赴

    扫码了解2019中国大数据技术大会(https://t.csdnimg.cn/IaHb)更多详情. 2019中国大数据技术大会(BDTC 2019)将于12月5日-7日在北京长城饭店举办,本届大会将聚 ...

  6. 大数据技术:让看病更加靠谱!

    在早期,大部分医疗相关数据以纸质形式存在,而非电子数据存储,如正式医疗记录.费用记录.护士和医生书写的病例记录.处方药记录.X光记录.磁共振成像(MRI)记录.CT图像记录等.随着强大的数据存储.计算 ...

  7. Hadoop十岁!Doug Cutting成长史+他眼中大数据技术的未来

    上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝.最近CSDN和InfoQ都在制 ...

  8. 概述:机器学习和大数据技术在信贷风控场景中的应用

    来源:知乎 本文约5400字,建议阅读10分钟 本文简要概述在当前大数据和机器学习技术如何在信贷风控场景下的常见应用. 似乎一夜之间,所有的互联网公司在对外的宣传稿中都会提及自己使用机器学习和大数据技 ...

  9. 大数据技术下面向企业需求的高校应用型人才培养课程体系设计

    引 言 当前高校人才培养存在教学内容与社会需求脱节.学生知识链碎片化.学生知识内化低效化等问题.传统的专业知识学习领域确定,更多依靠学科带头人个人或专业建设团队主观的经验与感受,即停留在采用" ...

  10. 《Spark大数据分析:核心概念、技术及实践》大数据技术一览

    本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...

最新文章

  1. textContent与innerText的不同(转发)
  2. mysql505复位密码_mysql5 如何复位根用户密码[官方文档]
  3. STM32H743+CubeMX-SPI与DRV8889串行通讯,驱动步进电机
  4. python排序方法_python内置的排序方法
  5. mysql授权与回收_MySQL 授权,回收权限,查看权限
  6. 小组成员的github地址
  7. 核磁谱图分析步骤_微谱技术:想要涂料开发,少不了仪器分析……
  8. oracle数据库驱动下载(ojdbc)
  9. 使用IDEA格式化JSON数据串
  10. wso2 esb 配置mysql_wso2esb简介
  11. AVI视频文件编码格式不受支持0xc00d5212怎么解决?
  12. mysql一张表有几个主键_一张表可以有多少个主键
  13. cmake的-G 参数
  14. ACM javaIO 快速 读写
  15. 少儿编程---小猫追气球
  16. linux Ubuntu 报错:No command ‘setenv‘ found
  17. 什么是激光波长、激光功率和激光亮度?
  18. 四川安湖科技:抖音电商节怎么参加
  19. linux挂载4tb硬盘分区,centos7挂载新加4T硬盘到home
  20. kalibr使用笔记

热门文章

  1. 阿里云盘 15MB/s!(附下载链接+邀请码)
  2. 分享一款国内版的Gitbook在线文档创作工具
  3. 企业网络综合解决方案
  4. Day121.ElasticSearch:概述、安装、基本操作、DSL高级查询
  5. 计算机鲜艳美丽的花朵教案,幼儿园彩色花教案优秀范文
  6. SQLDeveloper 闪退
  7. 简约大气商务PPT模板
  8. 2022高教社杯数学建模国赛C题思路代码实现
  9. 塑料材料的光老化,拉伸伸长率等测试标准
  10. 为了响应工信部要求,我们整理了这些网络账户注销指南