大数据处理技术,主要包括哪些基本技术?
以最常使用的Hadoop为例:
Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。
集群是指,2台或2台以上服务器构建节点,提供数据服务。单台服务器,无法处理海量的大数据。服务器越多,集群的威力越大。
Hadoop类似于一个数据生态圈,不同的模块各司其职。下图是Hadoop官网的生态图。
Hadoop的LOGO是一只灵活的大象。关于LOGO的来源,网上众说纷纭,有人说,是因为大象象征庞然大物,指代大数据,Hadoop让大数据变得灵活。而官方盖章,LOGO来源于创始人DougCutting的孩子曾为一个大象玩具取名hadoop。
从上图可以看出,Hadoop的核心是HDFS,YARN和MapReduce,下面和大家讲一讲,几个主要模块的含义和功能。
1、HDFS(分布式文件存储系统)
数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。
2、MapReduce(分布式计算框架)
分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。大家可以结合下图理解MapReduce原理:
计算机要对输入的单词进行计数:
如果采用集中式计算方式,我们要先算出一个单词如Deer出现了多少次,再算另一个单词出现了多少次,直到所有单词统计完毕,将浪费大量的时间和资源。
如果采用分布式计算方式,计算将变得高效。我们将数据随机分配给三个节点,由节点去分别统计各自处理的数据中单词出现的次数,再将相同的单词进行聚合,输出最后的结果。
3、YARN(资源调度器)
相当于电脑的任务管理器,对资源进行管理和调度。
4、HBASE(分布式数据库)
HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。
关于关系型数据库和菲关系型数据库的区别,会在以后的文章进行详述。
5、HIVE(数据仓库)
HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成MapReduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写MapReduce任务,只需要掌握SQL即可完成查询分析工作。
6、Spark(大数据计算引擎)
Spark是专为大规模数据处理而设计的快速通用的计算引擎
7、Mahout(机器学习挖掘库)
Mahout是一个可扩展的机器学习和数据挖掘库
8、Sqoop
Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
除上述模块外,Hadoop还有Zookeeper、Chukwa等多种模块,因为是开源的,所以未来还有出现更多更高效的模块,大家感兴趣可以上网了解。
通过Hadoop强大的生态圈,完成大数据处理流程。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据处理引擎Spark与Flink大比拼
http://www.duozhishidai.com/article-6947-1.html
企业如何实现对大数据的处理与分析?
http://www.duozhishidai.com/article-5030-1.html
大数据时代,最适合大数据处理的编程语言有哪些?
http://www.duozhishidai.com/article-1823-1.html
多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站
大数据处理技术,主要包括哪些基本技术?相关推荐
- NLPIR大数据处理技术实现多种类智能挖掘
当今,信息技术为人类步入智能社会开启了大门,带动了互联网.物联网.电子商务.现代物流.网络金融等现代服务业发展,催生了车联网.智能电网.新能源.智能交通.智能城市.高端装备制造等新兴产业发展.现代信息 ...
- 纯前端大数据处理技术:葡萄城纯前端开发工具应用实践
SpreadJS 是一款基于 HTML5 的纯 JavaScript 电子表格和网格功能控件,满足多平台.跨平台的表格数据处理和类 Excel 的表格应用开发. WijmoJS 前端开发工具包由多款纯 ...
- 大数据处理技术之数据集成
大数据处理技术是一个十分重要的工作,就好比做菜,我们做菜之前就需要对蔬菜进行清洗,洗过的菜我们才能够吃的放心,同时还有助于我们的身体健康.而大数据处理就好比清洗蔬菜一样,当我们对数据整理以后,我们才能 ...
- 【大数据处理技术】第三篇 大数据处理与分析(暂停更新)
大数据分析与处理 第7章 MapReduce 7.1 概述 7.1.1 分布式并行编程 7.1.2 MapReduce 模型简介 7.1.3 Map 和 Reduce 函数 7.2 Mapreduce ...
- 关于大数据技术的演讲_大数据核心技术介绍:大数据处理技术
大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求.那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数 ...
- 《深入理解大数据:大数据处理与编程实践》一一1.2 大数据处理技术简介
本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第1章,第1.2节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...
- 大数据时代:大数据处理技术及采集方法
在大数据时代,传统的大数据处理技术还管用吗? 大数据处理环节下的需求 大数据环节下的数据来源是非常多,而且类型也很多花样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性 ...
- 大数据处理技术之hadoop概览
上两个图,可以对热到极致的大数据处理技术有一个基本的认识 大数据处理技术之演进 大数据处理技术之hadoop软件族: hadoop 1 hadoop2 相关软件下面简介: 1 Ambari:Hadoo ...
- 大数据处理技术导论(8) | Datawhale组队学习46期
文章目录 10. 1 面试题 10.1.1 hive外部表和内部表的区别 10.1.2 简述对Hive桶的理解? 10.1.3 HBase和Hive的区别? 10.1.4 简述Spark宽窄依赖 10 ...
- 大数据处理技术导论(1) | Datawhale组队学习46期
文章目录 前言 1. 大数据概述 1.1 数据量大 Volume 1.2 数据种类多 Variety 1.3 处理速度快 Velocity 1.4 价值密度低 Value 2. hadoop 2.1 ...
最新文章
- Openresty Redis正确使用连接池(set_keepalive)
- win10 远程登录-出现身份验证错误[可能是由于CredSSP加密Oracle修正]
- mybatis返回map键值对_mybatis返回map结果集怎么配置
- Java Swing编程:JTable表格
- Shell openSomething - how is application component loaded in the runtime
- 详解http和https的区别
- (转)SpringMVC学习(十一)——SpringMVC实现Resultful服务
- 东芝M300系列笔记本拆解图片教程 (跟自己电脑很像)
- Effective C++ 精要(第五部分:实现)
- 2021年江西省研究生数学建模竞赛题目(二)题目:全国人口普查问题
- bootloader系列二——arm920t--bootloader架构设计
- cisco路由器进入rommon模式
- 美国佐治亚理工计算机专业,世界大学排名之:美国佐治亚理工学院
- Allegro中的测试点 Test Point
- Errors accessing files.There may be spaces in your image‘s filename (已解决)
- 小程序学习:自定义组件
- 20种硬件工程师必知必会基础元器件|最新更新至8.13
- GPS主时钟|北斗卫星时钟|GPS卫星同步时钟|北斗时钟系统
- C语言strlen等系列函数详细总结
- 小学教师计算机应用操作培训总结,小学教师培训总结
热门文章
- [PC]极品飞车2 特别版
- Unity Shader学习-单张纹理
- linux命令cd 什么意思,Linux命令 cd ./.是什么意思
- golang开发需要掌握的核心包以及中间件,涵盖项目的各个领域,值得收藏
- 【题解】CF1418C Mortal Kombat Tower
- 《写作是门手艺》读书笔记
- Jupyter notebook 打开网页无法显示
- python七巧板房子_七巧板拼图技巧,房子用简单的七巧板怎么拼 请给图
- 工程师一定要有 “Owner 意识”
- [php知识点]PHP伪协议