大数据(起源及特点,hadoop的配置安装)
一、大数据时代
1、三次信息化浪潮
第一次:1980左右,个人计算机的普及。社会生产力得到大大的提高
第二次:1995左右,互联网的流行。门户网站的产生,信息量急剧增加
第三次:2010之后,物联网,云计算,大数据的产生,数据爆发
2、大数据时代来临的原因
阶段1:运营式系统阶段
阶段2:用户原创内容阶段
阶段3: 感知式系统阶段
二、大数据的概念
从大数据的特点来看(4V特点)
1、数据量大(Volume)
产生的数据多,数据集大
2、数据种类多(Variety)
结构化数据,半结构化数据,非结构化数据
3、处理速度快(Velocity)
产生的数据特别快,要快速处理大数据集,(为了数据价值的即时性)
4、价值密度低(Value)
庞大的数据中,只有极少部分数据有价值。
举例说明:
小区监控,1个月的数据中只有发生事件的几分钟的数据有价值
三、大数据的影响
1、对科学研究有影响
实验–>理论–>算法–>数据
2、对人类思维方式的影响
全样而非抽样
效率而非精确
相关而非因果
3、对社会发展的影响
4、对就业市场的影响
5、对人才培养的影响
四、大数据的应用
餐饮行业
汽车行业
金融行业
医疗行业
交通行业
.......
1024进位
Byte->KB->MB->GB->TB->PB->EB->ZB
云计算:
云计算是以虚拟技术为核心,进行统计管理硬件设施,平台,软件等。以低成本进行出租。类似于国家统一
管理水,电,煤气等等。
云服务分三类:
基础设施即服务(IaaS)(I as a Service)
平台即服务(PaaS)
软件即服务(SaaS)
物联网:
就是物物相连的互联网,是互联网的扩展。物与物,人与物。
大数据与云计算、物联网的关系
大数据:侧重于数据的存储、处理和分析
云计算:整合和优化IT资源,统计管理,以廉价出租给用户
物联网:实现物与物相连。应用创新是物联网发展的核心
==============================================================
Hadoop的简介
Apache Hadoop项目为可靠的、可伸缩的分布式计算开发开源软件,用java语言编写的,可以在任何一个
有JVM的机器上运行。
提供了两个核心技术:
HDFS:hadoop分布式文件系统
MapReduce:并行计算框架
除了两个核心模块还有其他几个模块:
Hadoop Common:最基本的模块
Hadoop YARN:资源调度和管理系统
Hadoop Ozone:对象存储技术
Hadoop Submarine: Hadoop机器学习引擎
Hadoop2.x版本 四个模块:common、HDFS、MapReduce、Yarn
Hadoop3.x版本 以上六个模块都有
学习版本:Hadoop2.7.3版本
Hadoop的生态系统
围绕Hadoop为基础的其他技术
Ambari:一个基于web的工具,用于配置、管理和监视Apache Hadoop集群
Avro:一个用于数据序列化的系统工具
HBase:一个可伸缩的分布式数据库,支持大表的结构化数据存储
Hive:一种数据仓库基础设施,提供数据摘要和特殊查询。
Hadoop的发展史
HDFS的起源来自于2003年谷歌的一篇论文:关于分布式文件系统GFS
MapReduce起源于2004年谷歌的另外一篇论文:Mapreduce系统
2006年2月份将NDFS和Mapreduce从Nutch项目抽出 行程一个子项目Hadoop.
2008年Hadoop项目成为了apache旗下的顶级项目之一。
====================================================
Hadoop的安装
三种模式:
1、独立模式(单机模式:Standalone)
2、伪分布式 (Pseudo-Distributed )
3、完全分布式 (Fully-Distributed)
安装条件:
平台:Linux
软件:jdk1.8 hadoop2.7.3 ssh
课外小知识:
在window平台下,解压hadoop-2.7.3.tar.gz,(解压的位置路径不要有中文)将jar包和源码分离出来,
以备以后方便查看。
新建文件夹_jars,搜索hadoop-2.7.3下的所有jar包,copy一份到_jars里
新建文件夹_sources,搜索_jars里的所有source.jar,剪切到_sources里
新建文件夹_test,搜索_sources里的所有test,剪切到_test里
新建文件夹_confs,搜索default.xml,将前四个copy到_confs里
1、安装jdk
(1)在用户的主目录下新建目录apps.
(2)上传jdk-8u172-linux-x64.tar.gz
(3)检查一下是否已经安装过
rpm -qa | grep java
如果安装过,请卸载(切换root用户:rpm -e --nodeps xxxx,卸载后,切换成普通用户)
(4)解压:tar -zvxf jdk-8u172-linux-x64.tar.gz(5)创建软连接ln -s jdk1.8.0_172 jdk(6)配置环境变量vim ~/.bash_profileJAVA_HOME=/主目录/apps/jdkPATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/binexport JAVA_HOME PATH(7)重新加载配置文件source ~/.bash_profile 配置后,因为不管是login shell还是non-login shell,都不会再加载配置文件,如果想重新加载配置文件,需要重新启动机器。如果不想重启,需要使用source或.(8)检查是否配置成功java -versionjavac
2、Hadoop2.7.3的安装
(1)上传hadoop-2.7.3.tar.gz到apps
(2)解压hadoop压缩包
(3)配置etc/hadoop/hadoop-env.sh
JAVA_HOME=/主目录/apps/jdk
(4)配置 环境变量
vim ~/.bash_profile
HADOOP_HOME=/home/hyxy/apps/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH HADOOP_HOME(5)重新加载配置文件source ~/.bash_profile(6)检查是否配置成功hadoop(7)执行官网上的独立模式的案例
大数据(起源及特点,hadoop的配置安装)相关推荐
- hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结
大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp. 其中apache的发行版本大致有1.x ,2.x ...
- 好程序员大数据笔记之:Hadoop集群搭建
好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...
- 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图
大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图 http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/i ...
- 大数据学习笔记:Hadoop生态系统
文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...
- 大数据系列(一)之hadoop介绍及集群搭建
大数据系列(一)之hadoop介绍及集群搭建 文章最早发布来源,来源本人原创初版,同一个作者: https://mp.weixin.qq.com/s/fKuKRrpmHrKtxlCPY9rEYg 系列 ...
- 大数据常见面试题 Hadoop篇(2)
大数据常见面试题 Hadoop篇(1)_后季暖的博客-CSDN博客1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输.反序列化就是将收到字 ...
- 大数据常见面试题 Hadoop篇(1)
目录 1.描述一下hdfs的写流程 读流程? 2.详细讲解一下hdfs的体系结构 3.如果一个datanode出现宕机,恢复流程是什么样的? 4.通常你是如何解决Haddop的NameNode宕机的, ...
- 大数据学习之路-Hadoop
Hadoop 1. 大数据导论 1.1 大数据概念 1.2 大数据特点 1.3 大数据应用场景 1.4 大数据部门组织结构 2. Hadoop简介与大数据生态 2.1 Hadoop的介绍 2.2 Ha ...
- 全国大学生大数据技能竞赛(Hadoop集群搭建)
系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...
最新文章
- 安装H3C的各种问题
- python 屏幕录制_Python实现屏幕录制功能的代码
- 3D打印火箭发动机真被做出来了!首次地面全周期点火实测,发射报价不到猎鹰9的五分之一...
- docsify——一个神奇的文档站点生成器
- JMS ActiveMQ案例
- win10修改服务器地址,win10 修改服务器地址
- 12306验证码为什么那么变态?都是这项深度学习应用给逼的
- C++基础介绍,C++基本简介
- ps怎么将png做成gif_PS里面图片是gif的怎么转换成jpg和png的?
- Flutter Convex Bottom 底部导航
- 【世纪佳缘桌面V3.1.1正式版】聊天交流工具
- ei会议论文含金量高吗?
- 如何用ChatGPT做会议总结?
- caffe不支持relu6_caffe cudaSuccess (4 vs. 0) unspecified launch failure
- 春游 C++(半对)(最小字典序)
- 记一次内网jenkins自动发布血泪史
- ​“双十一”物流大考:顺丰如何用“科技”破局?
- QT5开发之 信号与槽机制
- 灰太狼的数据世界(二)
- 5月书讯 | 华章IT图书上新啦!重磅新书在线投喂...
热门文章
- mac任务管理软件things3 mac 中文破解版
- 使用WebView实现文件下载的两种方式
- x10 全志t3 卡刷_全志T3怎么样 T3芯片参数介绍
- 爬虫结合tkinter图形界面库制作个性签名应用程序
- UE4官方文档_Light Propagation Volumes_LPV方案
- linux的repo下载地址,repo下载国内链接android源码
- 请教一下stata分位数回归模型分析
- java毕业设计——基于java+JSP+sqlserver的班主任管理系统设计与实现(毕业论文+程序源码)——班主任管理系统
- electron学习教程 基本教程已测试完成
- iOS CGAffineTransform你了解多少?