一、大数据时代
1、三次信息化浪潮
第一次:1980左右,个人计算机的普及。社会生产力得到大大的提高
第二次:1995左右,互联网的流行。门户网站的产生,信息量急剧增加
第三次:2010之后,物联网,云计算,大数据的产生,数据爆发
2、大数据时代来临的原因
阶段1:运营式系统阶段
阶段2:用户原创内容阶段
阶段3: 感知式系统阶段
二、大数据的概念
从大数据的特点来看(4V特点)
1、数据量大(Volume)
产生的数据多,数据集大
2、数据种类多(Variety)
结构化数据,半结构化数据,非结构化数据
3、处理速度快(Velocity)
产生的数据特别快,要快速处理大数据集,(为了数据价值的即时性)
4、价值密度低(Value)
庞大的数据中,只有极少部分数据有价值。
举例说明:
小区监控,1个月的数据中只有发生事件的几分钟的数据有价值
三、大数据的影响
1、对科学研究有影响
实验–>理论–>算法–>数据
2、对人类思维方式的影响
全样而非抽样
效率而非精确
相关而非因果
3、对社会发展的影响
4、对就业市场的影响
5、对人才培养的影响
四、大数据的应用

餐饮行业
汽车行业
金融行业
医疗行业
交通行业
.......

1024进位
Byte->KB->MB->GB->TB->PB->EB->ZB

云计算:
云计算是以虚拟技术为核心,进行统计管理硬件设施,平台,软件等。以低成本进行出租。类似于国家统一
管理水,电,煤气等等。
云服务分三类:
基础设施即服务(IaaS)(I as a Service)
平台即服务(PaaS)
软件即服务(SaaS)
物联网:
就是物物相连的互联网,是互联网的扩展。物与物,人与物。

大数据与云计算、物联网的关系
大数据:侧重于数据的存储、处理和分析
云计算:整合和优化IT资源,统计管理,以廉价出租给用户
物联网:实现物与物相连。应用创新是物联网发展的核心

==============================================================
Hadoop的简介
Apache Hadoop项目为可靠的、可伸缩的分布式计算开发开源软件,用java语言编写的,可以在任何一个
有JVM的机器上运行。

提供了两个核心技术:
HDFS:hadoop分布式文件系统
MapReduce:并行计算框架
除了两个核心模块还有其他几个模块:
Hadoop Common:最基本的模块
Hadoop YARN:资源调度和管理系统
Hadoop Ozone:对象存储技术
Hadoop Submarine: Hadoop机器学习引擎
Hadoop2.x版本 四个模块:common、HDFS、MapReduce、Yarn
Hadoop3.x版本 以上六个模块都有

学习版本:Hadoop2.7.3版本

Hadoop的生态系统
围绕Hadoop为基础的其他技术
Ambari:一个基于web的工具,用于配置、管理和监视Apache Hadoop集群
Avro:一个用于数据序列化的系统工具
HBase:一个可伸缩的分布式数据库,支持大表的结构化数据存储
Hive:一种数据仓库基础设施,提供数据摘要和特殊查询。
Hadoop的发展史
HDFS的起源来自于2003年谷歌的一篇论文:关于分布式文件系统GFS
MapReduce起源于2004年谷歌的另外一篇论文:Mapreduce系统

2006年2月份将NDFS和Mapreduce从Nutch项目抽出 行程一个子项目Hadoop.
2008年Hadoop项目成为了apache旗下的顶级项目之一。

====================================================
Hadoop的安装
三种模式:
1、独立模式(单机模式:Standalone)
2、伪分布式 (Pseudo-Distributed )
3、完全分布式 (Fully-Distributed)
安装条件:
平台:Linux
软件:jdk1.8 hadoop2.7.3 ssh

课外小知识:
在window平台下,解压hadoop-2.7.3.tar.gz,(解压的位置路径不要有中文)将jar包和源码分离出来,
以备以后方便查看。
新建文件夹_jars,搜索hadoop-2.7.3下的所有jar包,copy一份到_jars里
新建文件夹_sources,搜索_jars里的所有source.jar,剪切到_sources里
新建文件夹_test,搜索_sources里的所有test,剪切到_test里
新建文件夹_confs,搜索default.xml,将前四个copy到_confs里

1、安装jdk
(1)在用户的主目录下新建目录apps.
(2)上传jdk-8u172-linux-x64.tar.gz
(3)检查一下是否已经安装过
rpm -qa | grep java
如果安装过,请卸载(切换root用户:rpm -e --nodeps xxxx,卸载后,切换成普通用户)

  (4)解压:tar -zvxf jdk-8u172-linux-x64.tar.gz(5)创建软连接ln -s jdk1.8.0_172 jdk(6)配置环境变量vim ~/.bash_profileJAVA_HOME=/主目录/apps/jdkPATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/binexport JAVA_HOME PATH(7)重新加载配置文件source ~/.bash_profile     配置后,因为不管是login shell还是non-login shell,都不会再加载配置文件,如果想重新加载配置文件,需要重新启动机器。如果不想重启,需要使用source或.(8)检查是否配置成功java -versionjavac

2、Hadoop2.7.3的安装
(1)上传hadoop-2.7.3.tar.gz到apps
(2)解压hadoop压缩包
(3)配置etc/hadoop/hadoop-env.sh
JAVA_HOME=/主目录/apps/jdk
(4)配置 环境变量
vim ~/.bash_profile

HADOOP_HOME=/home/hyxy/apps/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH HADOOP_HOME(5)重新加载配置文件source ~/.bash_profile(6)检查是否配置成功hadoop(7)执行官网上的独立模式的案例

大数据(起源及特点,hadoop的配置安装)相关推荐

  1. hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结

    大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp. 其中apache的发行版本大致有1.x ,2.x ...

  2. 好程序员大数据笔记之:Hadoop集群搭建

    好程序员大数据笔记之:Hadoop集群搭建在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天 ...

  3. 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图

    大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图 http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/i ...

  4. 大数据学习笔记:Hadoop生态系统

    文章目录 一.Hadoop是什么 二.Hadoop生态系统图 三.Hadoop生态圈常用组件 (一)Hadoop (二)HDFS (三)MapReduce (四)Hive (五)Hbase (六)Zo ...

  5. 大数据系列(一)之hadoop介绍及集群搭建

    大数据系列(一)之hadoop介绍及集群搭建 文章最早发布来源,来源本人原创初版,同一个作者: https://mp.weixin.qq.com/s/fKuKRrpmHrKtxlCPY9rEYg 系列 ...

  6. 大数据常见面试题 Hadoop篇(2)

    大数据常见面试题 Hadoop篇(1)_后季暖的博客-CSDN博客1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输.反序列化就是将收到字 ...

  7. 大数据常见面试题 Hadoop篇(1)

    目录 1.描述一下hdfs的写流程 读流程? 2.详细讲解一下hdfs的体系结构 3.如果一个datanode出现宕机,恢复流程是什么样的? 4.通常你是如何解决Haddop的NameNode宕机的, ...

  8. 大数据学习之路-Hadoop

    Hadoop 1. 大数据导论 1.1 大数据概念 1.2 大数据特点 1.3 大数据应用场景 1.4 大数据部门组织结构 2. Hadoop简介与大数据生态 2.1 Hadoop的介绍 2.2 Ha ...

  9. 全国大学生大数据技能竞赛(Hadoop集群搭建)

    系列文章 全国大学生大数据技能竞赛(数仓部署) 全国大学生大数据技能竞赛(Spark on Yarn安装) 文章目录 系列文章 前言 资料链接 用VMware练习配置前准备三台虚拟机并修改网络为桥接 ...

最新文章

  1. 安装H3C的各种问题
  2. python 屏幕录制_Python实现屏幕录制功能的代码
  3. 3D打印火箭发动机真被做出来了!首次地面全周期点火实测,发射报价不到猎鹰9的五分之一...
  4. docsify——一个神奇的文档站点生成器
  5. JMS ActiveMQ案例
  6. win10修改服务器地址,win10 修改服务器地址
  7. 12306验证码为什么那么变态?都是这项深度学习应用给逼的
  8. C++基础介绍,C++基本简介
  9. ps怎么将png做成gif_PS里面图片是gif的怎么转换成jpg和png的?
  10. Flutter Convex Bottom 底部导航
  11. 【世纪佳缘桌面V3.1.1正式版】聊天交流工具
  12. ei会议论文含金量高吗?
  13. 如何用ChatGPT做会议总结?
  14. caffe不支持relu6_caffe cudaSuccess (4 vs. 0) unspecified launch failure
  15. 春游 C++(半对)(最小字典序)
  16. 记一次内网jenkins自动发布血泪史
  17. ​“双十一”物流大考:顺丰如何用“科技”破局?
  18. QT5开发之 信号与槽机制
  19. 灰太狼的数据世界(二)
  20. 5月书讯 | 华章IT图书上新啦!重磅新书在线投喂...

热门文章

  1. mac任务管理软件things3 mac 中文破解版
  2. 使用WebView实现文件下载的两种方式
  3. x10 全志t3 卡刷_全志T3怎么样 T3芯片参数介绍
  4. 爬虫结合tkinter图形界面库制作个性签名应用程序
  5. UE4官方文档_Light Propagation Volumes_LPV方案
  6. linux的repo下载地址,repo下载国内链接android源码
  7. 请教一下stata分位数回归模型分析
  8. java毕业设计——基于java+JSP+sqlserver的班主任管理系统设计与实现(毕业论文+程序源码)——班主任管理系统
  9. electron学习教程 基本教程已测试完成
  10. iOS CGAffineTransform你了解多少?