对几种大数据技术进行了一次小小的整理,常见的有:Hadoop、Hive、Spark、HBase。

Hadoop:一种文件系统,我觉得可以类比win(linux)下的NTFS、FAT等;

  • 文件系统是操作系统上用于明确存储设备或分区上的文件的方法和数据结构,也就是在存储设备上组织文件的方法。NTFS等相当于是在win(linux)下对操作系统中的数据进行底层组织,Hadoop则是类似的但抽象层次更高的一种文件系统,适合处理块状数据。
  • HDFS提供存储、MapReduce提供计算引擎(包括两个部分JobTrackers、TaskTrackers)

Hive:是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

HBase:HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Spark:Spark对标的是Hadoop中的MapReduce,两者皆为分布式计算框架,都必须在分布式文件系统之上运行。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,因此在性能上相比于MapReduce具有一定的优越性。Hadoop则是一种基础设施,提供底层的存储机制(也可以说是数据结构)。

与大数据相关的,也经常提到云计算。个人觉得云计算就是一种商业宣传语,因为只要是部署在服务器上的都可以称之为云~现阶段云计算已经不是一种单纯的技术概念,是一种囊括了众多技术概念(分布式计算、效用计算、负载均衡、并行计算、网络存储、冷热备份、虚拟化)的商业性术语
一般的,分为三层架构:

  • IaaS:基础设施层(虚拟机资源、存储、网络、OS)
  • PaaS:平台层(开发环境、运行环境)
  • SaaS:软件层(云计算提供商托管和管理软件应用程序)

2020.01.22碎片梳理——关于大数据相关推荐

  1. 就业培训 | 2020第一期重庆高校毕业生大数据职业技能线上特训营开课啦

    "大数据特训营开课啦!""芝诺数据的老师太'可'了~"这几天,同学们的朋友圈被刷屏了,原来,是2020第一期重庆高校毕业生大数据职业技能线上特训营开讲了! &q ...

  2. 【报告分享】2020快手母婴生态报告-快手大数据研究院(附下载)

    今天给大家分享的是  2020快手母婴生态报告-快手大数据研究院 快手大数据研究院发布<2020快手母婴生态报告>,系快手首次系统盘点平台母婴生态的发展情况.报告既有快手母婴人群洞察,也有 ...

  3. 消除数据信息碎片化 打通大数据应用“最后一公里”

    大数据.人工智能和人类智慧,成为智能数据时代的三大要素.数据的积累,可以为人类提供更多更细的洞察分析,人类经验得以增强,人类智慧得以增长. 消除数据信息碎片化 打通大数据应用"最后一公里&q ...

  4. 独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)

    作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青 本文长度为4600字,建议阅读11分钟 本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...

  5. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  6. 2020年,探码科技大数据产业生态的发展

    2020年,突如其来的新冠肺炎疫情,给我国各行各业带来了一定影响.但在抗"疫"过程中,以大数据.人工智能.云计算等为代表的新一代信息技术发挥了重要作用,并激发了新业态.新模式的出现 ...

  7. 2020/10/22【ArcGIS】土地利用数据重分类与叠置分析-方法复盘

    任务: 1.LUCC重新分类: ①不可蚀土地:水体.裸岩.城镇用地.居民用地.工矿 ②耕地:水田.旱地 ③林草地:林地.草地.戈壁.盐碱地.沼泽地.裸土地,其他 ④沙地:沙地 2.从土壤类型中提取风沙 ...

  8. 22.1.11京东大数据实习面试

    先自我介绍,然后问项目经历,我写的项目经历是hbase设计的一个数据库 项目部分 介绍一下这个项目,几个人完成的,用了多久,你负责什么 这个项目你用了什么技术栈, 里面有几张表,表是怎么设计的 TB级 ...

  9. 《大数据》2020年第6期目次摘要

    点击上方蓝字关注我们 <大数据> 第6卷第6期 2020年11月 大数据2020年第6期 (点击原文链接在官网阅读完整文章) 目次 01 专题导读:教育大数据 刘三女牙 02 面向数据共享 ...

最新文章

  1. freemarker变量自加
  2. OSG造成屏幕闪烁,且鼠标不能操作的一行代码
  3. 如何给IP Product找到可用的sales organization
  4. 如何使用Squid服务来构建=》传统和透明代理服务器,通俗易懂!
  5. ORM Designer for Rails Demo
  6. Django:DjangoProject项目结构简介
  7. 一站式学习 Linux C语言编程
  8. HDOJ-1272 小希的迷宫
  9. OSChina 周三乱弹 —— 万众期待的拉黑功能
  10. Python:内置类型
  11. mysql 事务补偿_分布式事务之消息补偿解决方案
  12. 如何便捷获取参考文献的引用格式?
  13. 根据主题不同,引用不同的资源文件
  14. Arduino DHT11温湿度传感器数据示例
  15. 数学建模基础理论【二】(定积分)
  16. 【2014-3】day3 T1 五彩斑斓
  17. gpt分区硬盘安装linux,GPT分区表上硬盘安装ubuntu
  18. 关于python 关于面向对象 关于magic method(魔方方法)
  19. 【沧小海笔记】之基于FPGA的以太网设计相关知识——第三章 xilinx 三速以太网IP核(TEMAC)的介绍
  20. 【独家】谁是钉钉最大的反对派?

热门文章

  1. 大端小端模式及其判别方式
  2. 创造型与消费型活动:两个人在一起没事干怎么办?
  3. python虚拟环境virtualenv使用命令行workon的操作错误
  4. msckf-vio编译缺少random_numbers
  5. java 代码坏味道_代码中的坏味道
  6. 使用gojs展示设备配置过程
  7. android studio 的x86文件夹,AndroidStudio修改默认C盘配置文件夹(.android.gradle.AndroidStudio)以及修改后避免踩的坑...
  8. 二叉树前序、中序、后序遍历-1
  9. SpringBoot-07-之数据库JPA(CRUD)
  10. phtoshop理解与备忘