spark-总览（二）

一、大数据概述

各位各位，暂且听我胡扯一番啊,很快。

1.1 大数据兴起的原因哈。

我们每天都在生产数据，这里就不多bb了，文雅一点，原因如下：
存储成本的大幅下降。
运行、计算速度的提升。
脑力劳动的解放。
生产技术的提高。

1.2 大数据兴起的原因哈。（注意这里是处理，不是分析哈）
关于分析工具类似于hive我们之后在讲。

mapreduce
spark
flink

1.3Spark是什么？

      Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图计算。Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive、HBase等），以及资源调度（Yarn）。Spark+Hadoop的组合，是未来大数据领域最热门的组合，也是最有前景的组合！

1.4 Spark的介绍。

Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。Spark使用Spark RDD、Spark SQL、Spark Streaming、MLlib、GraphX成功解决了大数据领域中，离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍！现在已经有很多大公司正在生产环境下深度地使用Spark作为大数据的计算框架，包括eBay、Yahoo!、BAT、网易、京东、华为、大众点评、优酷土豆、搜狗等等。Spark同时也获得了多个世界顶级IT厂商的支持，包括IBM、Intel等。

1.5 Spark整体架构

1.5.1 Spark Core
Spark Core是spark的核心，它实现了spark的基本功能，包括任务调度、内存管理、错误恢复与存储系统交换等模块，Spark Core还包含了对弹性分布式数据集RDD(Resilient Distributed Dataset)的API的定义，RDD表示分布在多个计算节点上，可以并行计算的元素集合，是spark的的主要的编程抽象。spark提供了创建和操作这些集合的多个API。

1.5.2 Spark SQL
提到SQL，大家想到的是不是Mysql，没错。他们还真是有关系。我们都知道Mysql存储的都是结构化的数据，所以Spark SQL主要就是来操作结构化数据的程序包，这里我们提到结构化数据，就应该在说一说DataFrame，玩过python的兄弟们应该都知道，它是Pandas下的数据集。这里Spark SQL中就是这样的数据，大家心理有一个直观数据映象即可，可以帮助我们更快的学习Saprk SQL。这里为什么事SQL了？没错，他可以直接执行SQL语句，后边我们演示啊，别着急。来来，我们整一些官方一点描述啊，大家接住了啊，来来来，后排的别睡了，帮忙叫一叫啊。
Spark SQL 是Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL或者 Apache Hive 版本的 SQL 方言(HQL）来查询数据。Spark SQL 支持多种数据源，比如Hive 表、Parquet 以及 JSON 等。除了为 Spark 提供了一个 SQL 接口，Spark SQL 还支持开发者将 SQL 和传统的 RDD 编程的数据操作方式相结合，不论是使用 Python、Java 还是 Scala，开发者都可以在单个的应用中同时使用 SQL 和复杂的数据分析。通过与 Spark所提供的丰富的计算环境进行如此紧密的结合，Spark SQL 得以从其他开源数据仓库工具中脱颖而出。Spark SQL 是在Spark 1.0 中被引人的在Spark SQL 之前，加州大学伯克利分校曾经尝试修改 Apache Five 以使其运行在 Spark上，当时的项目叫作Shark。现在，由于Spark SQL 与 Spark 引擎和API 的结合更紧密Shark 己经被 Spark SQL 所取代。

1.5.3 Spark Streaming

目前Spark Streaming已经几乎无人维护，了解原理即可，现在我们主要用的是sparkStream

Spark Streaming 是Spark 提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志，或是网络服务中用户提交的状态更新组成的消息队列，都是数据流。SparkStreaming提供了用来操作数据流的 API，并日与 Spark Core 中的RDD API 高度对应。这样一来，程序员编写应用时的学习门槛就得以降低，不论是操作内存或硬盘中的数据，还是操作实时数据流，程序员都更能应对自如。从底层设计来看，Spark Streaming 支持与Spark Core 同级别的容错性、吞吐量以及可伸缩性。

以上是spark的基础部分，我们要想脱颖而出，出人头地，那么，下边的我们学不学？肯定是要学习的啊。

1.5.4 Spark MLlib

Spark 中还包含一个提供常见的机器学习（MI）功能的程序库，叫作MLib。 MLib提供了很多种机器学习算法，包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导人等额外的支持功能。MLib 还提供了一些更底层的机器学习原语，包括一个通用的梯度下降优化算法。所有这些方法都被设计为可以在集群上轻松伸缩的架构。哈哈哈，很庆幸以前学过机器学习，打过比赛，嘻嘻嘻，如鱼得水

1.5.5 SparkGrophX
Graphx 是用来操作图（比如社交网络的朋友关系图）的程序库，可以进行并行的图计算。与 Spark Streaming 和 Spark SQL 类似，GraphX也扩展了 Spark 的 RDD API，能用来创建一个顶点和边都包含任意属性的有向图。Graphx 还支持针对图的各种操作（比如进行图分割的subgraph和操作所有顶点的mapVertices），以及以希望常用的图计算比如（PageRank和三角计数），哎，鄙人不才，大学没有学过图计算，学习来没有Spark MLlib那么没有压力。

结构图如下:

最后讲一下运行容器

就底层而言，Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(clustermanager）上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器。如果要在没有预装任何集群管理器的机器上安装 Spark，那么 Spark白带的独立调度器可以让你轻松入门；而如果已经有了一个装有 Hadoop YARN 或 Mesos的集群，通过Spark 对这些集群管理器的文持，你的应用也同样能运行在这些集群上面。后边我们会详细说这些。
这里就体现了hadoop的重要性了，如果当初没有学习hadoop，现在已经懵逼了。

选择大于努力，大家注意了，在强调一遍，关于sparkStream现在已经几乎没有人维护了，可以稍微学习一下它的思路即可，现在码农们相比于sparkStream，用的structedStreaming比较多。

单身狗要睡觉了，拜拜，明天加油 ! ! !

spark-总览（二）相关推荐

[Spark的二次排序的实现]
二次排序原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果. 二次排序技术假设对应的Key = K有如下值: (K,V1), (K,V2) ...
2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount
目录案例一:花式查询案例二:WordCount 基于DSL编程基于SQL编程具体演示代码如下: 案例一:花式查询 package cn.itcast.sqlimport org.apache. ...
2021年大数据Spark（二十）：Spark Core外部数据源引入
目录外部数据源 MySQL 数据源演示代码 HBase 数据源 HBase Sink HBase Source 外部数据源 Spark可以从外部存储系统读取数据,比如RDBMs表中或 ...
学习笔记Spark（二）—— Spark集群的安装配置
一.我的软件环境二.Spark集群拓扑 2.1.集群规模 192.168.128.10 master 1.5G ~2G内存.20G硬盘.NAT.1~2核 : 192.168.128.11 node1 ...
2021年大数据Spark（二十九）：SparkSQL案例四开窗函数
目录案例四:开窗函数概述介绍聚合函数和开窗函数开窗函数分类聚合开窗函数排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE ...
2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析
目录案例三:电影评分数据分析代码实现 Shuffle分区数案例三:电影评分数据分析使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明: 对 ...
2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作
目录 RDD.DF.DS相关操作 SparkSQL初体验 SparkSession 应用入口获取DataFrame/DataSet 使用样例类指定类型+列名自定义Schema ...
2021年大数据Spark（二十三）：SparkSQL 概述
目录 SparkSQL 概述前世今生 Shark 框架-淘汰了 SparkSQL 模块 Hive 与 SparkSQL 官方定义第一.针对结构化数据处理,属于Spark框架一个部分第二.抽象数据 ...
2021年大数据Spark（二十二）：内核原理
目录 Spark内核原理 RDD 依赖窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 ...
2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析
目录案例-SogouQ日志分析业务需求准备工作 HanLP 中文分词样例类 SogouRecord 业务实现搜索关键词统计用户搜索点击统计搜索时 ...

spark-总览（二）

一、大数据概述

spark-总览（二）相关推荐

最新文章

热门文章