Spark 开创至今,已经走过了近 12 年。12 年间,时代的脚步不断前进,我们看到互联网不断发展,各种初创公司崭露头角,在公司日常业务中需要处理的数据量也飞速增长。数据中心也从云下逐渐迁往云上,从单一云走向多云,批处理和流计算逐渐融合,数据仓库逐渐走向湖仓一体,集群资源调度也越来越轻量化。

现在,Spark 即将发布 3.2 版本。从问世至今,Spark 不断增强,在大数据蓬勃发展的浪潮中占据越来越重要的位置。Spark 3.0 的发布标志着 Spark 进入了一个全新的时代。

Spark 发展至今,有很多人都与 Spark 产生了或多或少的交集,王道远老师也是其中一位。本文选自《Spark快速大数据分析(第2版)》的译者序,让我们跟随王老师的脚步,看看他与 Spark 的那些事。

我与Spark的那些事

8 年前,刚刚从大学毕业的我,有幸误打误撞地走进了大数据这个领域,第一次接触到各种各样的大数据软件。业界的这些大数据软件基本上是开源的,在大数据这个领域似乎商业软件完全无法望其项背。2014 年,我开始参与 Spark 社区的开发,当时 1.0 版本尚未发布,我对大数据也没有特别深入的认知,当时纯粹以自己掌握的数据库和编译原理的皮毛知识参与其中。在这个过程中,我看到了很多牛人的代码,也结识了很多社区大佬,渐渐对 Spark 有了一些了解。后来,我加入阿里云。在大量的客户支持工作中,我才逐渐对整个大数据生态有了一定的了解,也见证了 Spark 被越来越多的客户使用,替换原有的技术栈。

毫无疑问,Spark 在开源软件中是比较成功的,活跃的开源社区为 Spark 贡献了非常多的重要功能和改进,日益好用的 Spark 也正是开源社区给所有人的回馈。在开源世界里,遇到问题谁都可以自己寻找解法,也可以和其他人一起交流、分享。越是流行的软件,发展得越快,也就越能及时跟上这个日新月异的时代。也许有一天,Spark 也会式微,但开源精神一定会继续发扬光大。对个人而言,开源是一种有趣的经历。有条件的话,你也不妨为开源贡献自己的一份力。

我与《Spark快速大数据分析》的不解之缘

机缘巧合之下,我在 2015 年翻译出版了《Spark快速大数据分析》。从此,我好像和翻译结下了一段缘分。之后我又翻译了《Spark快速大数据分析(第2版)》,虽然译文不是在社区免费公开的,但我觉得这也是对开源社区的一种贡献。

作者:[美] 朱尔斯·S. 达米吉、[美] 布鲁克·韦尼希、

[印] 泰瑟加塔·达斯、[美] 丹尼·李

译者:王道远

然而,虽然开源技术没有国界,但世界很大,人类终究说着不同的语言(哪怕代码世界都有那么多种不同的语言,甚至世界上最好的语言都有很多种),偏偏我们搞技术的,即使英文尚可,读起英文书也总是难以如母语般一目十行,由专人花时间把技术书翻译成母语的工作也还算有些价值。在翻译《Spark快速大数据分析(第2版)》这个过程中,我也一直保持着对原书的敬畏,用我有限的语文水平以及我对 Spark 的认识,尽量用平实而避免歧义的文字还原出原书的意思。这本书的翻译从去年 10 月持续到今年 3 月。

第 2 版相比第 1 版多了不少篇幅,涉及的内容也更为丰富,并且兼顾旧版本保留了基本原理与大数据发展的新趋势。相信新老用户都可以从这本书中得到新的收获,可以与 Spark 交个朋友。

01

编辑推荐

  • Databricks 工程师诚意之作,比官方文档更实用的 Spark 入门教程

  • 前一版印刷 32 次,销量超 6 万册

  • 新版全面更新,覆盖 Spark 3.0 新特性

02

本书简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据 API,利用 Spark SQL 进行交互式查询,掌握 Spark 应用的优化之道,用 Spark 和 Delta Lake 等开源工具构建可靠的数据湖,并用 MLlib 库实现机器学习流水线。随着 Spark 从 2.x 版本升级到 3.0 版本,本书第 2 版做了全面的更新,以体现 Spark 生态系统在机器学习、流处理技术等方面的发展,另新增一章详解 Spark 3.0 引入的新特性。

03

本书特色

毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark 就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。

本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。第 2 版在第 1 版的基础上做了大量更新,涵盖 Spark 3.0 的新特性,并着重展示如何利用机器学习算法执行大数据分析。

  • 学习使用 Python、Java、Scala 的结构化数据 API

  • 理解 Spark SQL 引擎的原理

  • 掌握 Spark 应用的优化技巧

  • 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC 等

  • 使用 Structured Streaming 分析批式数据和流式数据

  • 使用 Spark 和 Delta Lake 构建湖仓一体的系统

  • 使用 MLlib 开发机器学习流水线

04

作译者介绍

作者

朱尔斯·S. 达米吉(Jules S. Damji)是 Databricks 的高级开发人员,也是 MLflow 的贡献者。

布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。

泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。

丹尼·李(Denny Lee)是Databricks的软件工程师。

译者

王道远

目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉 Spark 源码,从 2014 年开始参与 Spark 项目,曾为 Spark 贡献大量修复和新特性,也曾作为主要贡献者参与了 OAP 和 SparkCube 等 Spark 生态开源项目的开发。

05

业内佳评

“这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。”

——Reynold Xin Databricks联合创始人、Apache Spark PMC成员

“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。”

——Ben Lorica Databricks数据科学家、Spark + AI峰会项目主席

“在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。”

——王峰,花名“莫问” 阿里云开源大数据平台负责人

“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的‘火花’。”

——邵赛赛 腾讯专家工程师,数据湖团队负责人

“这是一个数据驱动创新的时代,一个数据改变世界的时代,一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南,也是大数据行业的敲门砖。”

——李潇 Databricks Spark研发部主管,Apache Spark PMC成员

赠书福利又来啦!

留言说说你在应用 Spark 时,有遇到什么问题吗?我们将随机选取 2 位读者朋友,送出《Spark快速大数据分析(第2版)》一书。

没获奖的小伙伴可以扫描下方京东二维码,京东 满100-50 活动进行中,可以关注一下哦!

一键购买 ☟☟

比读文档更易上手的Spark入门教程来啦!相关推荐

  1. 我见过的,最易上手的Shader入门教程(图文)

    自从接触了shader之后我便深深得爱上了它,因为它独特的编程思考方式冲击着我这十几年的惯性认知. 在向各位大佬学习的过程中,每学到一个新的技巧,我都不禁感叹:"实在是妙!" 本文 ...

  2. 服务器2008下快速删除文件,修改注册表 让Win2008操作更易上手

    [IT168 专稿]相信有许多人抵挡不住Windows Server 2008系统强大功能的吸引,毫不犹豫地将自己的系统升级为了Windows Server 2008.不过,在操作Windows Se ...

  3. linux文本文件导入数据库,Linux系统下如何将txt文档导入到数据库mysql的方法教程...

    前段时间做小项目的时候遇到了一个需求:把txt文档的数据导入到mysql数据库中,开始本来想直接用Mysql Workbench导入TXT文件,但是最后发现不支持TXT导入,结果我吧嗒吧嗒的去把TXT ...

  4. 如何解析lvx文档_建站零基础入门:手把手教你如何自助建站

    使用阿里云云服务器ECS搭建网站有多种方式,本文主要介绍自助建站的流程. 建站方式 使用ECS建站的方式如下表所示.请根据实际业务需求,选择适合您的建站方式. 自助建站步骤 1.选择服务器. 不同网站 ...

  5. Flask | 浅读文档,快速出发

    最近在读一篇文档,作者是一位使用多种语言开发复杂程序并且拥有十多年经验的软件工程师,曾经用 PHP, Ruby, Smalltalk 甚至 C++ 写过 web 应用,他认为,在所有这些中,Pytho ...

  6. 逐点分析,这样做Web端性能测试更易上手

    哈喽,我是二黑,这里赠送一份软件测试资料. 1.软件测试学习路线 2.软件测试视频资料 3.软件测试相关文档 4.软件测试相关工具.安装包 5.高级测试工程师简历模板 6.面试题.模拟面试.PDF文档 ...

  7. excel部分网格线不见了_简单3步!用Excel制作电子印章,让你的文档更高大上

    我们在职场生活中,都见过印章,那么这个印章是怎么制作的呢?下面就教你用Excel制作电子印章,插入到文档中,让你的文档变得更高大上. 一.制作电子印章 ①绘图圆形 首先打开Excel表格点击视图,为了 ...

  8. 优雅的在 Microsoft word中插入代码,使文档更美观!!!

    在word文档中插入代码或代码段,使用下面的方法会使word更美观: 注:本文是转载自 cyang812  原文:https://blog.csdn.net/u011303443/article/de ...

  9. python在线读-文档编辑工具Markdown

    Markdown是一款非常简单高效的文档编辑工具,只用学习几个标签就可以设计非常简单的html文档. Markdown开发工具推荐 Windows:MarkdownPad,需要安装 Microsoft ...

最新文章

  1. 未能找到路径“..”的一部分
  2. fzyzojP3372 -- [校内训练20171124]博弈问题
  3. buffer pool mysql_MySQL 5.7版本新特性(修改buffer pool,无需重启服务)
  4. 深入剖析C#继承机制
  5. boost::signals2::deconstruct相关的测试程序
  6. c++内存管理-VC6
  7. javascriptjquery 判断滚动到页面底部
  8. Android RecyclerView初体验
  9. 2012年开发者该做的11件事
  10. 改变Linux的DNS解析顺序(DNS到hosts)
  11. 【优化算法】多目标人工蜂群算法(MOABC)【含Matlab源码 1236期】
  12. matlab画坐标系,Matlab如何绘制十字坐标系??
  13. 在eclipse中运行 carrot2 workbench
  14. oracle 设置输出显示,oracle输出语句
  15. Linux(Ubuntu)触摸屏校准
  16. 人力资源管理专业知识与实务(中级)
  17. C# (1)点击菜单跳出新窗体,(2)在主窗体中切换子窗体(pannel控件的使用)
  18. 比较MQTT与OPC-UA
  19. iceoryx(冰羚)-IPC中间件交叉编译
  20. linux系统离线安装miniconda3 及创建python环境

热门文章

  1. 连接直流开关的固态继电器
  2. ImHex:十六进制编辑器
  3. 想在image上画一个粗线,如何在鼠标未按下去的时候让鼠标显示为一个红色半透明的圆形呢?...
  4. VPF Source Code Structure
  5. Excel VBA之立即窗口
  6. 网易组建Python数据分析学习群,3场直播课+6G学习资料免费领
  7. 库卡机器人坐标手势_实操:KUKA机器人创建工具坐标数据
  8. python modbus_tk与步科触摸屏通讯
  9. 支小蜜食堂人脸识别就餐系统,“刷脸”消费更透明
  10. win10+VS2017配置sophus