译者序

前言

关于作者

第1章 了解Spark

1.1 什么是Apache Spark

1.2 Spark作业和API

1.2.1 执行过程

1.2.2 弹性分布式数据集

1.2.3 DataFrame

1.2.4 Dataset

1.2.5 Catalyst优化器

1.2.6 钨丝计划

1.3 Spark 2.0的架构

1.3.1 统一Dataset和DataFrame

1.3.2 SparkSession介绍

1.3.3 Tungsten Phase 2

1.3.4 结构化流

1.3.5 连续应用

1.4 小结

第2章 弹性分布式数据集

2.1 RDD的内部运行方式

2.2 创建RDD

2.2.1 Schema

2.2.2 从文件读取

2.2.3 Lambda表达式

2.3 全局作用域和局部作用域

2.4 转换

2.4.1 .map(...)转换

2.4.2 .filter(...)转换

2.4.3 .flatMap(...)转换

2.4.4 .distinct(...)转换

2.4.5 .sample(...)转换

2.4.6 .leftOuterJoin(...)转换

2.4.7 .repartition(...)转换

2.5 操作

2.5.1 .take(...)方法

2.5.2 .collect(...)方法

2.5.3 .reduce(...)方法

2.5.4 .count(...)方法

2.5.5 .saveAsTextFile(...)方法

2.5.6 .foreach(...)方法

2.6 小结

第3章 DataFrame

3.1 Python到RDD之间的通信

3.2 Catalyst优化器刷新

3.3 利用DataFrame加速PySpark

3.4 创建DataFrame

3.4.1 生成自己的JSON数据

3.4.2 创建一个DataFrame

3.4.3 创建一个临时表

3.5 简单的DataFrame查询

3.5.1 DataFrame API查询

3.5.2 SQL查询

3.6 RDD的交互操作

3.6.1 使用反射来推断模式

3.6.2 编程指定模式

3.7 利用DataFrame API查询

3.7.1 行数

3.7.2 运行筛选语句

3.8 利用SQL查询

3.8.1 行数

3.8.2 利用where子句运行筛选语句

3.9 DataFrame场景——实时飞行性能

3.9.1 准备源数据集

3.9.2 连接飞行性能和机场

3.9.3 可视化飞行性能数据

3.10 Spark数据集(Dataset)API

3.11 小结

第4章 准备数据建模

4.1 检查重复数据、未观测数据和异常数据(离群值)

4.1.1 重复数据

4.1.2 未观测数据

4.1.3 离群值

4.2 熟悉你的数据

4.2.1 描述性统计

4.2.2 相关性

4.3 可视化

4.3.1 直方图

4.3.2 特征之间的交互

4.4 小结

第5章 MLlib介绍

5.1 包概述

5.2 加载和转换数据

5.3 了解你的数据

5.3.1 描述性统计

5.3.2 相关性

5.3.3 统计测试

5.4 创建最终数据集

5.4.1 创建LabeledPoint形式的RDD

5.4.2 分隔培训和测试数据

5.5 预测婴儿生存机会

5.5.1 MLlib中的逻辑回归

5.5.2 只选择最可预测的特征

5.5.3 MLlib中的随机森林

5.6 小结

第6章 ML包介绍

6.1 包的概述

6.1.1 转换器

6.1.2 评估器

6.1.3 管道

6.2 使用ML预测婴儿生存几率

6.2.1 加载数据

6.2.2 创建转换器

6.2.3 创建一个评估器

6.2.4 创建一个管道

6.2.5 拟合模型

6.2.6 评估模型的性能

6.2.7 保存模型

6.3 超参调优

6.3.1 网格搜索法

6.3.2 Train-validation划分

6.4 使用PySpark ML的其他功能

6.4.1 特征提取

6.4.2 分类

6.4.3 聚类

6.4.4 回归

6.5 小结

第7章 GraphFrames

7.1 GraphFrames介绍

7.2 安装GraphFrames

7.2.1 创建库

7.3 准备你的航班数据集

7.4 构建图形

7.5 执行简单查询

7.5.1 确定机场和航班的数量

7.5.2 确定这个数据集中的最长延误时间

7.5.3 确定延误和准点/早到航班的数量对比

7.5.4 哪一班从西雅图出发的航班最有可能出现重大延误

7.5.5 西雅图出发到哪个州的航班最有可能出现重大延误

7.6 理解节点的度

7.7 确定最大的中转机场

7.8 理解Motif

7.9 使用PageRank确定机场排名

7.10 确定最受欢迎的直飞航班

7.11 使用广度优先搜索

7.12 使用D3将航班可视化

7.13 小结

第8章 TensorFrames

8.1 深度学习是什么

8.1.1 神经网络和深度学习的必要性

8.1.2 特征工程是什么

8.1.3 桥接数据和算法

8.2 TensorFlow是什么

8.2.1 安装PIP

8.2.2 安装TensorFlow

8.2.3 使用常量进行矩阵乘法

8.2.4 使用placeholder进行矩阵乘法

8.2.5 讨论

8.3 TensorFrames介绍

8.4 TensorFrames快速入门

8.4.1 配置和设置

8.4.2 使用TensorFlow向已有列添加常量

8.4.3 Blockwise reducing操作示例

8.5 小结

第9章 使用Blaze实现混合持久化

9.1 安装Blaze

9.2 混合持久化

9.3 抽象数据

9.3.1 使用NumPy数组

9.3.2 使用pandas的DataFrame

9.3.3 使用文件

9.3.4 使用数据库

9.4 数据操作

9.4.1 访问列

9.4.2 符号转换

9.4.3 列的操作

9.4.4 降阶数据

9.4.5 连接

9.5 小结

第10章 结构化流

10.1 什么是Spark Streaming

10.2 为什么需要Spark Streaming

10.3 Spark Streaming应用程序数据流是什么

10.4 使用DStream简化Streaming应用程序

10.5 全局聚合快速入门

10.6 结构化流介绍

10.7 小结

第11章 打包Spark应用程序

11.1 spark-submit命令

11.2 以编程方式部署应用程序

11.2.1 配置你的SparkSession

11.2.2 创建SparkSession

11.2.3 模块化代码

11.2.4 提交作业

11.2.5 监控执行

11.3 Databricks作业

11.4 小结

spark用python编程的书_PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署...相关推荐

  1. 青少年python编程入门书-青少年Python编程入门——图解Python

    商品详情 书名:青少年Python编程入门--图解Python 定价:69.8 ISBN:9787121395543 作者:傅骞 版次:第1版 出版时间:2020-09 内容提要: 本书介绍pytho ...

  2. 介绍几本python编程入门书

    非常有用的python编程入门书 笨办法学 Python(第四版) 零基础入门学python(小甲鱼) python编程从入门到实践(袁国忠·译) python核心编程二.三版 python核心编程第 ...

  3. NLP实战:利用Python理解、分析和生成文本 | 赠书

    导读:本文内容参考自<自然语言处理实战:利用Python理解.分析和生成文本>一书,由Hobson Lane等人所著. 本书是介绍自然语言处理(NLP)和深度学习的实战书.NLP已成为深度 ...

  4. python编程第四版_清华编程教授强力推荐《Python编程》,指导你如何学习python

    Python编程真的那么容易吗?仅仅是看理论就可以学以致用吗? 今天我给你介绍的这本书,也许会让你开始改变这种想法,因为这本书上的练习和案例以及指导本身就足够学好Python了. 清华编程教授强力推荐 ...

  5. 视频教程-21天通关Python(课+书,含邮寄)-Python

    21天通关Python(课+书,含邮寄) 专注提供优质教学内容 CSDN就业班 ¥119.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术好课免费看 APP订阅课程,领取优惠,最少 ...

  6. 免费学python编程_强力推荐,非常全的 Python编程学习资料(今日免费)

    因为大数据和 AI,Python 一跃成为最火的语言,这里推荐几本畅销排行榜上的好书. 有需要在我的头条号,私信我,"Python",即可免费领取. 一.Python基础教程 &l ...

  7. 云计算Python自动化运维开发实战 三、python文件类型

    为什么80%的码农都做不了架构师?>>>    云计算Python自动化运维开发实战 三.python文件类型 导语: python常用的有3种文件类型 1. 源代码     py ...

  8. mysql shell可视化_shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中...

    shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中 利用shell脚本将文本数据导入到mysql中 需求1:处理文本中的数据,将文本中的数据插入到mys ...

  9. 利用python进行数据分析第三版 mobi_利用python进行数据分析 pdf下载

    利用Python进行数据分析pdf电子版是一本广受好评的Python实战指导参考图书,该书以大量案例分析为基本,全面系统地教你如何解决各类数据分析问题,有兴趣的朋友快来下载吧! 利用Python进行数 ...

最新文章

  1. [通告]Nuget服务宕机,出现 503 Server Unavailable 错误无法编译及解决方法
  2. 【VS开发】模态对话框和非模态对话框
  3. 码云Webhook触发Jenkins自动构建 - Jenkins演练(一)
  4. js 数组过滤_JS之 开发技巧
  5. 301 302区别_如何正确理解301,302和canonial标签
  6. 一、第一个注解的 SpringMVC 程序
  7. bzoj1237 [SCOI2008]配对 贪心结论+插数dp
  8. (6)散列冲突处理:链地址法
  9. 事实表和维度表是怎么造数据_数据库与数据仓库的那点事
  10. Matplotlib:直方图示例(2):正态分布。
  11. 超级终端连接华为交换机_win8系统使用超级终端连接华为交换机的操作方法
  12. 冲量在线荣获STIF2021国际科创节2021年度技术先锋奖
  13. 限流算法:滑动时间窗口算法。
  14. 【转载】树莓派 Raspberry Pi Pico windows7 串口驱动
  15. 【Python|Kaggle】机器学习系列之Pandas基础练习题(五)
  16. python画红色等边三角形面积公式_等边三角形面积公式?
  17. Java的Lambda表达式实例
  18. 使用JSON-Schema验证数据,第1部分
  19. 基于python管理系统论文_基于Python语言的实验室管理系统的设计与实现
  20. 伤感日志:眼泪是什么颜色,什么味道

热门文章

  1. 各种pytorch项目
  2. jsonp跨域实现单点登录,跨域传递用户信息以及保存cookie注意事项
  3. 都9102年了,还问GET和POST的区别
  4. (转)自动化管理工具Saltstack之nginx部署
  5. 国内知名 IT 公司前端团队
  6. poj3934Queue(dp)
  7. mysql 1005 错误
  8. large graph挖掘的技术基础
  9. phpstorm 提示请配置PHP解释器的解决办法
  10. LIME算法:模型的可解释性(代码实现)