敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路、工具与方法)

【美】Russell Jurney(拉塞尔·朱尔尼) 著  

冯文中 朱洪波 译

ISBN 978-7-121-23619-8

2014年7月出版

定价:49.00元

184页

16开

编辑推荐

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用。

使用诸如Python、Apache Pig和D3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 Heroku 中以 App 形式运行。

■用敏捷式大数据开发方法论创建分析应用

■用数据-价值栈,在一系列敏捷周期中创建价值

■用多种数据结构从单个数据集中提取特征,获取洞察

■用图表可视化数据,通过交互性报表从不同角度展示数据

■用历史数据进行预测,将预测转化为行动

■在每个迭代周期过后获取用户反馈,确保项目方向正确

内容提要

《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig 及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

《敏捷数据科学:用Hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。

目录

第1 部分 起步 ............................................................... 1

第1 章 理论 .................................................................. 3

敏捷大数据 ............................................................................................................3

BigWords 定义......................................................................................................4

敏捷大数据团队.....................................................................................................5

认识机遇和问题..............................................................................................6

敏捷大数据流程...................................................................................................11

代码检查和结对编程...........................................................................................12

敏捷的场所:开发的效率....................................................................................13

协作空间.......................................................................................................14

私人空间.......................................................................................................14

个人空间.......................................................................................................14

用大幅打印件明确表达想法................................................................................15

第2 章 数据 ............................................................... 17

电子邮件..............................................................................................................17

处理原始数据......................................................................................................18

原始的电子邮件............................................................................................18

结构化与半结构化数据.................................................................................18

SQL......................................................................................................................20

NoSQL.................................................................................................................24

序列化...........................................................................................................24

从演变的模式中抽取和展示特征 ..................................................................25

数据流水线...................................................................................................26

数据透视..............................................................................................................27

社交网络.......................................................................................................28

时间序列.......................................................................................................30

自然语言 .......................................................................................................31

概率...............................................................................................................33

小结 .....................................................................................................................35

第3 章 敏捷开发工具 ................................................... 37

可扩展性= 简洁...................................................................................................37

敏捷大数据处理...................................................................................................38

设置运行Python 的虚拟环境...............................................................................39

使用Avro 对事件进行序列化 ..............................................................................40

在Python 中使用Avro..................................................................................40

收集数据..............................................................................................................42

使用Pig 处理数据................................................................................................44

安装Pig.........................................................................................................45

使用MongoDB 发布数据....................................................................................49

安装MongoDB..............................................................................................49

安装MongoDB 的Java 驱动程序.................................................................50

安装mongo-hadoop.......................................................................................50

用Pig 向MongoDB 推送数据.......................................................................50

使用ElasticSearch 搜索数据 ................................................................................52

安装...............................................................................................................52

使用Wonderdog 整合ElasticSearch 和Pig ...................................................53

对工作流程的反思...............................................................................................55

轻量级的Web 应用..............................................................................................56

Python和 Flask .............................................................................................56

展示数据..............................................................................................................58

安装Bootstrap...............................................................................................58

启用Bootstrap...............................................................................................59

使用d3.js 和nvd3.js 可视化数据..................................................................63

小结.....................................................................................................................64

第4 章 在云端 ............................................................. 65

引言.....................................................................................................................65

GitHub.................................................................................................................67

dotCloud...............................................................................................................67

dotCloudEcho 服务.......................................................................................68

Python工作者服务........................................................................................71

AmazonWeb Services..........................................................................................71

SimpleStorage Service..................................................................................71

ElasticMapReduce........................................................................................72

MongoDB即服务..........................................................................................79

辅助工具(Instrumentation)................................................................................81

GoogleAnalytics...........................................................................................81

MortarData ...................................................................................................82

第2 部分 登上金字塔 ................................................... 85

第5 章 收集和展示数据 ............................................... 89

整合软件栈..........................................................................................................90

收集并序列化收件箱...........................................................................................90

处理和发布邮件数据...........................................................................................91

在浏览器中显示邮件...........................................................................................93

用Flask 和pymongo 处理邮件数据..............................................................94

使用Jinja2 渲染HTML5 页面 ......................................................................94

敏捷检查点..........................................................................................................98

生成电子邮件清单...............................................................................................99

用MongoDB 显示邮件.................................................................................99

对数据展示的分析......................................................................................101

搜索邮件............................................................................................................106

使用Pig,ElasticSearch和Wonderdog 构建索引....................................... 106

在网页中搜索邮件数据...............................................................................107

结论 ...................................................................................................................108

第6 章 使用图表可视化数据 ....................................... 111

优秀的图表........................................................................................................112

抽取实体:邮件地址.........................................................................................112

抽取邮件.....................................................................................................112

对时间进行可视化 .............................................................................................116

结论...................................................................................................................122

第7 章 利用报表探索数据 .......................................... 123

为数据添加联系.................................................................................................126

用TF-IDF 从邮件中提取关键字........................................................................ 133

小结 ...................................................................................................................138

第8 章 预测 .............................................................. 141

预测电子邮件的回复率......................................................................................142

个性化................................................................................................................147

小结...................................................................................................................148

第9 章 驱动行动 ........................................................ 149

好邮件的属性....................................................................................................150

使用朴素贝叶斯方法进行更好的预测............................................................... 150

P(Reply| From ∩ To)........................................................................................150

P(Reply| Token).................................................................................................151

实时预测 ............................................................................................................153

记录事件日志....................................................................................................157

小结 ...................................................................................................................157

索引........................................................................... 159

作者简介

作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。

译者介绍:朱洪波阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。

媒体评论

“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。Russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”

—— MatKelcey  matpalm.com博主

前言

我写这本书是为了帮助大家避免重复我犯过的错误,进而防止失败项目的产生。在这本书里面,描述、反映了我在两个不同的Hadoop 服务上构建数据分析应用的经验。

《敏捷数据科学》这本书有三个目标:提供一个用Hadoop 构建数据分析应用的操作指南;帮助团队在大数据项目中以敏捷的形式进行更好的协作;提出一个进行敏捷式大数据分析的先进结构。

读者是谁

《敏捷数据科学》是一门帮助大数据的入门者以及萌芽中的数据科学家,成为数据科学与数据分析团队中更有生产力的成员的课程。它的目标是帮助工程师,分析师和数据科学家以敏捷的形式在Hadoop 上处理大数据。它介绍了一种非常适合大数据的敏捷开发方式。

这本书同样针对需要处理数据并开发软件的程序员。设计师和项目经理可能会特别喜欢本书第一、二、五章,这些章节主要介绍一些敏捷的流程,而没有把关注点放在具体的代码上。

本书假设读者在一个*nix 环境中工作,对于Windows 用户,我们没有提供相应的例子,但他们可以使用Cygwin。一个由用户贡献而且包含所有前置依赖的Linux 镜像,可以从这(https://github.com/charlesflynn/agiledata)获取。读者可以通过这个工具在VirtualBox 里面快速启动一台Linux 机器。

本书如何组织

这本书包含两部分。第一部分介绍数据以及将在本书第二部分用到的工具集。我特意将第一部分写得比较简短,只用了较少的篇幅来介绍这些工具。假如感觉第一部分内容太过简略,也不要担心,本书第二部分将会深入地探索这些工具的用法。下面的章节组成了本书的第一部分:

第一章  理论

介绍敏捷大数据的工作方法。

第二章  数据

介绍本书中将要使用的数据,以及简单的预测方法。

第三章  敏捷开发工具

介绍工具集,并帮助读者将它们在机器上安装好。

第四章  在云端

带领读者将第三章中介绍的工具集扩展到云端,以支持PB 级的数据规模。

本书第二部分是一个利用敏捷大数据的方式来构建数据分析应用的教程。这是一个笔记本形式的指南。在数据- 价值金字塔的每一次上升都遵循着敏捷的原则。我会阐述如何在小的敏捷开发周期里面逐步创造价值。第二部分包含如下的章节:

第五章  收集和展示数据

帮助读者下载电子邮件收件箱数据并将邮件连接到一个web 程序上。

第六章  使用图表可视化数据

让读者逐步在web 程序中创建简单的图表来操纵数据。

第七章 利用报表探索数据

展示如何从数据里面提取实体,并将它们连接在一起,创建可交互的数据报告。

第八章 预测

帮助读者利用之前的成果预测邮件收到回复的概率。

第九章 驱动行动

介绍如何将已有的预测功能扩展成一个完整的实时分类器,来帮助用户写出会被回复的邮件。

本书所使用的约定

以下是本书所使用的排版约定:

斜体(Italic)

表示新的条目、网址、电子邮件地址、文件名和文件扩展名。

等宽字体(Constant width)

在程序代码中使用,同时也会出现在段落内的那些引用程序元素如函数名、数据库、

数据类型、环境变量、声明和关键字等,还会在API、组件及模块名里遇到。

等宽粗字体(Constant with bold)

表示命令或由用户输入的文本。

等宽斜体字(Constant with italic)

表示应该由用户提供的值来代替上下文决定的值的那些文本。

这个图标标志是提示、建议或一般说明。

这个图标表示警告或告示。

使用代码实例

补充材料( 代码示例, 练习等) 请登录https://github.com/rjurney/Agile_Date_Code自行下载。

本书就是要帮读者完成工作的。通常,如果本书包含了代码示例,你可以在你的程序和文档中使用本书中的代码。除非你复制了大段的代码,否则你无须联系我们来取得许可。举个例子,在编写程序时使用了本书中的数块代码是不需要经过许可的。出售或分发来自O’Reilly 图书的示例CD-ROM 是必须经过许可的。引用本书及本书中的示例代码来回答问题是不需要经过许可的。将大量的示例代码整合到你的产品文档中必须经过许可。

我们很感谢但不要求注明出处。出处的格式一般包括标题、作者、出版社和ISBN,例如“由Russell Jurney 写的Agile Data Science(O’Reilly). Copyright 2014 Data SyndromeLLC, 978-1-449-32626-5。”

如果你觉得没有在正常范围内使用代码例子,并且不知是否在上面所说的许可范围内,请随时联系我们:

permissions@oreilly.com

Safari® Books Online

Safari Books Online(www.safaribooksonline.com)是一个发布来自全球技术和商业领域的顶尖作者写的书和视频等优质内容的按需数字化图书馆。技术专业人士、软件开发者、网站设计师及商业和创意专业都用Safari Books Online 作为他们的主要研究、解决问题、学习和认证培训资源。

Safari Books Online 提供了一系列产品及针对组织、政府和个人不同的定价方案,订阅者可以访问到成千上万的图书、培训视频及出版前的手稿,这些内容都可以从出版社,如O’Reilly Media、PrenticeHall Professional、Addison-Wesley Professional、MicrosoftPress、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、AdobePress、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology 等数据库中搜索而得到,想了解更多关于Safari Books Online 的信息,请在线访问我们。联系我们

对于本书的评论或问题请联系出版商:

美国:

O’Reilly Media, Inc.

1005 Gravenstein Highway North

Sebastopol, CA 95472

中国:

北京市西城区西直门南大街2 号成铭大厦C 座807 室(100035)

奥莱利技术咨询(北京)有限公司

我们为本书制作了一个Web 页面,页面中包含了简介、样章,以及其他信息。可以从这里访问这个页面:

http://oreil.ly/agile-data-science。

如果要留言或者提交关于本书的技术问题的反馈,请发邮件至:

bookquestions@oreilly.com。

本书的更多信息、资源、参考文献和新闻,请登录出版社官网:http://www.oreilly.com。

Facebook: http://facebook.com/oreilly

Twitter: http://twitter.com/oreillymedia

YouTube:http://www.youtube.com/oreillymedia__

敏捷数据科学:用Hadoop创建数据分析应用相关推荐

  1. 《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...

    1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...

  2. 敏捷数据科学pdf_敏捷数据科学数据科学可以并且应该是敏捷的

    敏捷数据科学pdf TL;DR; TL; DR; I have encountered a lot of resistance in the data science community agains ...

  3. 数据科学学习之探索性数据分析(EDA)

    前言 本文为笔者学习图灵系列程序设计丛书的<面向数据科学家的使用统计学>的一些感悟和总结,本文撰写主要参考了该书目,希望本文对接触,学习和研究数据科学的各位能有所帮助. 首先,第一篇介绍探 ...

  4. 前瞻:数据科学中的探索性数据分析(DEA)

    CDA数据分析师 出品 作者: tukey 数据科学爱好者知道,在将原始数据输入到机器学习模型之前,需要对其进行大量数据预处理.为此,需要遵循一系列标准来准备数据,具体取决于手头问题的类型(回归或分类 ...

  5. 【数据科学】什么是数据分析

    数据分析是将原始数据进行排序和组织的过程,是用来帮助解释过去和预测未来的一系列方法. 数据分析不是只针对数字进行分析,而是关于: 如何设定/提出问题 演化解释 验证假设 数据的本质 现实世界所有场景都 ...

  6. python数据科学导论-泰坦尼克号之数据分析

    题目一:数据清洗及预处理 一.首先导入读取csv的pandas包,然后读取训练数据集及预测数据集 import pandas as pd import numpy as np import matpl ...

  7. 数据分析团队的价值_您的数据科学团队的价值

    数据分析团队的价值 This is the first article in a 2-part series!! 这是分两部分的系列文章中的第一篇! 组织数据科学 (Organisational Da ...

  8. 8个可以提高数据科学工作效率、节省宝贵时间的Python库

    来源:DeepHub IMBA 本文约2900字,建议阅读5分钟 在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西.所以我选择了一些 Python 库,可以帮助你节省宝贵的时间. 1. ...

  9. web数据交互_通过体育运动使用定制的交互式Web应用程序数据科学探索任何数据...

    web数据交互 Most good data projects start with the analyst doing something to get a feel for the data th ...

  10. 有效沟通的技能有哪些_如何有效地展示您的数据科学或软件工程技能

    有效沟通的技能有哪些 What is the most important thing to do after you got your skills to be a data scientist? ...

最新文章

  1. mysql udate 充值_分享下一个mysql的充值记录系统
  2. 数据库系统概论:第五章 数据库完整性
  3. 快速排除故障命令除了ping还有tracert
  4. A.DongDong破密码
  5. thinking-in-java(10)内部类
  6. javaserver_集成Spring和JavaServer Faces:改进的模板
  7. 汇付 支付,痛苦的接入过程
  8. paurse java_Java学习笔记一
  9. 从零开始学游戏编程——可视化编程游戏开发工具学习指南
  10. oa人员导入模板_九思OA办公系统平台:提高企业综合办公能力,助力企业高速成长...
  11. 三星手机PIN码忘记锁机解决方法
  12. BootStrap之导航条navigationBar
  13. 双系统下怎么卸载linux系统,双系统怎么卸载其中一个操作系统 双系统卸载其中一个操作系统方法...
  14. 运动轨迹 php,两种JS实现小球抛物线轨迹运动的方法
  15. 【软考系统架构设计师】2021年下系统架构师案例分析历年真题
  16. 慕课网风袖小程序 一一第一阶段
  17. 非常喜欢的一期《晓松奇谈》
  18. [译]如何打造以人为本的移动游戏
  19. 想去看演唱却总是抢不到票?教你用Python制作一个自动抢票脚本
  20. DBEX-1-6-2015数据库开发技术

热门文章

  1. Go语言基础练习题系列5
  2. 收藏一个好看的单选多选样式
  3. ABP .Net Core 部署到IIS 问题汇总
  4. Django_xamin注册model错误
  5. 查询记录rs.previous()使用
  6. Matplotlib笔记(1)——文字、绘图、背景(颜色对照表)
  7. ionic3 图片(轮播)预览 ionic-gallary-modal组件使用方法
  8. 判断一个整数是不是回文
  9. Package.json 属性说明
  10. Win7 + VS2015 + CMake3.6.1-GUI + Makefile 编译开源库