下载地址:网盘下载

内容简介  · · · · · ·

本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。

作者简介  · · · · · ·

作者简介:

Robert Layton

计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

译者简介:

杜春晓

英语语言文学学士,软件工程硕士。其他译著有《电子达人——我的第一本Raspberry Pi入门手册》《Python数据分析》。新浪微博:@宜_生。

目录  · · · · · ·

第1章  开始数据挖掘之旅  1
1.1  数据挖掘简介  1
1.2  使用Python和IPython Notebook  2
1.2.1  安装Python  2
1.2.2  安装IPython  4
1.2.3  安装scikit-learn库  5
1.3  亲和性分析示例  5
1.3.1  什么是亲和性分析  5
1.3.2  商品推荐  6
1.3.3  在NumPy中加载数据集  6
1.3.4  实现简单的排序规则  8
1.3.5  排序找出最佳规则  10
1.4  分类问题的简单示例  12
1.5  什么是分类  12
1.5.1  准备数据集  13
1.5.2  实现OneR算法  14
1.5.3  测试算法  16
1.6  小结  18
第2章  用scikit-learn估计器分类  19
2.1  scikit-learn估计器  19
2.1.1  近邻算法  20
2.1.2  距离度量  20
2.1.3  加载数据集  22
2.1.4  努力实现流程标准化  24
2.1.5  运行算法  24
2.1.6  设置参数  25
2.2  流水线在预处理中的应用  27
2.2.1  预处理示例  28
2.2.2  标准预处理  28
2.2.3  组装起来  29
2.3  流水线  29
2.4  小结  30
第3章  用决策树预测获胜球队  31
3.1  加载数据集  31
3.1.1  采集数据  31
3.1.2  用pandas加载数据集  32
3.1.3  数据集清洗  33
3.1.4  提取新特征  34
3.2  决策树  35
3.2.1  决策树中的参数  36
3.2.2  使用决策树  37
3.3  NBA比赛结果预测  37
3.4  随机森林  41
3.4.1  决策树的集成效果如何  42
3.4.2  随机森林算法的参数  42
3.4.3  使用随机森林算法  43
3.4.4  创建新特征  44
3.5  小结  45
第4章  用亲和性分析方法推荐电影  46
4.1  亲和性分析  46
4.1.1  亲和性分析算法  47
4.1.2  选择参数  47
4.2  电影推荐问题  48
4.2.1  获取数据集  48
4.2.2  用pandas加载数据  49
4.2.3  稀疏数据格式  49
4.3  Apriori算法的实现  50
4.3.1  Apriori算法  51
4.3.2  实现  52
4.4  抽取关联规则  54
4.5  小结  60
第5章  用转换器抽取特征  62
5.1  特征抽取  62
5.1.1  在模型中表示事实  62
5.1.2  通用的特征创建模式  64
5.1.3  创建好的特征  66
5.2  特征选择  67
5.3  创建特征  71
5.4  创建自己的转换器  75
5.4.1  转换器API  76
5.4.2  实现细节  76
5.4.3  单元测试  77
5.4.4  组装起来  79
5.5  小结  79
第6章  使用朴素贝叶斯进行社会媒体挖掘  80
6.1  消歧  80
6.1.1  从社交网站下载数据  81
6.1.2  加载数据集并对其分类  83
6.1.3  Twitter数据集重建  87
6.2  文本转换器  90
6.2.1  词袋  91
6.2.2  N元语法  92
6.2.3  其他特征  93
6.3  朴素贝叶斯  93
6.3.1  贝叶斯定理  93
6.3.2  朴素贝叶斯算法  94
6.3.3  算法应用示例  95
6.4  应用  96
6.4.1  抽取特征  97
6.4.2  将字典转换为矩阵  98
6.4.3  训练朴素贝叶斯分类器  98
6.4.4  组装起来  98
6.4.5  用F1值评估  99
6.4.6  从模型中获取更多有用的特征  100
6.5  小结  102
第7章  用图挖掘找到感兴趣的人  104
7.1  加载数据集  104
7.1.1  用现有模型进行分类  106
7.1.2  获取Twitter好友信息  107
7.1.3  构建网络  110
7.1.4  创建图  112
7.1.5  创建用户相似度图  114
7.2  寻找子图  117
7.2.1  连通分支  117
7.2.2  优化参数选取准则  119
7.3  小结  123
第8章  用神经网络破解验证码  124
8.1  人工神经网络  124
8.2  创建数据集  127
8.2.1  绘制验证码  127
8.2.2  将图像切分为单个的字母  129
8.2.3  创建训练集  130
8.2.4  根据抽取方法调整训练数据集  131
8.3  训练和分类  132
8.3.1  反向传播算法  134
8.3.2  预测单词  135
8.4  用词典提升正确率  138
8.4.1  寻找最相似的单词  138
8.4.2  组装起来  139
8.5  小结  140
第9章  作者归属问题  142
9.1  为作品找作者  142
9.1.1  相关应用和使用场景  143
9.1.2  作者归属  143
9.1.3  获取数据  144
9.2  功能词  147
9.2.1  统计功能词  148
9.2.2  用功能词进行分类  149
9.3  支持向量机  150
9.3.1  用SVM分类  151
9.3.2  内核  151
9.4  字符N元语法  152
9.5  使用安然公司数据集  153
9.5.1  获取安然数据集  153
9.5.2  创建数据集加载工具  154
9.5.3  组装起来  158
9.5.4  评估  158
9.6  小结  160
第10章  新闻语料分类  161
10.1  获取新闻文章  161
10.1.1  使用Web API获取数据  162
10.1.2  数据资源宝库reddit  164
10.1.3  获取数据  165
10.2  从任意网站抽取文本  167
10.2.1  寻找任意网站网页中的主要内容  167
10.2.2  组装起来  168
10.3  新闻语料聚类  170
10.3.1  k-means算法  171
10.3.2  评估结果  173
10.3.3  从簇中抽取主题信息  175
10.3.4  用聚类算法做转换器  175
10.4  聚类融合  176
10.4.1  证据累积  176
10.4.2  工作原理  179
10.4.3  实现  180
10.5  线上学习  181
10.5.1  线上学习简介  181
10.5.2  实现  182
10.6  小结  184
第11章  用深度学习方法为图像中的物体进行分类  185
11.1  物体分类  185
11.2  应用场景和目标  185
11.3  深度神经网络  189
11.3.1  直观感受  189
11.3.2  实现  189
11.3.3  Theano简介  190
11.3.4  Lasagne简介  191
11.3.5  用nolearn实现神经网络  194
11.4  GPU优化  197
11.4.1  什么时候使用GPU进行
计算  198
11.4.2  用GPU运行代码  198
11.5  环境搭建  199
11.6  应用  201
11.6.1  获取数据  201
11.6.2  创建神经网络  202
11.6.3  组装起来  204
11.7  小结  205
第12章  大数据处理  206
12.1  大数据  206
12.2  大数据应用场景和目标  207
12.3  MapReduce  208
12.3.1  直观理解  209
12.3.2  单词统计示例  210
12.3.3  Hadoop MapReduce  212
12.4  应用  212
12.4.1  获取数据  213
12.4.2  朴素贝叶斯预测  215
12.5  小结  226
附录  接下来的方向  227

下载地址:网盘下载

转载于:https://www.cnblogs.com/long12365/p/9730628.html

Python数据挖掘入门与实践pdf相关推荐

  1. Python数据挖掘入门与实践-OneR分类算法

    Python数据挖掘入门与实践-OneR分类算法 OneR算法 OneR算法是根据已有的数据中,具有相同特征值的个体最可能属于哪个类别进行分类. 在本例中,只需选区Iris是个特征中分类效果最好的一个 ...

  2. 《python数据挖掘》和《python数据挖掘入门与实践》两本书读后感

    这些天花了很多时间来学习数据挖掘这门课程,有很多心得和感悟,所以写下这篇博客来表达自己读完这两本书的感受! 首先推荐大家通过这两本书来入门数据挖掘这个领域,python数据挖掘这本书较容易,还花了很大 ...

  3. 《python数据挖掘入门与实践》决策树预测nba数据集

    前言: 学到决策树预测球队输赢时,按照书中网址去下载数据集,无奈怎么也没下载成功.即使下载了excel文件也是破损的.咱可是学了python的银,那好吧,我就把它爬取下来.(资源在下面) 代码: '' ...

  4. 改写《python数据挖掘入门与实践》第九章Gutenberg书籍下载代码

    @数据挖掘 改写<python数据挖掘入门与实践>第九章Gutenberg书籍下载代码 可能是gutenberg网站改版的缘故,随书附带的getdata.py代码执行会报错. 个人将其进行 ...

  5. python_tweets.json (python数据挖掘入门与实践数据集下载)

    最近在看python数据挖掘入门与实践一书,书不错,有个不好的地方是,书上所用的数据集,有几个测试数据在网上非常不好找 下面几个资源是我自己整理出来的,上传到CSDN,有需要的朋友可以下载 leagu ...

  6. Python数据挖掘入门与实践---用决策树预测获胜球队

    数据集来源:1.  2013-14 NBA Schedule and Results 2.2013年 NBA 赛季排名情况 参考书籍:<Python数据挖掘入门与实践> 1.加载数据集: ...

  7. Python数据挖掘入门与实践 彩图 pdf

    下载地址:网盘下载 内容简介  · · · · · · 本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识.基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅.本书采用理论与实践相结 ...

  8. 数据挖掘入门读物《Python数据挖掘入门与实践》豆瓣评分[7.70]

    好书推荐.视频分享,公众号"读书ReadBook"与您一起进步 下载地址-- 1.点击阅读原文或者地址 https://ebooklist.mobi/2019/05/20/6465 ...

  9. python 数据挖掘 简书_[Python数据挖掘入门与实践]-第一章开启数据挖掘之旅

    1.数据挖掘简介(略) 2.使用Python和IPython Notebook 2.1.安装Python 2.2.安装IPython 2.3.安装scikit-learn scikit-learn是用 ...

最新文章

  1. 报错解决:usr/bin/ld: output.o: relocation R_X86_64_32 against `.rodata.str1.1' can not be used when maki
  2. 让你的PHP更安全之PHP.ini
  3. 计算机系统基础:输入输出技术知识笔记
  4. 计算机二级的笔记,我的笔记全国计算机等级考试二级教程
  5. 大数据之Hive教程
  6. 递归列出文件下的文件信息,迭代器
  7. laravel mysql注入_PHP 项目中单独使用 Laravel Eloquent 查询语句来避免 SQL 注入
  8. 柏林纪行(中):Node.js Collaboration Summit
  9. mysql之 OPTIMIZE TABLE整理碎片
  10. 论文降重神器,一键毕业,真香!错过就后悔一整年的论文降重指南
  11. 汉字区位码---非常浅显的知识点
  12. Python 文字转语音(TTS)
  13. 中标麒麟使用centos源_中标麒麟操作系统使用笔记
  14. P1782 旅行商的背包[混合背包,优化,数据大]
  15. EfficientNet介绍
  16. 2020java面试总结
  17. repost 双非本科到腾讯的编程奋斗之路
  18. 劳动法 第四章 工作时间和休息休假
  19. PHP文件包含漏洞利用思路与Bypass总结手册(一)
  20. 客户需求文档 MRD 和项目需求分析文档

热门文章

  1. Facebook统计事件接入及广告关联
  2. 箭线图六时标注法计算步骤
  3. ppt素材计算机基础知识,计算机基础知识幻灯片课计算机基础知识ppt件.ppt
  4. 如何看论文信息(期刊会议,引用数,期刊等级,会议层次)
  5. 随机过程笔记:2.谱分析
  6. 应广单片机长按开关机_单片机单键开关机电路,模仿手机电源键功能 - 实现长按开机、长按关机、轻触开关锁屏...
  7. 【电子小知识】如何识别数字语音IC的脚位
  8. 【夏虫语冰】Office操作技巧汇总
  9. 16 年云存储历程,亚马逊云科技如何应对数据存储挑战
  10. IE11 死活无法加载OCX控件