在数据分析、挖掘方面,有哪些好书值得推荐?

消费者行为学 (第8版·中国版)
推荐这本书,其实没有计算机前就有数据分析和数据挖掘了。
套用一句最近比较时髦的话,搞数据分析、数据挖掘要接地气。
你分析、挖掘出来的东西,很可能是业务常识,不要过于沉迷于算法。
专门搞挖掘算法的是机器学习。

2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下。

入门读物:

  1. 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
  2. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
  3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
  4. 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!

数据分析:

  1. SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
  3. Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。

适合入门的教程:

  1. 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
  2. Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
  4. 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。

稍微专业些的:

  1. Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
  2. Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
  4. 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!

机器学习教材:

  1. The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
  2. 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
  3. Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
  4. Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
  5. Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
  8. Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。

数据分析和挖掘有哪些公开的数据来源?

除了自己收集数据,有没有比较合适的公开数据源,用来做一些数据分析和挖掘实例。
  • UCI是最经典的,不过也比较古老
  • 数据堂最近异军突起,非常值得称赞
  • 国外还有一些网站,比如http://mlcomp.org/,http://mldata.org/你可以看看
  • 另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的
  • 最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下
  • http://www.delicious.com/pskomoroch/dataset这个是delicious上面一个人搜集的数据集网站书签,比较杂,或许你能找到你所要的(话说delicious改版之前这个里面的内容比现在的多多了)
  • 再有就是看具体的做的内容,然后看相关学者都用什么数据集,除了LDC那种变态组织,其他很多数据都可以通过track论文中的信息或者是作者主页上的信息下载到的
  • 做数据挖掘和数据分析都是针对某一个领域或者问题去做,其实也看那个领域会不会有开放的心态去公开数据,前两年在Hans Rosling老先生在TED上公开呼吁之后,很多机构,包括联合国都公开了自己的数据

补充,在quora上面看到一个问题中的答案涉及这个问题,那个更加全面 http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

《数据挖掘的数据集资源》
大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:http://www.kdnuggets.com/datasets/
还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/ ,里面包含的数据资源如下(按应用领域划分):
Direct Marketing
KDD CUP 1998 Data
GIS
Forest CoverType
Indexing
Corel Image Features
Pseudo Periodic Synthetic Time Series
Intrusion Detection
KDD CUP 1999 Data
Process Control
Synthetic Control Chart Time Series
Recommendation Systems
Entree Chicago Recommendation Data
Robots
Pioneer-1 Mobile Robot Data
Robot Execution Failures
Sign Language Recognition
Australian Sign Language Data
High-quality Australian Sign Language Data
Text Categorization
20 Newsgroups Data
Reuters-21578 Text Categorization Collection
NSF Research Awards Abstracts 199 0-2003
World Wide Web
Microsoft Anonymous Web Data
MSNBC Anonymous Web Data
Syskill Webert Web Data
转:http://blogger.org.cn/blog/more.asp?name=DMman&id=24043
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b
2、几个实用的测试数据集下载的网站
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
你也可以到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017
察看kdnuggets 数据集资源的详细介绍。
数据挖掘相关比赛以及数据集
2005 University of California data mining contest , predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.
· ILP 2005 Challenge , on the prediction of functional classes of genes.
· KDD Cup 2005 , on classifying internet user search queries, deadline July 8.
· Data Mining Cup 2005 (Chemnitz, Germany) , for students; topic: How data mining can ascertain the risk of loss of payments and reduce this risk.
· KDD Cup 2004 , focuses on data-mining for a several performance criteria using datasets from bioinformatics and quantum physics.
· InfoVis 2004 Contest , The History of InfoVis.
· DATA MINING CUP 2004 (Chemnitz, Germany) , for students.
· InfoVis 2003 Contest: Visualization and Pair Wise Comparison of Trees , results announced Sep 5, 2003.
· KDD Cup 2003 , focuses on problems motivated by network mining and the analysis of usage logs.
· DATA MINING CUP 2003 (Chemnitz, Germany) . The task is to identify spam emails before they reach the user′s mailbox.
· KDD Cup 2002 , focus on data mining in molecular biology.
· Student Data Mining Cup (2002) , Chemnitz University and Prudential Systems.

李直,关注大数据

TT biucb、Leben Pung、萧泰熀 等人赞同
Quora上有人问过类似的问题:Where can I get large datasets open to the public? 
问题链接:http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
该页面的Answer Wiki列举了数十个数据来源,现在搬运如下:

Cross-disciplinary data repositories, data collections and data search engines:

  • http://aws.amazon.com/datasets
  • http://databib.org
  • http://datacite.org
  • http://figshare.com
  • http://linkeddata.org
  • http://reddit.com/r/datasets
  • http://thedatahub.org alias http://ckan.net

Single datasets and data repositories

http://archive.ics.uci.edu/ml/
http://crawdad.org/
http://data.austintexas.gov
http://data.cityofchicago.org
http://data.govloop.com
http://data.gov.uk/
http://data.medicare.gov
http://data.seattle.gov
http://data.sfgov.org
http://data.sunlightlabs.com
https://datamarket.azure.com/
http://developer.yahoo.com/geo/g...
http://econ.worldbank.org/datasets
http://en.wikipedia.org/wiki/Wik...
http://factfinder.census.gov/ser...
http://ftp.ncbi.nih.gov/
http://gettingpastgo.socrata.com
http://googleresearch.blogspot.c...
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://public.resource.org/
http://rechercheisidore.fr
http://snap.stanford.edu/data/in...
http://timetric.com/public-data/
https://wist.echo.nasa.gov/~wist...
http://www2.jpl.nasa.gov/srtm
http://www.archives.gov/research...
http://www.bls.gov/
http://www.crunchbase.com/
http://www.dartmouthatlas.org/
http://www.data.gov/
http://www.datakc.org
http://dbpedia.org
http://www.delicious.com/jbaldwi...
http://www.factual.com/
http://research.stlouisfed.org/f... 
http://www.freebase.com/
http://www.google.com/publicdata...
http://www.guardian.co.uk/news/d...
http://www.infochimps.com
http://www.kaggle.com/
http://build.kiva.org/
http://www.nationalarchives.gov....
http://www.nyc.gov/html/datamine...
http://www.ordnancesurvey.co.uk/...
http://www.philwhln.com/how-to-g...
http://www.imdb.com/interfaces
http://imat-relpred.yandex.ru/en...
http://www.dados.gov.pt/pt/catal...
http://knoema.com
http://daten.berlin.de/
http://www.qunb.com
http://databib.org/
http://datacite.org/Edit

数据分析、挖掘方面,有哪些好书值得推荐相关推荐

  1. python数据分析经典书籍有哪些_数据分析有哪些好书值得推荐?

    原标题:数据分析有哪些好书值得推荐? 1.统计学书单 如果你打开招聘的职位要求,都会要求具有统计学的知识,这是因为统计学是数据分析.机器学习的基础知识,是必须要学习的. 推荐理由:很多人感到统计学无聊 ...

  2. 【知乎强大书单】在数据分析、挖掘方面,有哪些好书值得推荐?

    入门读物: 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分.难易程度:非常易. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子.难易程度 ...

  3. 在数据分析、挖掘方面,有哪些好书值得推荐?

    https://www.zhihu.com/question/20757000 知乎上的,可以看看...

  4. python数据分析书单排行_数据分析有哪些好书值得推荐?

    1.统计学书单 如果你打开招聘的职位要求,都会要求具有统计学的知识,这是因为统计学是数据分析.机器学习的基础知识,是必须要学习的. 推荐理由:很多人感到统计学无聊,是因为从一开始就没有明白学习这门课的 ...

  5. 数据分析有哪些好书值得推荐?

    1.统计学书单 如果你打开招聘的职位要求,都会要求具有统计学的知识,这是因为统计学是数据分析.机器学习的基础知识,是必须要学习的. 推荐理由:很多人感到统计学无聊,是因为从一开始就没有明白学习这门课的 ...

  6. 人工智能有哪些好书值得推荐?

    了解人工智能,30份书单不容错过(附电子版PDF下载) 关注公众号[飞马会]回复数字"4",查看获取资料方式 或者添加微信小助手:feimawang001  进行获取 机器学习 & ...

  7. 在大数据分析/挖掘领域,哪些编程语言应用最多?

    Tim Roy  ,原来我也在这里 9 人赞同 更新一下答案-- 之前我提到用R,后来我自己也觉得有点撑不住,应该是技术不行吧.还是建议往Python方向发展. Python不局限于数据分析,还有许多 ...

  8. 自学管理学有哪些书籍值得推荐?

    自学管理学有哪些书籍值得推荐? 首先,要摆正的一个观念是,自学管理学并非很多人想象中的那么难,其实还是挺简单的一件事儿(只要你有恒心和一定的毅力). 其次,对于「如何自学管理学」这个问题,我推荐你从阅 ...

  9. 商业模式有哪些好书?有哪些商业模式方面的书籍值得推荐?

    商业模式有哪些好书?有哪些商业模式方面的书籍值得推荐? 在笔者看来,有关商业模式方面的书籍最值得的推荐的就是来自12Reads的<商业模式必读12篇>了. 要说经典恐怕没有比这本书更经典的 ...

最新文章

  1. Mybatis集成二级缓存与同时使用缓存与事务存在的坑
  2. MySQL在创建索引之前一定要想到的事情
  3. caffe读书笔记1 CIFAR-10在caffe上进行训练与学习
  4. 创建oracle dblink权限不足,Oracle-存储过程-创建sequence的时候报权限不足
  5. Linux集群服务 LVS
  6. OpenCV的Python接口
  7. python 列表间隔取值_python list数据等间隔抽取并新建list存储的例子
  8. python3 shutil模块
  9. macos mysql8_macOS + MySql8 问题
  10. asp.net web开发步骤_如何在Windows上做Python开发?微软出了官方教程
  11. lightning接口_苹果、安卓充电接口有望统一,欧盟重压下,苹果将不得不妥协
  12. xshell中进入PLSQL命令不能使用方向键和退格键的做法(输入后显示乱码)
  13. bash脚本运行报错问题原因及解决方法
  14. 【绝密外泄】风哥Oracle数据库DBA高级工程师培训视频教程与内部资料v0.1
  15. 数据结构c语言课程设计报告,数据结构c语言课程设计报告.doc
  16. Learn OpenCV之Convex Hull
  17. js闭包循环原因_「js基础」JavaScript入门,难不难你来说
  18. Photoshop CC 2017安装
  19. asp.net mvc 实现判断用户是否登录的两种方式
  20. 自动驾驶创业方向有变化?如何突破技术瓶颈?

热门文章

  1. 数十倍的数据量增长,传统 OLAP 还能应对吗?
  2. linux部署项目报错java.sql.SQLSyntaxErrorException: Table ‘xxx‘ doesn‘t exist
  3. PyQt5最全32 日历之QCalendarWidget日历控件
  4. 项目里程碑是什么?为何如此重要?
  5. 羿先生的学习笔记[6]: 规约(Specification)
  6. CUDA----规约
  7. 【WebRTC 02】从摄像头获取视频以及切换分辨率和视频源
  8. 优秀有价值的程序员需要博客收藏列表(持续更新)
  9. Hi35XXX海思媒体处理平台架构介绍.
  10. 测试驱动开发系列之五--测试的模式与反模式