编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网(公众号:雷锋网)整理编译的 17 个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你。

菜鸟入门

1. Iris 数据集

在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。

典型问题:在可用属性基础上预测花的类型。

2. 泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有 12 列 891 行。

典型问题:预测泰坦尼克号上生还的幸存者人数。

3. 贷款预测数据集

在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有 13 列 615 行。

典型问题:预测贷款申请能否得到批准。

4. 大市场销售数据集

零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有 12 列 8523 行。

典型问题:预测销售情况。

5. 波士顿数据集

该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有 14 列 8506 行。因此,即使你手上的笔记本电脑性能较弱也能 Hold 住该数据集。

典型问题:预测房屋售价的中间值。

进阶级别

1. 人类活动识别

该数据集是由 30 个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有 561 列 10299 行。

典型问题:预测人类活动的类别。

2. “黑五”数据集

该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有 12 列 550069 行。

典型问题:预测消费者购物量。

3. 文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题,雷锋网了解到它共有 30438 列 21519 行。

典型问题:根据标签为文档分类。

4. 访问历史数据集

该数据即来源于美国的一个单车分享服务,想掌握它,你必须拥有专业的数据整理技巧。该数据集 2010 年第四季度开始每季度都会总结出一个新文档,每个文档则拥有 7 列。它属于典型的分类问题。

典型问题:预测用户的类型。

5. 百万歌曲数据集

是不是觉得很新奇,原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题,它包括 515345 个观察值和 90 个变量。不过,这还只是百万首歌曲数据库中的一个小子集。

典型问题:预测发行歌曲的最佳年份。

6. 人口收入数据集

该数据集属于非平衡数据分类和机器学习问题。众多周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有 14 列 48842 行。

典型问题:预测美国人的收入阶层。

7. 电影镜头数据集

利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它数据相当庞大,共有 4000 部电影和 6000 多位用户发出的超过 100 万个评分。

典型问题:为用户推荐新电影。

老司机级别

1. 数字定义数据集

该数据集能让你学习、分析并认识图片中的各种元素,它就是相机中图片和面部识别的技术基础。该数据技术与数字识别问题,共有 28x28 大小的图片 7 千张,大小为 31MB。

典型问题:在图片中定义数字。

2. Yelp 数据集

该数据集诞生于著名的 Yelp 数据集挑战赛第 8 轮。它由 20 万张图片组称,3 个 json 文档的大小都达到了 2 GB。这些图片包含了 4 个不同国家 10 大城市本地企业的信息,你需要通过文化、季节、数据挖掘、社交图挖掘和类别推断等方式来洞察复杂的数据。

典型问题:从图片中找亮点。

3. ImageNet 数据集

ImageNet数据集可以运用在多种问题中,包括目标检测、定位、分类和屏幕解析。眼下,其图片引擎中共有 1419 万多张图片,容量达到了 140GB ,你可以任选图片并围绕其打造自己的项目。

典型问题:问题的解决要围绕下载的图片展开。

4. KDD 1999 数据集

说到数据集,KDD Cup 这一大名可不能不提,它是世界上首个国际知识发现和数据挖掘竞赛。KDD 1999 数据集属于分类问题,它共包含 48 列和 400 万行,文档体积约为 1.2GB 。

典型问题:判断网络入侵探测器是否完成了任务。

5. 芝加哥犯罪数据集

如今,能否 Hold 住大型的数据集已经是检验数据专家是否合格的试金石了。许多数据分析公司不再依靠简单的模型,它们开始使用完整的数据。通过该数据集,你能掌握大量在自己电脑上分析大型数据集的经验。想解决这一问题不难,但学会数据管理并不容易。芝加哥犯罪数据集中共有 600 万个观察值,属于典型的多标记分类问题。

典型问题:预测犯罪的类型。

via  Analytics Vidhya

推荐阅读:

干货 | 如何从零学习人工智能?最好的资源都在这里了

神经网络初学者指南:基于Scikit-Learn的Python模块

本文作者:大壮旅

本文转自雷锋网禁止二次转载,原文链接

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐相关推荐

  1. 从菜鸟到老司机,数据科学的17个必用数据集推荐

    数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼.以下是雷锋网整理编译的 17 个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你. ...

  2. 老司机写的java代码_菜鸟 or 老司机?写段代码看看吧

    有的小伙伴可能用Python写代码已经非常久了,可能觉得已经是个高手了,那么看看下面这个简单的实现需求,你会写怎样的Python代码呢?通过你写的代码,应该可以大约评估下你到底是菜鸟还是一个老司机了, ...

  3. 菜鸟如何看懂python代码_是菜鸟 or 老司机?亮一段代码看看

    有的小伙伴可能用Python写代码已经非常久了,可能觉得已经是个高手了,那么看看下面这个简单的实现需求,你会写怎样的Python代码呢?通过你写的代码,应该可以大约评估下你到底是菜鸟还是一个老司机了, ...

  4. 简洁的留言代码_这几段代码,测测你是 Python 菜鸟还是老司机

    这段话被称作"Python 之禅"(The Zen of Python),它列举了一些 Python 所推崇的理念,比如: 优美胜于丑陋 明确胜于隐晦 简单胜于复杂 - 可读性很重 ...

  5. ​数据科学中 17 种相似性和相异性度量

    本文解释了计算距离的各种方法,并展示了它们在我们日常生活中的实例.限于篇幅,便于阅读,将本文分为上下两篇,希望对你有所帮助. "There is no Royal Road to Geome ...

  6. 数据科学 IPython 笔记本 7.10 组合数据集:合并和连接

    7.10 组合数据集:合并和连接 原文:Combining Datasets: Merge and Join 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学手册 ...

  7. 数据科学 IPython 笔记本 7.9 组合数据集:连接和附加

    7.9 组合数据集:连接和附加 原文:Combining Datasets: Concat and Append 译者:飞龙 协议:CC BY-NC-SA 4.0 本节是<Python 数据科学 ...

  8. 数据科学导引——各国幸福指数聚类数据集的分析

    各国幸福指数聚类数据集的分析 注:这里能不粘贴截图的我将不会粘贴截图,因为复制到学习通提交的时候我这边还要再弄一次图很麻烦,但是没数据谢老师又不能直观的看到. 1.观察数据 各国幸福指数数据集的介绍: ...

  9. 数据科学|运筹学(OR)数据集介绍

    作者:留德华叫兽 王源 门泊东吴 周岩 运筹学研究和AI研究一样,也需要一些实际场景的实验来验证算法的有效性,但是目前运筹学数据并没有像AI社区中那样丰富.有哪些开放的数据集可以供我们使用呢?本文来带 ...

最新文章

  1. io在Linux,在Linux进行IO的正确姿势
  2. 复杂性理论研究的核心问题是什么
  3. 黑盒之嵌入式操作系统鲁棒性研究
  4. Addr、@运算符与Pointer类型
  5. 通过福禄克FI-7000光纤显微摄像机进行光纤端面清洁
  6. java中的常用日期类_Java中的常用日期类说明
  7. [html] 用一个div模拟textarea的实现
  8. java dataurl_FileReader生成图片dataurl的分析
  9. 华人团队再获ACL最高奖,这次来自字节跳动的NLP基础研究
  10. IKM-Java SE 8评估测试题挑战,测测你的基础水平
  11. CocosBuilder 完全攻略
  12. python中对文件的操作总结
  13. 浅谈Unity中的文字显示
  14. JAVA—— MySQL高级(二)
  15. java+ssm驾校管理教练用户驾校系统@ssm
  16. 【长期更新】日常学习中遇到的知识点
  17. 什么是Socks5代理?
  18. python 截取视频片段
  19. 【操作系统】30天自制操作系统--(9)叠加处理
  20. 软通动力新员工转正考试-新员工转正考试题

热门文章

  1. 怎么区分辨别狗狗是否哮喘?
  2. Excel固定第一行表头——冻结窗口
  3. 湖北省农村生活污水处理方案出炉,助推乡村生态振兴
  4. 维度表、事实表、宽表
  5. u-boot 编译,调试及技巧
  6. Pytorch 保存和加载模型
  7. NCL基本语法(二)
  8. php 统计下载次数,Dedecms下载次数真实统计的实现方法
  9. 【论文笔记】Spatiotemporal Residual Networks for Video Action Recognition
  10. SSH总结—送给这个做残了的项目