https://www.toutiao.com/a6651193860733010439/

2019-01-27 23:59:35

在网上搜罗了几个小时,为高质量和多样化的机器学习数据集创建了一个很好的备忘单。

首先,在搜索数据集时要记住几点。根据卡内基梅隆大学的说法。

数据集不应该是混乱的,因为您不希望花费大量时间来清理数据。

数据集不应包含太多行或列,因此很容易使用。

数据越干净越好 - 清理大型数据集可能非常耗时。

应该有一个有趣的问题,而这个问题又可以用数据来回答。

数据集查找器

Kaggle:https://www.kaggle.com。一个包含各种外部贡献的有趣数据集的数据科学网站。你可以在它的各种相关主题数据集的主列表,从拉面评级至篮球数据到甚至西雅图的宠物许可证。

UCI机器学习库:http://mlr.cs.umass.edu/ml/。Web上最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的。您可以直接从UCI机器学习库下载数据,无需注册。

一般数据集

公共政府数据集

Data.gov:https://www.data.gov/。该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意:大部分数据需要进一步研究。

Food Environment Atlas:https://catalog.data.gov/dataset/food-environment-atlas-f4a22。 食物环境地图集:包含当地食物选择如何影响美国饮食的数据。

School system finances:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances。美国学校系统财务:对美国学校系统财务状况的调查。

慢性病数据:https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9。美国各地区慢性病指标数据。

美国国家教育统计中心:https://nces.ed.gov/。来自美国和世界各地的教育机构和教育人口统计数据。

英国数据服务:https://www.ukdataservice.ac.uk/。英国最大的社会,经济和人口数据集。

Data USA:http://datausa.io/。美国公共数据的全面可视化。

金融与经济

Quandl:https://www.quandl.com/。经济和金融数据的良好来源 - 有助于建立预测经济指标或股票价格的模型。

世界银行开放数据:https://data.worldbank.org/。涵盖全球人口统计数据,大量经济和发展指标的数据集。

国际货币基金组织数据:https://www.imf.org/en/Data。国际货币基金组织公布有关国际金融,债务利率,外汇储备,商品价格和投资的数据。

金融时报市场数据:https://markets.ft.com/data/。来自世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。

谷歌趋势:https://trends.google.com/trends/。检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

美国经济协会(AEA):https://www.aeaweb.org/resources/data/us-macro-regional。寻找美国宏观经济数据的良好来源。

机器学习数据集

图片

Labelme:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php。带注释图像的大型数据集。

ImageNet:http://image-net.org/。根据WordNet层次结构组织的新算法的事实上的图像数据集,其中成千上万的图像描绘了层次结构的每个节点。

LSUN:http://lsun.cs.princeton.edu/2017/。场景理解与许多辅助任务(房间布局估计,显着性预测等)

MS COCO:http://mscoco.org/。通用图像理解和字幕。

COIL100 :http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php。在360度旋转的每个角度拍摄100个不同的物体。

Visual Genome视觉基因组:http://visualgenome.org/。非常详细的视觉知识库,带有~100K图像的字幕。

Google Open Images谷歌的开放图像:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html。在知识共享下,有900万个图像的网络集合“已经注释了超过6,000个类别的标签”。

Labelled Faces in the Wild野外标记面:http://vis-www.cs.umass.edu/lfw/。13,000张人脸标记图像,用于开发涉及面部识别的应用程序。

Stanford Dogs Dataset:http://vision.stanford.edu/aditya86/ImageNetDogs/。包含20,580张图像和120种不同的犬种。

Indoor Scene Recognition:http://web.mit.edu/torralba/www/indoor.html。一个非常特殊的数据集,非常有用,因为大多数场景识别模型都更好“在外面”。包含67个室内类别和15620个图像。

Got-10k:http://got-10k.aitestunion.com/。中科院发布的目标追踪数据集,包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成560多个类别。物体的边界框全部是手动标记,总计超过150万个。

视频加载中...

MNIST:http://yann.lecun.com/exdb/mnist/。是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

情感分析

多域情绪分析数据集2.0:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/。一个稍微较旧的数据集,其中包含来自亚马逊的产品评论。

IMDB评论:http://ai.stanford.edu/~amaas/data/sentiment/。用于二元情绪分类的较旧的,相对较小的数据集具有25,000个电影评论。

Stanford Sentiment Treebank斯坦福情感树库:http://nlp.stanford.edu/sentiment/code.html。具有情感注释的标准情绪数据集。

Sentiment140:http://help.sentiment140.com/for-students/。一个流行的数据集,它使用160,000条预先删除表情符号的推文。

Twitter美国航空公司情绪:https://www.kaggle.com/crowdflower/twitter-airline-sentiment。2015年2月美国航空公司的Twitter数据,分类为正面,负面和中性推文

自然语言处理

Enron Dataset:https://www.cs.cmu.edu/~./enron/。来自安然高级管理层的电子邮件数据,组织成文件夹。

亚马逊评论:https://snap.stanford.edu/data/web-Amazon.html。包含来自亚马逊的大约3500万条评论,涵盖18年。数据包括产品和用户信息,评级和明文审核。

Google Books Ngrams:https://aws.amazon.com/datasets/google-books-ngrams/。来自Google图书的一系列文字。

Blogger Corpus:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm。收集来自blogger.com的681,288篇博客文章。每个博客至少包含200个常用英语单词。

维基百科链接数据:https://code.google.com/p/wiki-links/downloads/list。维基百科的全文。该数据集包含来自400多万篇文章的近19亿个单词。您可以按段落,短语或段落本身的一部分进行搜索。

Gutenberg电子书列表:http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs。Project Gutenberg的电子书注释列表。

Hansards发表了加拿大议会的大量文章:http://www.isi.edu/natural-language/download/hansard/。来自第36届加拿大议会记录的130万对文本。

Jeopardy:http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/。来自测验节目Jeopardy的超过200,000个问题的归档。

英语短信垃圾邮件收集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/。由5,574条英文短信垃圾邮件组成的数据集

Yelp评论:https://www.yelp.com/dataset。Yelp发布的一个开放数据集,包含超过500万条评论。

UCI的Spambase:https://archive.ics.uci.edu/ml/datasets/Spambase。一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

自动驾驶

Berkeley DeepDrive BDD100k:http://bdd-data.berkeley.edu/。目前是自动驾驶AI的最大数据集。包含超过100,000个视频,包括一天中不同时段和天气条件下超过1,100小时的驾驶体验。带注释的图像来自纽约和旧金山地区。

百度Apolloscapes:http://apolloscape.auto/。大型数据集,定义了26种不同的语义项目,如汽车,自行车,行人,建筑物,路灯等。

Comma.ai:https://archive.org/details/comma-dataset。超过7小时的高速公路驾驶。细节包括汽车的速度,加速度,转向角和GPS坐标。

牛津的机器人汽车:http://robotcar-dataset.robots.ox.ac.uk/。在英国牛津的相同路线重复超过100次,在一年的时间内完成。该数据集捕获了天气,交通和行人的不同组合,以及建筑和道路工程等长期变化。

城市景观数据集:https://www.cityscapes-dataset.com/。一个大型数据集,记录50个不同城市的城市街景。

CSSAD数据集:http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset。此数据集可用于自动驾驶车辆的感知和导航。数据集严重偏向发达国家的道路。

KUL比利时交通标志数据集:http://www.vision.ee.ethz.ch/~timofter/traffic_signs/。比利时法兰德斯地区数千个物理上不同的交通标志,有超过10000多个交通标志注释。

MIT AgeLab:http://agelab.mit.edu/data-studio。在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

LISA:http://cvrr.ucsd.edu/LISA/datasets.html。智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。

2019年用于机器学习的50个最佳公共数据集相关推荐

  1. 机器学习的 50 个最佳免费数据集

    转载以保存,来源:https://gengo.ai/datasets/the-50-best-free-datasets-for-machine-learning-zh/ 用于机器学习的开放数据集有哪 ...

  2. 【机器学习】50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  3. 2019年Reddit机器学习板块17个最佳项目:最新代码、资源应有尽有

    晓查 发自 亚龙湾  量子位 报道 | 公众号 QbitAI 2019年即将过去.国外最热论坛Reddit的机器学习板块,也为大家提供了一个优秀的学习讨论场所. 那么,在过去的一年Reddit上关注度 ...

  4. 2019年用于自动化的5个最佳Java测试框架

    几十年来,Java一直是开发应用程序服务器端层的首选编程语言. 尽管JUnit一直在与开发人员一起帮助他们进行自动化的单元测试,但是随着时间的推移和测试的发展,当自动化测试不断增长时,已经开发了许多基 ...

  5. 机器学习和数据科学的最佳公共数据集

    作者|Towards AI Team 编译|Flin 来源|medium 此资源不断更新.如果你知道任何其他合适且开放的数据集,请通过电子邮件通知我们:pub@towardsai.net 或者在下面发 ...

  6. 机器学习和数据科学的最佳公共数据集机器学习、数据科学、情感分析、计算机视觉、自然语言处理 (NLP)、临床数据等的最佳公共数据集。

    数据集查找器 Google 数据集搜索   Google 数据集搜索Google 数据集搜索:与Google Scholar的工作方式类似,数据集搜索可让您在托管数据集的任何地方查找数据集,无论是出版 ...

  7. Machine Learning 和 Data Science 的最佳公共数据集

    什么是机器学习的最佳数据集?本文整理了一个高质量.多样化的机器学习数据集榜单. AUTHORS: Stacy Stanford, Machine Learning Memoirs Inc. Rober ...

  8. 50个最佳机器学习公共数据集

    背景介绍: 说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算.大数据等,渗透到我们的生活.工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅 ...

  9. 最强数据集集合:50个最佳机器学习公共数据集

    最强数据集集合:50个最佳机器学习公共数据集 https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA 原作 mlmemoirs  郭一璞 编译  量子位 报 ...

最新文章

  1. php访问数组用引号_php双引号中访问数组元素报错如何解决
  2. 自然语言处理顶会 ACL 2018 参会见闻
  3. chattterbot配合UbuntuCorpusTrainer使用
  4. hdu-4451-Dressing
  5. C 语言和C++语言的 struct对比
  6. python3 Crypto使用出现的问题
  7. 数字图像处理实验5图像复原
  8. 嘉善 机器人比赛_电脑机器人比赛辅导教师培训在浙师大嘉善附校举行
  9. Java Micro services: 传送唯一标识(request id)在Hessian call, rest API,JMS和Thread之间
  10. 让本地网络与微软windows azure互通
  11. 数据挖掘:原理与实践(基础篇)(进阶篇)
  12. mysql外键 菜鸟教程_MySQL 菜鸟入门“秘籍”
  13. android 类似qq表情,android 实现类似qq表情
  14. linux为mysql创建gpower_mysql在linux下的安装
  15. Mac下Zookeeper安装及配置
  16. 白蛋白纳米-超声微泡载组织型纤溶酶原激活物基因靶向制备研究
  17. Nature重磅:AI直接从大脑中合成脑电波
  18. 7、快速更改subclass颜色
  19. 电子学会2023年3月青少年软件编程python等级考试试卷(四级)真题,含答案解析
  20. 差分数组分析详解+例题

热门文章

  1. 网络工程师的工作职责
  2. win1064位机利用DOSBOX进行8086宏汇编
  3. win10系统无法安装CAD2008的解决方案
  4. python三维图形等高线_三维直方图和等高线图Python
  5. webpack2--tidying up
  6. 使用puppeteer进行模拟访问时,浏览器、页面卡住不动的问题
  7. Apace安装——无脑版(内涵下载链接)
  8. DWR(Direct Web Remoting)原理和实例
  9. 债券:几个重要知识点
  10. intel_reasense_r200 exploitation开发