如今的我们,淹没在大数据的海洋中,却又忍受着因没有数据而导致的饥渴。很多人都想做大数据研究,但数据在哪里呢?数据不再是“资源”,而是变成了一种重要“资产”。

—— 摘自《数据科学理论与实践》

除了利用网络爬虫收集数据、数据生成和存储部门的供给之外,我们还可以通过以下方式获得大数据(在每一类途径之下给出了代表性数据集):

1政府开放数据

  • 美国政府开放的数据集 :https://www.data.gov/

  • 美国交通事故数据集:https://www-fars.nhtsa.dot.gov/Main/index.aspx

  • 美国空气质量数据集:http://aqsdr1.epa.gov/aqsweb/aqstmp/airdata/download_files.html

  • 印度政府公开的数据:data.gov.in(https://data.gov.in/)

  • 英国政府公开的数据集:https://data.gov.uk/

2企业或公益组织

  • Amazon Web Services (AWS) datasets:(https://aws.amazon.com/datasets/

  • Google datasets:https://cloud.google.com/bigquery/public-data/

  • Youtube labeled Video Dataset:https://research.google.com/youtube8m/

  • NASA:https://data.nasa.gov/

  • 世界银行:http://www.shihang.org/

  • 纽约出租车:http://chriswhong.github.io/nyctaxi/

3大数据竞赛平台

  • Kaggle:https://www.kaggle.com/datasets

  • Past KDD Cups:http://www.kdd.org/kdd-cup

  • Driven Data:https://www.drivendata.org/

4机器学习领域经典数据集

  • UCI:https://archive.ics.uci.edu/ml/datasets.html

  • Delve Datasets: http://www.cs.toronto.edu/~delve/data/datasets.html

5统计学领域经典数据集

  • 统计学领域论文、学术期刊、著名图书中的数据集

  • 各类统计年鉴

  • 统计数据库

6其他

  • R包中的数据集,如nycflights13

本文授权转自:数据科学DataScience;

END

如果你对人工智能与机器学习感兴趣,请加交流群:群号:139482724 ;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

强烈推荐:如何找到免费大数据,获取相关数据相关推荐

  1. Zabbix如何通过ODBC对接Oracle获取相关数据

    转载来源 :https://mp.weixin.qq.com/s/PNl3c8frgqIYjDnVsQALHA 目 录 什么是ODBC及其主要功能 安装Oracle-instantclient 配置S ...

  2. mysql往前一天同一时间_Mysql时间轴数据 获取同一天数据的前三条

    创建表数据 CREATE TABLE `praise_info` ( `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'ID', `pic_id` va ...

  3. 05-使用Redis缓存数据,管理员相关数据表

    文章目录 使用Redis缓存数据 管理员相关数据表 使用Redis缓存数据 使用Redis可以提高查询效率,一定程度上可以减轻数据库服务器的压力,从而保护了数据库. 通常,应用Redis的场景有: 高 ...

  4. Python课程设计大作业:获取比赛数据并进行机器学习智能预测NBA的比赛结果

    前言 该篇是之前遗漏的大三上的Python课程设计.刚好今天有空就补发了一篇文章.全部的代码在最后附录中.爬虫类的代码直接全部放到一起了,读者可以自行研究.百度网盘可以私聊我进行获取. 一.课程设计项 ...

  5. python数据分析推荐课程_关于大数据分析的相关课程推荐

    警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的.在上一篇文章<摩拜单车非官方大数据分析>中提到了我在春节期间对摩拜单车的数据分析,在后面的系列文章中我将进一步的阐述我的爬虫是如何 ...

  6. 对豆瓣进行爬虫来获取相关数据(分别保存到Excel表格和sqlite中)

    1.存入Excel表格的代码: from bs4 import BeautifulSoup #网页解析,获取数据 import re #正则表达式,进行文字匹配 import urllib.reque ...

  7. 非因推荐 | 肿瘤微环境研究大剖析——肿瘤相关巨噬细胞

    肿瘤微环境研究大剖析--肿瘤相关巨噬细胞 肿瘤免疫微环境是肿瘤与宿主免疫系统之间竞争博弈的主战场,肿瘤微环境(TME)中各种细胞之间的相互作用造成免疫细胞具有依赖于TME的双重作用,并决定肿瘤相关免疫 ...

  8. 做行业研究时如何获取相关数据?

    1. 官方渠道 国家统计局 中国政府网 工信部 中经网 2. 第三方数据公司 咨询公司 研究所 IDC数据公司 iResearch艾瑞咨询深入互联网及电信相关领域研究成果,融合更多行业资源http:/ ...

  9. React AntV/G2Plot环形图Pie添加点击事件,即点击图环触发获取相关数据。

    步骤: 1.添加相关依赖,引入AntV/G2Plot图表组件 2.添加配置项 3.添加点击事件方法(关键部分:在onReady={onReadyPie},onReady是图表渲染完成执行回调方法,在该 ...

最新文章

  1. 数据通信技术(十一:无中继的DHCP配置(ZTE))
  2. 洛谷P4768 [NOI2018]归程(Kruskal重构树)
  3. seo高手已经掌握的秒收教程
  4. Mybatis的第三章动态sql总结
  5. xmlstreamexception 参数实体未进行声明_命名实体识别研究进展概述
  6. snippets vscode 配置_VSCode 利用 Snippets 设置超实用的代码块
  7. linux perl模块检测,Linux有问必答:如何用Perl检测Linux的发行版本
  8. iframe异步加载技术及性能
  9. 【体系结构】Oracle的kernel.shmmax和kernel.shmall设置
  10. osea/ 5.0-6.0
  11. SpringBoot+Vue实现前后端分离的实习管理系统
  12. 严师出高徒VS名师出高徒
  13. 数学笔记25——弧长和曲面面积
  14. 5000元档投影仪挑选指南,当贝F3与极米H3两款旗舰级投影到底怎么选?
  15. Harmony鸿蒙开发 四、Ability的生命周期
  16. 解决阿里云远程桌面蓝屏、黑屏
  17. 【转】最大后验概率(MAP)- maximum a posteriori
  18. Direct3D(D3D)简介
  19. 学术会议 Rebuttal 模板资料留存
  20. Aura component cache clear set

热门文章

  1. PPT 技巧学习(一)
  2. vue-aplayer
  3. el-tabs标签的宽度自撑开
  4. 信号完整性(SI)电源完整性(PI)学习笔记(七)电感的物理基础(二)
  5. js实现手机号码与登录密码,身份证验证
  6. js页面加水印防复制防另存为代码(纯js)
  7. 用爬虫抓取美联储演讲数据并分析金融政策
  8. 差压变送器需要注意的问题
  9. 蓝桥杯算法训练合集四 1.p0802 2.A的B的C次方次方 3.出现次数最多的整数 4.成绩分级 5.台阶问题
  10. [linux]Linux入门