机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

sklearn.datasets包内置了一些小规模的示例数据集。为了评估数据规模的影响,控制数据的统计属性(典型的是特征的相关性和忠实度),也可以产生合成数据。该包也可以作为评价机器学习算法性能的基准数据集的所在。

通用数据集 API

对于不同类型的数据集,有三个不同类型的数据集接口。最简单的是样本图像接口。数据集生成函数和svmlight加载器共享一个简化接口,返回一个元组(X, y). 该元组包括一个n_samples * n_features numpy数组X, 一个长度为n_samples, 包括目标变量y的数组。

示例数据集(toy datasets)、真实数据集和来自mldata.org的数据集,结构更加复杂。这些函数返回类字典的对象,至少包括两项:一个形如n_samples * n_features的数组,拥有data键;一个长度为n_samples的numpy数组,拥有target键。
数据集也包括DESCR描述,一些数据集包括feature_names and target_names.

示例数据集

scikit-learn自带一些小的标准数据集,并不需要从外部网站下载任何文件。

这些数据集可以用来快速检验不同算法的表现,然而,因为数据规模太小,它们并不能代表算法对来自真实世界的数据的真正表现。

样本图像

scikit也自带了几个JPEG图像样本数据集。这些数据集可以被用来检验算法和pipeline 2D数据。

样本生成器

scikit-learn包括不同的随机样本生成器,可以创造大小和复杂度可控的人造数据集。

分类/聚类数据生成器

生成对应离散target的特征矩阵,这里主要介绍单个类标签的情况。

make_blobs, make_classification都可以产生多个类别的数据集,这是通过分配每个类一个或者多个正态分布的数据点实现的。make_blobs提供了关于每个类的中心和标准差的更大控制,所以主要用来演示聚类。make_classification通过以下形式规定数据的噪音:

  • 相关、冗余且无信息的特征;

  • 每个类包括多个高斯类;

  • 特征空间的线性变换。

make_circles and make_moons可以产生二维二值分类数据集,包括最佳的高斯噪音。

回归生成器

make_regression通过随机特征的最优线性组合,再加入随机误差,产生回归的目标变量。make_sparse_uncorrelated通过具有固定系数的四个特征的线性组合,产生目标变量。

从mldata.org仓库下载数据集

mldata.org是一个机器学习的开放数据仓库,sklearn.datasets包可以直接从mldata.org下载数据集,使用sklearn.datasets.fetch_mldata函数。例如,为了下载MNIST数字识别数据库:

MNIST数据库由总共7万个手写数字的实例组成,每个实例是大小为28×2828\times2828×28的像素,标签0~9的数字。

在首次下载后,数据集保存在由参数data_home指定的路径下,默认路径是~/scikit_learn_data/

mldata.org下载的数据数组经常以(n_features, n_samples)的形式组织,这和scikit-learn组织数据的形式相反。所以,sklearn.datasets.fetch_mldata默认操作是转置矩阵,这由参数transpose_data控制:

精彩内容,请关注微信公众号:统计学习与大数据

【sklearn第七讲】数据集加载工具相关推荐

  1. 【Scikit-Learn 中文文档】数据集加载工具 - 用户指南 | ApacheCN

    中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...

  2. Scikit-Learn 中文文档】数据集加载工具 - 用户指南 | ApacheCN

    中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...

  3. 【Scikit-Learn 中文文档】40 数据集加载工具 - 用户指南 | ApacheCN

    中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...

  4. 【Scikit-Learn 中文文档】四十:数据集加载工具 - 用户指南 | ApacheCN

    中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...

  5. sklearn自学指南(part43)--数据加载工具

    学习笔记,仅供参考,有错必究 文章目录 数据加载工具 Toy datasets Real world datasets 用法 数据加载工具 sklearn.datasets 包嵌入了一些在入门的一节中 ...

  6. Pytorch基础(三)数据集加载及预处理

    目录 下载数据集及显示样本 数据集类 建立数据集类及显示部分样本 数据变换 后记 python提供了许多工具简化数据加载,使代码更具可读性.经常用到的包有scikit-image.pandas等,本文 ...

  7. wps分析工具库如何加载_亚马逊卖家如何通过库存加载工具表格删除SKU(一)

    如何处理一个sku对应两个asin的系统bug(01) 最近遇到了一个sku对应了两个asin的问题,通过客服查询,客服那边是看不到多余的asin的.比如 sku 本来是对应 asin01 但是在库存 ...

  8. OFRecord 数据集加载

    OFRecord 数据集加载 在数据输入一文中知道了使用 DataLoader 及相关算子加载数据,往往效率更高,并且学习了如何使用 DataLoader 及相关算子. 在 OFrecord 数据格式 ...

  9. oracle批量加载,Oracle教程:使用SQL*Loader高速批量数据加载工具

    Oracle教程:使用SQL*Loader高速批量数据加载工具 1.控制文件中包含要加载的数据 首先创建一张测试表 然后创建一个控制文件(其中包含被加载的数据) 然后在命令行执行加载 查看dept表 ...

  10. LUT Utility for FCPX(Luts调色文件加载工具)支持M1

    LUT Utility是一款强有力的luts调色加载工具,这款FCPX调色预设能够快速的搞定画面的调色步骤,让你的画面看起来更像电影胶片色彩,大部分后期软件都可以使用LUT,就是说你可以很方便的将LU ...

最新文章

  1. TCP/IP学习笔记(七)四次挥手
  2. iphone 系统文件夹
  3. Redo Log 和Checkpoint not complete
  4. linux——进程(创建、终止、等待、替换)
  5. Windows和VMware下ubuntu切换界面的快捷键
  6. 【报告分享】2021年社区团购研究报告.pdf(附下载链接)
  7. Linux Block Driver - 1
  8. 三菱PLC源型漏型输入输出
  9. AD7705模块设计(附源码)
  10. 中超联赛首轮 山东鲁能一球小胜
  11. 网易有数永久免费开放BI能力 普惠让技术更有温度
  12. Mac 上 vscode 的 rust-analyzer 扩展无法追踪/跟踪方法定义
  13. paddlespeech 语音识别 web流服务部署(Streaming Speech Recognition)
  14. 2021年中国纸包装行业发展现状及市场格局分析[图]
  15. Chapter21: Consideration in the Application of Artificial Intelligence to Pharmacokinetic Prediction
  16. 72,36,24,18,()
  17. genesis4iphone世嘉模拟器详细设置教程
  18. TouchScript中文---Gestures
  19. cv mat 灰度值和_访问OpenCV中灰度图像的像素值
  20. 可以搭赠鸿蒙系统的手表,4.3英寸屏幕有点小!超大屏智能手机盘点

热门文章

  1. custom transition animation between UIViewControllers
  2. shell 函数和数组
  3. 南昌工程学院计算机考试题库和答案,南昌工程学院 语试题答案.doc
  4. Security+ 学习笔记35 配置管理
  5. 分别使用多线程\多进程\协程+paramiko在华为交换机批量快速进行配置(eNSP模拟器)
  6. Python3 List sort(),sorted(),reverse()的使用及辨别
  7. 局域网IP被抢占后如何强制夺回
  8. linux挂载与卸载图文解析
  9. linux中^]是如何输出的
  10. ducument.ready不生效的问题 ruby on rails