【sklearn第七讲】数据集加载工具
机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
sklearn.datasets
包内置了一些小规模的示例数据集。为了评估数据规模的影响,控制数据的统计属性(典型的是特征的相关性和忠实度),也可以产生合成数据。该包也可以作为评价机器学习算法性能的基准数据集的所在。
通用数据集 API
对于不同类型的数据集,有三个不同类型的数据集接口。最简单的是样本图像接口。数据集生成函数和svmlight加载器共享一个简化接口,返回一个元组(X, y). 该元组包括一个n_samples * n_features numpy数组X, 一个长度为n_samples, 包括目标变量y的数组。
示例数据集(toy datasets)、真实数据集和来自mldata.org的数据集,结构更加复杂。这些函数返回类字典的对象,至少包括两项:一个形如n_samples * n_features的数组,拥有data键;一个长度为n_samples的numpy数组,拥有target键。
数据集也包括DESCR描述,一些数据集包括feature_names and target_names.
示例数据集
scikit-learn自带一些小的标准数据集,并不需要从外部网站下载任何文件。
这些数据集可以用来快速检验不同算法的表现,然而,因为数据规模太小,它们并不能代表算法对来自真实世界的数据的真正表现。
样本图像
scikit也自带了几个JPEG图像样本数据集。这些数据集可以被用来检验算法和pipeline 2D数据。
样本生成器
scikit-learn包括不同的随机样本生成器,可以创造大小和复杂度可控的人造数据集。
分类/聚类数据生成器
生成对应离散target的特征矩阵,这里主要介绍单个类标签的情况。
make_blobs
, make_classification
都可以产生多个类别的数据集,这是通过分配每个类一个或者多个正态分布的数据点实现的。make_blobs提供了关于每个类的中心和标准差的更大控制,所以主要用来演示聚类。make_classification通过以下形式规定数据的噪音:
相关、冗余且无信息的特征;
每个类包括多个高斯类;
特征空间的线性变换。
make_circles
and make_moons
可以产生二维二值分类数据集,包括最佳的高斯噪音。
回归生成器
make_regression
通过随机特征的最优线性组合,再加入随机误差,产生回归的目标变量。make_sparse_uncorrelated
通过具有固定系数的四个特征的线性组合,产生目标变量。
从mldata.org仓库下载数据集
mldata.org
是一个机器学习的开放数据仓库,sklearn.datasets包可以直接从mldata.org下载数据集,使用sklearn.datasets.fetch_mldata
函数。例如,为了下载MNIST数字识别数据库:
MNIST数据库由总共7万个手写数字的实例组成,每个实例是大小为28×2828\times2828×28的像素,标签0~9的数字。
在首次下载后,数据集保存在由参数data_home
指定的路径下,默认路径是~/scikit_learn_data/
mldata.org下载的数据数组经常以(n_features, n_samples)的形式组织,这和scikit-learn组织数据的形式相反。所以,sklearn.datasets.fetch_mldata默认操作是转置矩阵,这由参数transpose_data控制:
精彩内容,请关注微信公众号:统计学习与大数据
【sklearn第七讲】数据集加载工具相关推荐
- 【Scikit-Learn 中文文档】数据集加载工具 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...
- Scikit-Learn 中文文档】数据集加载工具 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...
- 【Scikit-Learn 中文文档】40 数据集加载工具 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...
- 【Scikit-Learn 中文文档】四十:数据集加载工具 - 用户指南 | ApacheCN
中文文档: http://sklearn.apachecn.org/cn/stable/datasets/index.html 英文文档: http://sklearn.apachecn.org/en ...
- sklearn自学指南(part43)--数据加载工具
学习笔记,仅供参考,有错必究 文章目录 数据加载工具 Toy datasets Real world datasets 用法 数据加载工具 sklearn.datasets 包嵌入了一些在入门的一节中 ...
- Pytorch基础(三)数据集加载及预处理
目录 下载数据集及显示样本 数据集类 建立数据集类及显示部分样本 数据变换 后记 python提供了许多工具简化数据加载,使代码更具可读性.经常用到的包有scikit-image.pandas等,本文 ...
- wps分析工具库如何加载_亚马逊卖家如何通过库存加载工具表格删除SKU(一)
如何处理一个sku对应两个asin的系统bug(01) 最近遇到了一个sku对应了两个asin的问题,通过客服查询,客服那边是看不到多余的asin的.比如 sku 本来是对应 asin01 但是在库存 ...
- OFRecord 数据集加载
OFRecord 数据集加载 在数据输入一文中知道了使用 DataLoader 及相关算子加载数据,往往效率更高,并且学习了如何使用 DataLoader 及相关算子. 在 OFrecord 数据格式 ...
- oracle批量加载,Oracle教程:使用SQL*Loader高速批量数据加载工具
Oracle教程:使用SQL*Loader高速批量数据加载工具 1.控制文件中包含要加载的数据 首先创建一张测试表 然后创建一个控制文件(其中包含被加载的数据) 然后在命令行执行加载 查看dept表 ...
- LUT Utility for FCPX(Luts调色文件加载工具)支持M1
LUT Utility是一款强有力的luts调色加载工具,这款FCPX调色预设能够快速的搞定画面的调色步骤,让你的画面看起来更像电影胶片色彩,大部分后期软件都可以使用LUT,就是说你可以很方便的将LU ...
最新文章
- TCP/IP学习笔记(七)四次挥手
- iphone 系统文件夹
- Redo Log 和Checkpoint not complete
- linux——进程(创建、终止、等待、替换)
- Windows和VMware下ubuntu切换界面的快捷键
- 【报告分享】2021年社区团购研究报告.pdf(附下载链接)
- Linux Block Driver - 1
- 三菱PLC源型漏型输入输出
- AD7705模块设计(附源码)
- 中超联赛首轮 山东鲁能一球小胜
- 网易有数永久免费开放BI能力 普惠让技术更有温度
- Mac 上 vscode 的 rust-analyzer 扩展无法追踪/跟踪方法定义
- paddlespeech 语音识别 web流服务部署(Streaming Speech Recognition)
- 2021年中国纸包装行业发展现状及市场格局分析[图]
- Chapter21: Consideration in the Application of Artificial Intelligence to Pharmacokinetic Prediction
- 72,36,24,18,()
- genesis4iphone世嘉模拟器详细设置教程
- TouchScript中文---Gestures
- cv mat 灰度值和_访问OpenCV中灰度图像的像素值
- 可以搭赠鸿蒙系统的手表,4.3英寸屏幕有点小!超大屏智能手机盘点
热门文章
- custom transition animation between UIViewControllers
- shell 函数和数组
- 南昌工程学院计算机考试题库和答案,南昌工程学院 语试题答案.doc
- Security+ 学习笔记35 配置管理
- 分别使用多线程\多进程\协程+paramiko在华为交换机批量快速进行配置(eNSP模拟器)
- Python3 List sort(),sorted(),reverse()的使用及辨别
- 局域网IP被抢占后如何强制夺回
- linux挂载与卸载图文解析
- linux中^]是如何输出的
- ducument.ready不生效的问题 ruby on rails