sklearn数据集与估计器

1 sklearn数据集

(1)数据来源:大多数以文件的形式  (csv文件..), 因为mysql有性能瓶颈、读取速度遭到限制,数据大的时候很费时间

(2)读取数据的工具:Python中很强大的模块 pandas:读取工具、numpy(数据计算模块,计算速度非常快,因为释放了Python中的GIL)

(3)可用数据集:

①Kaggle网址:https://www.kaggle.com/datasets

Kaggle特点:大数据竞赛平台;80万科学家;真实数据;数据量巨大

②UCI数据集网址: http://archive.ics.uci.edu/ml/

UCI特点:收录了360个数据集;覆盖科学、生活、经济等领域 ;数据量几十万

③scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

scikit-learn特点:1数据量较小 ;方便学习

(4)数据集的结构

机器学习中数据集的结构:特征值+目标值

特征值:就是DataFrame(他的特点是有行索引和列索引)中的列索引

目标值:很据特征值得到的结果值,就为目标值,就是想要做的事情的目的的分类

样本:每一行数据可以作为一个样本

2 sklearn.datasets

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型

测试数据:在模型检验时使用,用于评估模型是否有效

一般在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测。

sklearn数据集划分API:sklearn.model_selection.train_test_split

sklearn.datasets 加载获取流行数据集

datasets.load_*() 获取小规模数据集,数据包含在datasets里

datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集     下载的目录

datasets.make_*()本地生成数据集

datasets.get_data_home()获取数据集目录,这个文件夹被一些大的数据集装载器使用,以避免下载数据。默认情况下,数据目录设置为用户主文件夹中名为“scikit_learn_data”的文件夹。或者,可以通过“SCIKIT_LEARN_DATA”环境变量或通过给出显式的文件夹路径以编程方式设置它。

clear_data_home(data_home=None)删除所有下载数据

load*和fetch*返回的数据类型datasets.base.Bunch(字典格式)如下:

data 特征数据数组,是 [n_samples * n_features] 的二维numpy.ndarray 数组
target 标签数组,是 n_samples 的一维 numpy.ndarray 数组
DESCR 数据描述
feature_names 特征名,新闻数据,手写数字、回归数据集没有
target_names 标签名,回归数据集没有

2.1 获取小数据集

(1)分类数据集

①sklearn.datasets.load_iris():加载并返回鸢尾花数据集

名称 数量
类别 3
特征 4
样本数量 150
每个类别数量 50

参数:return_X_y: 如果为True,则返回而不是Bunch对象,默认为False

返回值Bunch对象,如果return_X_y为True,那么返回tuple,(data,target)

from sklearn.datasets import load_iris
ld = load_iris()
print(ld)

②sklearn.datasets.load_digits():加载并返回数字数据集

名称 数量
类别 10
特征 64
样本数量 1797

(2)回归数据集

①sklearn.datasets.load_boston():加载并返回波士顿房价数据集

名称 数量
目标类别 5-50
特征 13
样本数量 506

②sklearn.datasets.load_diabetes() : 加载和返回糖尿病数据集

名称 数量
目标范围 25-346
特征 10
样本数量 442

2.2 获取大数据集

sklearn.datasets.fetch_20newsgroups():加载20个新闻组数据集中的文件名和数据

data_home

默认值:无,指定数据集的下载和缓存文件夹。如果没有,所有scikit学习数据都存储在'〜/ scikit_learn_data'子文件夹中
subset 'train'或者'test','all',可选,选择要加载的数据集:训练集的“训练”,测试集的“测试”,两者的“全部”,具有洗牌顺序
categories 无或字符串或Unicode的集合,如果没有(默认),加载所有类别。如果不是无,要加载的类别名称列表(忽略其他类别)
shuffle 是否对数据进行洗牌
random_state numpy随机数生成器或种子整数
remove 元组
download_if_missing 默认为True,如果False,如果数据不在本地可用而不是尝试从源站点下载数据,则引发IOError

sklearn.datasets.fetch_20newsgroups_vectorized():加载20个新闻组数据集并将其转换为tf-idf向量

2.3 生成本地数据

sklearn.datasets.make_classification():生成本地分类数据

n_samples:int

(default = 100),样本数量
n_features (默认= 20),特征总数
n_classes 类(或标签)的分类问题的数量
random_state RandomState实例或无,可选(默认=无)

sklearn.datasets.make_regression():生成本地回归数据

3 估计器

在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API,是sklearn机器学习算法的实现。

在估计器中有有两个重要的方法是fit和transform:①fit方法用于从训练集中学习模型参数,②transform用学习到的参数转换数据。

用于分类的估计器:

sklearn.neighbors    k-近邻算法

sklearn.naive_bayes      贝叶

sklearn.linear_model.LogisticRegression     逻辑回归

用于回归的估计器:

sklearn.linear_model.LinearRegression     线性回归

sklearn.linear_model.Ridge      岭回归

sklearn数据集与估计器相关推荐

  1. Machine Learning | (2) sklearn数据集与机器学习组成

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  2. python机器学习--sklearn数据集使用

    文章目录 1.sklearn介绍 2.基本概括 2.1 估计器 2.2 转化器 3.sklearn中iris莺尾花数据集使用 1.sklearn介绍 Scikit-learn(以前称为scikits. ...

  3. 机器学习:sklearn数据集与机器学习组成

    机器学习组成:模型.策略.优化 <统计机器学习>中指出:机器学习=模型+策略+算法.其实机器学习可以表示为:Learning= Representation+Evalution+Optim ...

  4. 机器学习基础、sklearn数据集、转换器与预估器

    机器学习基础 机器学习开发流程 机器学习算法分类 机器学习模型是什么 需要明确几点问题: 算法是核心,数据和计算是基础 找准定位 大部分复杂模型的算法设计都是算法工程师在做,而我只是一个调包侠 分析很 ...

  5. 【机器学习】分类算法-sklearn转换器和估计器

    目标 知道sklearn的转换器和估计器流程 转换器 想一下之前做的特征工程的步骤? 实例化 (实例化的是一个转换器类(Transformer)) 调用fit_transform(对于文档建立分类词频 ...

  6. 【机器学习】sklearn数据集获取、分割、分类和回归

    sklearn数据集 1.数据集划分 1.1 获取数据 1.2 获取数据返回的类型 举个栗子: 1.3 对数据集进行分割 举个栗子: 2. sklearn分类数据集 3. sklearn回归数据集 1 ...

  7. pythonsklearn乳腺癌数据集_【sklearn数据集】SVM之乳腺癌数据集实战

    一.Sklearn介绍 scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了.其完善之处不仅在于实现的算法多,还包括大 ...

  8. sklearn数据集(鸢尾花)的使用--代码实战

    1. 鸢尾花数据集 2. sklearn数据集返回值介绍 load和fetch返回的数据类型datasets.base.Bunch(字典格式) data:特征数据数组,是 [n_samples * n ...

  9. SKlearn数据集转换之预处理数据

    数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求. ...

最新文章

  1. 设计模式:设计模式七大原则之迪米特法则
  2. 致客户的一封信:关于产品生命周期管理与高可用版本的提供
  3. Pico Pro Maker Kit NXP i.MX7D刷入Android Things
  4. SAP UI5 jQuery.sap.includeStyleSheet
  5. cannot open layout editor - how to fix error message
  6. 2018CCF-CSP 5.二次求和(点分治)
  7. update字段变更SpringBoot @JsonProperty的使用属性的名称序列化为另外一个名称
  8. 远程拷贝 linux服务器,linux scp 服务器远程拷贝(示例代码)
  9. 【电路补习笔记】10、电感式开关电源(BUCK 降压电路)
  10. 设计素材画面太平淡?优秀案例网页教你如何用色彩丰富画
  11. 把照片存QQ相册会越来越模糊,你们会把照片存在哪里?
  12. php 单位食堂订餐,机关单位食堂订餐系统
  13. Java 实现 百度地图
  14. movieclip_Flash脚本-在Flash中更改Movieclip的颜色
  15. Java课程寒假之开发记账本软件(Android版)之一
  16. python中的开根、取整、求对数
  17. HTML.初学.更新
  18. OpenCV基础九:滤波与卷积(陆续更新)
  19. Brendan Eich谈Javascript的起源
  20. 摘几个陈年高校BBS的冷笑话

热门文章

  1. hive三种调用方式
  2. 文件方式实现完整的英文词频统计实例(9.27)
  3. bzoj2435: [Noi2011]道路修建 树上dp
  4. 【VBA编程】06.控制语句
  5. CUBRID学习笔记 22 插入数据
  6. Google搜索图片时只显示第一页
  7. 可视化webpart基础开发——TreeView控件读取文档库中的所有文件夹和文件(递归方法读取) ....
  8. SQL 语句还原SQL Server数据库
  9. [分享]天轰穿VS2005视频教程
  10. 什么是一致性Hash算法?