在做机器学习时需要有数据进行训练,幸好sklearn提供了很多已经标注好的数据集供我们进行训练。
本节就来看看sklearn提供了哪些可供训练的数据集。

这些数据位于datasets中,网址为:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

房价数据

加载波士顿房价数据,可以用于线性回归用:
sklearn.datasets.load_boston:http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.load_boston
加载方式为:

from sklearn.datasets import load_boston
boston = load_boston()
print(boston.data.shape)

这个数据集的shape为:

(506, 13)

也就是506行,13列,这里13列就是影响房价的13个属性,具体是哪些属性可以通过如下代码打印出来:

print(boston.feature_names)

输出为:

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO''B' 'LSTAT']

具体代表啥意思,要么自己猜,要么上网查吧,我不一一去解释了,我猜几个:RM:room数,也就是户型中的几房,AGE:age(房龄),不知道猜对不对,大家自己去实践了。

你说我咋知道这个数据集中有feature_names属性,我也不知道,我只是把上面的boston整个打印出来看到其中有这个属性的。

预测房价案例

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
# 加载房价数据
boston = load_boston()
data_X = boston.data
data_y = boston.target# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.3)# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 打印出预测的前5条房价数据
print("预测的前5条房价数据:")
print(model.predict(X_test)[:5])# 打印出测试集中实际房价前5条数据
print("测试集中实际房价前5条数据:")
print(y_test[:5])

输出:

预测的前5条房价数据:
[ 17.44807408  27.78251433  18.8344117   17.85437188  34.47632703]
测试集中实际房价前5条数据:
[ 14.3  22.3  22.6  20.6  34.9]

以这个结果集中第一条数据为例,我们预测出某房子的价格是17.4万,而实际价格是14.3万。

不过说实话,上面的房价数据只能用于测试算法,我们真要预测房价的话,原始数据的获得没有那么全和规整,因此,在机器学习中,收集数据并清洗也是一个很重要的工作,脏活累活也必须得干,光有算法没啥用。

花的数据前面一个博文已经讲过了,这里就不再重复了。

手写数字识别数据

还有手写数字识别的,这个也很常用:http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits

创建样本数据

也可以生成一些虚拟的数据,这些是位于官网的API文档中Samples generator一节:

案例源代码为:

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
# 创建100个样本,1个属性值的数据,输出一个目标值,同时也设置了噪音
X, y = make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)
print(X.shape)
print(y.shape)# 对X,y画散点图,看看长啥模样的
plt.scatter(X, y)
plt.show()

输出的数据为:

(100, 1)
(100,)

也就是X值中有100行1列,y值是100行的值。

输出的图形为:

看起来接近一条直线。

转载于:https://www.cnblogs.com/dreampursuer/p/7896193.html

sklearn数据库-【老鱼学sklearn】相关推荐

  1. python搭建numpy_python开发环境搭建及numpy基本属性-【老鱼学numpy】

    目的 本节我们将介绍如何搭建python的开发环境以及numpy的基本属性,这样可以检验我们的numpy是否安装正确了. python开发环境的搭建 工欲善其事必先利其器,我用得比较顺手的是Intel ...

  2. numpy的索引-【老鱼学numpy】

    简单的索引值 import numpy as np a = np.arange(3, 15).reshape(3, 4) print("a=") print(a)print(&qu ...

  3. numpy的array合并-【老鱼学numpy】

    概述 本节主要讲述如何把两个数组按照行或列进行合并. 按行进行上下合并 例如: import numpy as np a = np.array([1, 1, 1]) b = np.array([2, ...

  4. tensorflow RNN循环神经网络 (分类例子)-【老鱼学tensorflow】

    之前我们学习过用CNN(卷积神经网络)来识别手写字,在CNN中是把图片看成了二维矩阵,然后在二维矩阵中堆叠高度值来进行识别. 而在RNN中增添了时间的维度,因为我们会发现有些图片或者语言或语音等会在时 ...

  5. pandas合并数据集-【老鱼学pandas】

    有两个数据集,我们想把他们的结果根据相同的列名或索引号之类的进行合并,有点类似SQL中的从两个表中选择出不同的记录并进行合并返回. 合并 首先准备数据: import pandas as pd imp ...

  6. 老鱼笔记 | 万里数据库是一家怎样的公司?

    本文字数:3958字 阅读时间:13分钟 去年的一鸣惊人,让万里数据库开始进入大众视野. 2020年7月15日,中移动信息技术有限公司自主可控OLTP数据库联合创新项目公示中标候选人,其中主备式数据库 ...

  7. 老齐学python的django 源代码_《跟老齐学Python:Django实战》真正的手把手“带”您学习...

    全书通过不断升级改造的方式,带着读者完成了一个"极其"简单的实战项目.这里说简单是相对于那些"大牛"而言.如果您是大牛,齐老师会建议您使用谷歌或者读官方英文文档 ...

  8. 跟老齐学Python:轻松入门pdf

    下载地址:网盘下载 内容简介  · · · · · · <跟老齐学Python:从入门到精通>是面向编程零基础读者的Python入门教程,内容涵盖了Python的基础知识和初步应用.以比较 ...

  9. python从入门到精通pdf百度云下载-跟老齐学Python从入门到精通 电子版(pdf格式)...

    跟老齐学python从入门到精通是一款由老齐写作的Python电子书籍.书籍讲述了零基础读者的Python入门教程,内容涵盖了Python的基础知识和初步应用,需要的赶紧在巴士下载站下载吧! 目录: ...

  10. 零基础python从入门到精通 pdf-跟老齐学Python从入门到精通

    跟老齐学Python从入门到精通是一款由老齐写作的Python电子书籍.书籍讲述了零基础读者的Python入门教程,内容涵盖了Python的基础知识和初步应用,需要的赶紧下载吧! 目录: 第1季 基础 ...

最新文章

  1. 你的能力代表你能走多远
  2. (1)Adapter适配器(ArrayAdapter、SimpleAdapter、BaseAdapter)
  3. ubuntu安装qwt出现错误时"mkdir: 无法创建目录“/usr/local/qwt-6.1.3“: 权限不够"
  4. 机器学习导论(张志华):多元高斯分布
  5. 两篇Science文章揭示癌症治疗中细胞感应氧气的新机制
  6. 机器人布罩_机器人防护罩案例分析
  7. 软件开发生命周期来说明不同的测试的使用情况
  8. 并发控制中存在问题及解决方案
  9. Made in 大产品——技术商业盛典
  10. secureCRT 7.3.6 winxp版本
  11. Python:快速裁剪PDF页面
  12. vue3里面高德地图绘制3D图形
  13. Mysql联表update数据
  14. zipFile 压缩文件夹 C#
  15. [GNN图神经网络]普通邻接矩阵和 Adjacency Matrix 与 COO稀疏矩阵(edge_index, 和edge_w)相互转化
  16. 念念不忘,必有回响;若无回响,必有一伤
  17. idea 编码扫描插件_用IDEA这样Review代码真牛逼
  18. js 跳转到指定位置 高德地图_JS引入高德地图定位
  19. 内置方法及模块初识,set的hash算法面试题
  20. pytest之执行测试pytest.main()的使用

热门文章

  1. 【论文阅读】CVPR2023 IGEV-Stereo
  2. 空间顶点到平面的距离计算的证明及其源码
  3. 利用VC++实现局域网实时视频传输
  4. 什么性格的人适合计算机专业?高考志愿填报选专业
  5. JavaScript实现输入一个任意日期在页面输出:这是这一年的第几天——前端小白的学习笔记-JavaScript篇
  6. 2020.4月书单,读后感简述:《小狗钱钱》、《富爸爸穷爸爸》、《月亮与六便士》
  7. 【vue+蓝牙扫码枪】实现扫码录入发票信息,光标自动聚焦,列表中连续录入
  8. Android Studio运行项目很慢时间很长的记录
  9. 【Java编程】00_英语单词汇总
  10. Linux命令之grep -w