Scikit-learn快速入门教程和实例(一)
一,什么是SKlearn
SciKit learn的简称是SKlearn,是一个python库,专门用于机器学习的模块。
以下是它的官方网站,文档等资源都可以在里面找到http://scikit-learn.org/stable/#。
SKlearn包含的机器学习方式:
分类,回归,无监督,数据降维,数据预处理等等,包含了常见的大部分机器学习方法。
关于SKlearn的安装,网上教程很多,再次不赘述。建议使用Anaconda,可以方便的安装各种库。
Anaconda教程:http://python.jobbole.com/87522/
SKlearn给出了如何选择正确的方法:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7BuZ91ds-1574331016532)(https://morvanzhou.github.io/static/results/sklearn/2_1_1.png)]
官网清晰图:
http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
图表对于什么样的问题,采用什么样的方法给出了清晰的描述,包括数据量不同的区分。
二,SKlearn的强大数据库
数据库网址:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
里面包含了很多数据,可以直接拿来使用。
例如:
1.鸢尾花数据集
打开里面的鸢尾花数据集,我们可以看到页面上同样有调用示例:
#调用模块
from sklearn.datasets import load_iris
data = load_iris()
#导入数据和标签
data_X = load_data.data
data_y = load.data.target
2.波士顿房价数据集
#换种方式调用模块,注意区别
from sklearn import datasets
loaded_data = datasets.load_boston()
#导入数据
data_X = loaded_data.data
data_y = loaded_data.target
而且在SKlearn官网,对于每一个数据集,在后面都给出了,使用该数据集的示例,例如Boston房价数据集:
三,通用学习模式
SKlearn中学习模式的调用,有很强的统一性,很多都是类似的,学会一个,其他基本差不多。
1.鸢尾花数据集
针对上述已经导入的鸢尾花数据集,继续对其进行分析。
#导入模块
from sklearn.model_selection import train_test_split
from sklearn import datasets
#k近邻函数
from sklearn.neighbors import KNeighborsClassifier
iris = datasets.load_iris()
#导入数据和标签
iris_X = iris.data
iris_y = iris.target
#划分为训练集和测试集数据
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3)
#print(y_train)
#设置knn分类器
knn = KNeighborsClassifier()
#进行训练
knn.fit(X_train,y_train)
#使用训练好的knn进行数据预测
print(knn.predict(X_test))
print(y_test)
2.波士顿房价数据集
这里,我们调用房价数据集,然后使用线性回归的方法对其进行预测
#同样首先,我们调用模块
#matplotlib是python专门用于画图的库
import matplotlib.pyplot as plt
from sklearn import datasets
#调用线性回归函数
from sklearn.linear_model import LinearRegression#导入数据集
#这里将全部数据用于训练,并没有对数据进行划分,上例中
#将数据划分为训练和测试数据,后面会讲到交叉验证
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target#设置线性回归模块
model = LinearRegression()
#训练数据,得出参数
model.fit(data_X, data_y)#利用模型,对新数据,进行预测,与原标签进行比较
print(model.predict(data_X[:4,:]))
print(data_y[:4])
Scikit-learn快速入门教程和实例(一)相关推荐
- 【tools】Latex菜鸟快速入门教程(基于overleaf平台:Learn LaTeX in 30 minutes)
[tools]Latex菜鸟快速入门教程(基于overleaf平台) 注册登录overleaf LaTeX入门教程 1.First start 2.序言Preamble 3.添加标题.作者和日期 4. ...
- Android 2D游戏引擎AndEngine快速入门教程
Android 2D游戏引擎AndEngine快速入门教程 介绍:AndEngine是一款知名的Android 2D游戏引擎.该引擎代码开源,并且可以免费使用.本书详细讲解如何使用AndEngine引 ...
- sklearn快速入门教程:(五)集成学习
sklearn快速入门教程–(五)集成学习 一.集成学习简述 集成学习是目前各类竞赛和工程中应用最广泛的模型提升方法.比如在kaggle中就有关于集成学习的介绍(Kaggle模型融合原文).这里所谓的 ...
- sklearn快速入门教程:(四)模型自动调参
上个教程中我们已经看到在sklearn中调用机器学习模型其实非常简单.但要获得较好的预测效果则需要选取合适的超参数.在实际的项目中其实也有不少参数是由工程师借助其经验手动调整的,但在许多场景下这种方式 ...
- apache thrift_Apache Thrift快速入门教程
apache thrift Thrift是一种跨语言RPC框架,最初是在Facebook上开发的,现在作为Apache项目开源. 这篇文章将描述如何以不同的模式(例如阻塞,非阻塞和异步)编写Thrif ...
- Apache Thrift快速入门教程
Thrift是一种跨语言RPC框架,最初是在Facebook上开发的,现在作为Apache项目开源. 这篇文章将描述如何以不同的模式(例如阻塞,非阻塞和异步)编写Thrift服务和客户端. (我觉得后 ...
- composer 依赖包版本冲突_composer快速入门教程
php中文网最新课程 每日17点准时技术干货分享 Composer 是 PHP 的一个依赖管理工具.我们可以在项目中声明所依赖的外部工具库,Composer 会帮你安装这些依赖的库文件,有了它,我们就 ...
- php yii2 api框架,Yii2框架制作RESTful风格的API快速入门教程
先给大家说下什么是REST restful REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移. 它首次出现在2000年Ro ...
- realm android,Realm for Android快速入门教程
介绍 如果你关注安卓开发的最新趋势,你可能已经听说过 Realm .Realm是一个可以替代SQLite以及ORMlibraries的轻量级数据库. 相比SQLite,Realm更快并且具有很多现代数 ...
最新文章
- Angular路由--基本用法
- 【工具使用系列】关于 MATLAB 机器视觉,你需要知道的事
- FastDFS安装、配置、部署(一)
- 木门怎么打_旧木门拆掉改成衣柜门,完工像收破烂的,要不是能省几个钱谁干?...
- asp.net core mvc View Component 应用
- 通过一段汇编,加深对寄存器ESP和EBP的理解
- Tortoise SVN 版本控制常用操作知识
- AJAX,JSON与MVC
- ajax提交时“加载中”提示的处理方法
- 解决HP t5335z瘦客户机休眠问题
- 《解析深度学习:语音识别实践》.pdf
- java求两个时间相差月_java计算两个时间相差几个月
- 虚拟IP,地址漂移,双机热备
- 金针工具箱5.0安装版(多功能软件快捷工具)hh852作品
- 微信小程序 首页弹出用户协议
- python 读取geotiff_python gdal 写GeoTiff文件
- python怎么群发邮件_小工具:使用python群发邮件
- No input file specified. Nginx PHP
- 实战1-数据项目分析流程
- 实现一个简单的H5领红包的动画
热门文章
- 男人到了二十几岁该怎么发展
- 交通事故2018数据_现实世界数据科学项目:交通事故分析
- 【MHA】之 Attention Mask (with back forward trace) / Causal Mask (with back trace)
- Git及Tortoisegit下载安装及使用详细配置过程
- 三个字组成的字:晶、鑫、淼……
- DataSource数据库的使用
- 毕业设计 - python选题汇总
- 使用DeepL 翻译后的文档不能编辑 解决办法
- python画图小猪佩奇_啥是佩奇?使用Python自动绘画小猪佩奇的代码实例
- 站长面对百度快照不更新的处理办法