Sklearn上机笔记--标准化
目录
一、标准化
1.导入boston数据集并转化为数据框
2.sklearn”三板斧“操作
3.岭回归
4.模型的保存及使用
5.对单个数据进行标准化
(1)数据展示
(2)对preprocessing数据进行标准化
(3)求均值
(4)对数据的某些列求标准化
6.在多个数据集上使用相同的标准化
7.标准化的一些相关命令
二、将特征变量缩放至特定范围
三、数据的正则化-求单位向量
一、标准化
1.导入boston数据集并转化为数据框
#导入boston数据库 from sklearn import datasets boston = datasets.load_boston() #转化为数据框 import pandas as pd boston_df = pd.DataFrame(boston.data,columns = boston.feature_names) boston_df.head(20)
结果:
2.sklearn”三板斧“操作
实例化-->fit(训练)-->transforms or predict(转化/预测)
from sklearn.preprocessing import StandardScaler std = StandardScaler(with_mean=False)#实例化 std.fit(boston.data)#训练 std.transform(boston.data)#转化或预测predict
结果:
可以使用help()命令查询相关注释:
help(StandardScaler)#StandardScaler(*, copy=True, with_mean=True, with_std=True)
3.岭回归
from sklearn.linear_model import Ridge #岭回归 ridge = Ridge() ridge.fit(boston.data,boston.target) ridge.predict(boston.data)
结果:
4.模型的保存及使用
#模型的保存 import joblib joblib.dump(ridge,'C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl')
结果:
#使用模型 import joblib std2 = joblib.load("C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl") from sklearn.datasets import load_boston boston=load_boston() std2.predict(boston.data)
结果:
5.对单个数据进行标准化
scale(X, *, axis=0, with_mean=True, with_std=True, copy=True)
axis=0为对列进行计算
with_mean=True:是否中心化数据(移除均值)
with_std=True:是否均一标准差(除以标准差)
copy=True:是否生成副本而不是替换原数
(1)数据展示
boston_df.head()
结果:
boston_df.describe()
结果:
(2)对preprocessing数据进行标准化
from sklearn import preprocessing boston_scaled = preprocessing.scale(boston_df) boston_scaled#[-3,3]
结果:
(3)求均值
boston_scaled.mean(axis = 0)#均值
结果:
一些命令:
boston_scaled_rows = preprocessing.scale(boston_df,axis=1) boston_scaled_rows.mean(axis=0)#对列求均值 boston_scaled_rows.mean(axis=1)#对行求均值 boston_scaled.std(axis = 0)#标准差
(4)对数据的某些列求标准化
boston_df.head()
结果:
preprocessing.scale(boston_df[['CRIM','ZN']])
结果:
6.在多个数据集上使用相同的标准化
sklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_st =True
copy = True:是否生成副本而不是替换原对象(但这种替换不一定能成功)
with_mean=True:该选项对稀疏矩阵无效
StandardScaler类的属性:
scale_:ndarray,shape(n_features,)
mean_:array of floats with shape
var_:array of floats with shape
n_samples_seen_:int
#from sklearn import datasets #from sklearn import preprocessing #import pandas as pd #boston = datasets.load_boston() #boston_df = pdf.DataFrame(boston.data,columns = boston.feature_names) std = preprocessing.StandardScaler() std.fit(boston_df) std.mean_,std.scale_ #fit之后求出了原始数据每列的均值和标准表
结果:
7.标准化的一些相关命令
std.get_params() #查看当前参数值 std.set_params(copy=False) #设置参数值 std.scale_ #标准化之后的尺度 std.mean_#标准化后的期望
二、将特征变量缩放至特定范围
sklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)将数据缩放至特定的范围内
sklearn,preprocessing.MaxAbsScaler(copy = True)将数据的最大值缩放至1
scale = preprocessing.MinMaxScaler((1,10)) scale.fit_transform(boston_df)
结果:
scaler_1 = preprocessing.MaxAbsScaler() scaler_1.fit_transform(boston_df)
结果:
三、数据的正则化-求单位向量
sklearn.preprocessing.normalize(x,axis=1,copy=True,norm='l2':'l1','l2',or 'max',用于正则化的具体范数,return_norm=False:是否返回所使用的范数)
import sklearn.preprocessing x=[[-1,-1,2]] x_normalized = preprocessing.normalize(x,norm='l2',return_norm = True) x_normalized
结果:
-1/2.44948974
结果:
Sklearn上机笔记--标准化相关推荐
- sklearn上机笔记3:朴素贝叶斯算法实践
import pandas as pd import numpy as np #导入数据集生成工具 from sklearn.datasets import make_blobs #随机生成500个类 ...
- SKlearn学习笔记——XGBoost
SKlearn学习笔记--XGBoost 1. 概述 1.1 xgboost库与XGB的sklearn API 1.2 XGBoost的三大板块 2. 梯度提升树 2.1 提升集成算法:重要参数 n_ ...
- python sklearn学习笔记大全(常见代码速查)
skleran是python中常见的机器学习包,整理下笔记.方便查询. 官方文档链接:sklearn官方英文文档 常见模型 from sklearn.linear_model import Linea ...
- sklearn学习笔记
1.监督学习 1.1.广义线性模型 1.1.1.普通最小二乘法 class sklearn.linear_model.LinearRegression(fit_intercept=True, norm ...
- sklearn 归一化 和 标准化
from sklearn.preprocessing import MinMaxScaler,MaxAbsScaler,StandardScaler,Normalizer # pip install ...
- 机器学习(5.sklearn归一化以及标准化)
归一化 特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间 注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X'' 为最终结果,mx,mi分别为指定区间值默认mx为1, ...
- sklearn学习笔记(一):数据预处理
文章目录 1.缺失值处理 2. 数据的规范化 2.1 缩放规范化 2.1.1 最大值-最小值缩放 2.1.2 最大绝对值缩放 2.1.3 自定义缩放区间 2.2 标椎化 2.3 范数规范化 3. 非线 ...
- sklearn学习笔记之简单线性回归
简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...
- Sklearn——对数据标准化(Normalization)
文章目录 1.前言 2.数据标准化 3.对比标准化前后 3.1.数据标准化前 3.2.数据标准化后 1.前言 由于数据的偏差与跨度会影响机器学习的成效,因此正规化(标准化)数据可以提升机器学习的成效 ...
最新文章
- java socket同步通信,javasocket客户端与服务端同步通信实例
- 记录使用Performance API遇到的问题
- oracle的all函数,oracle函数 MIN([distinct|all]x)
- linux grep 正则搜索某段时间内的日志
- MSCRM2011 Current User has Role 【判定当前用户角色方法】
- 微信小程序INC自增自减MUL自乘问题
- Mysql 重做日志及与二进制日志的区别
- java 缓存ech_ehcache获取缓存空指针
- java mysql数据库编程_java JDBC数据库(mysql)编程
- fork source exec区别差异
- Java四大函数式接口
- jquery-ui寺
- 当 Python 中混进一只薛定谔的猫……
- linux安装kafka_巨杉Tech | 基于Kafka+Spark+SequoiaDB实时处理架构快速实战
- [转载] 在IDEA中将SpringBoot项目打包成jar包的方法
- 机房管理--如何应对学生关闭极域电子教室
- (官方win10PE使用)微软官方win10PE取出文件操作教学
- ICMP协议解析与实战
- 推荐一款免费在线高效作图工具
- 如何制作ISO镜像文件