一、标准化

1.导入boston数据集并转化为数据框

2.sklearn”三板斧“操作

3.岭回归

4.模型的保存及使用

5.对单个数据进行标准化

（1）数据展示

（2）对preprocessing数据进行标准化

（3）求均值

（4）对数据的某些列求标准化

6.在多个数据集上使用相同的标准化

7.标准化的一些相关命令

二、将特征变量缩放至特定范围

三、数据的正则化-求单位向量

一、标准化

1.导入boston数据集并转化为数据框

#导入boston数据库
from sklearn import datasets
boston = datasets.load_boston()
#转化为数据框
import pandas as pd
boston_df = pd.DataFrame(boston.data,columns = boston.feature_names)
boston_df.head(20)

结果：

2.sklearn”三板斧“操作

实例化-->fit(训练）-->transforms or predict（转化/预测）
from sklearn.preprocessing import StandardScaler
std = StandardScaler(with_mean=False)#实例化
std.fit(boston.data)#训练
std.transform(boston.data)#转化或预测predict
结果：

可以使用help()命令查询相关注释：
help(StandardScaler)#StandardScaler(*, copy=True, with_mean=True, with_std=True)

3.岭回归

from sklearn.linear_model import Ridge #岭回归
ridge = Ridge()
ridge.fit(boston.data,boston.target)
ridge.predict(boston.data)

结果：

4.模型的保存及使用

#模型的保存
import joblib
joblib.dump(ridge,'C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl')

结果：

#使用模型
import joblib
std2 = joblib.load("C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl")
from sklearn.datasets import load_boston
boston=load_boston()
std2.predict(boston.data)

结果：

5.对单个数据进行标准化

scale(X, *, axis=0, with_mean=True, with_std=True, copy=True)

axis=0为对列进行计算
with_mean=True：是否中心化数据（移除均值）
with_std=True:是否均一标准差（除以标准差）
copy=True：是否生成副本而不是替换原数

（1）数据展示
boston_df.head()
结果：
boston_df.describe()
结果：

（2）对preprocessing数据进行标准化
from sklearn import preprocessing
boston_scaled = preprocessing.scale(boston_df)
boston_scaled#[-3,3]
结果：

（3）求均值
boston_scaled.mean(axis = 0)#均值
结果：

一些命令：
boston_scaled_rows = preprocessing.scale(boston_df,axis=1)
boston_scaled_rows.mean(axis=0)#对列求均值
boston_scaled_rows.mean(axis=1)#对行求均值
boston_scaled.std(axis = 0)#标准差
（4）对数据的某些列求标准化
boston_df.head()
结果：
preprocessing.scale(boston_df[['CRIM','ZN']])
结果：

6.在多个数据集上使用相同的标准化

sklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_st =True

copy = True:是否生成副本而不是替换原对象（但这种替换不一定能成功）
with_mean=True：该选项对稀疏矩阵无效

StandardScaler类的属性：
scale_:ndarray,shape(n_features,)
mean_:array of floats with shape
var_:array of floats with shape
n_samples_seen_:int

#from sklearn import datasets
#from sklearn import preprocessing
#import pandas as pd
#boston = datasets.load_boston()
#boston_df = pdf.DataFrame(boston.data,columns = boston.feature_names)
std = preprocessing.StandardScaler()
std.fit(boston_df)
std.mean_,std.scale_
#fit之后求出了原始数据每列的均值和标准表

结果：

7.标准化的一些相关命令

std.get_params()
#查看当前参数值
std.set_params(copy=False)
#设置参数值
std.scale_
#标准化之后的尺度
std.mean_#标准化后的期望

二、将特征变量缩放至特定范围

sklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)将数据缩放至特定的范围内
sklearn,preprocessing.MaxAbsScaler(copy = True)将数据的最大值缩放至1

scale = preprocessing.MinMaxScaler((1,10))
scale.fit_transform(boston_df)

结果：

scaler_1 = preprocessing.MaxAbsScaler()
scaler_1.fit_transform(boston_df)

结果：

三、数据的正则化-求单位向量

sklearn.preprocessing.normalize(x,axis=1,copy=True,norm='l2':'l1','l2',or 'max',用于正则化的具体范数，return_norm=False:是否返回所使用的范数）

import sklearn.preprocessing
x=[[-1,-1,2]]
x_normalized = preprocessing.normalize(x,norm='l2',return_norm = True)
x_normalized

结果：

-1/2.44948974

结果：

Sklearn上机笔记--标准化相关推荐

sklearn上机笔记3:朴素贝叶斯算法实践
import pandas as pd import numpy as np #导入数据集生成工具 from sklearn.datasets import make_blobs #随机生成500个类 ...
SKlearn学习笔记——XGBoost
SKlearn学习笔记--XGBoost 1. 概述 1.1 xgboost库与XGB的sklearn API 1.2 XGBoost的三大板块 2. 梯度提升树 2.1 提升集成算法:重要参数 n_ ...
python sklearn学习笔记大全（常见代码速查）
skleran是python中常见的机器学习包,整理下笔记.方便查询. 官方文档链接:sklearn官方英文文档常见模型 from sklearn.linear_model import Linea ...
sklearn学习笔记
1.监督学习 1.1.广义线性模型 1.1.1.普通最小二乘法 class sklearn.linear_model.LinearRegression(fit_intercept=True, norm ...
sklearn 归一化和标准化
from sklearn.preprocessing import MinMaxScaler,MaxAbsScaler,StandardScaler,Normalizer # pip install ...
机器学习(5.sklearn归一化以及标准化)
归一化特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X'' 为最终结果,mx,mi分别为指定区间值默认mx为1, ...
sklearn学习笔记（一）：数据预处理
文章目录 1.缺失值处理 2. 数据的规范化 2.1 缩放规范化 2.1.1 最大值-最小值缩放 2.1.2 最大绝对值缩放 2.1.3 自定义缩放区间 2.2 标椎化 2.3 范数规范化 3. 非线 ...
sklearn学习笔记之简单线性回归
简单线性回归线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...
Sklearn——对数据标准化(Normalization)
文章目录 1.前言 2.数据标准化 3.对比标准化前后 3.1.数据标准化前 3.2.数据标准化后 1.前言由于数据的偏差与跨度会影响机器学习的成效,因此正规化(标准化)数据可以提升机器学习的成效 ...

Sklearn上机笔记--标准化

一、标准化

1.导入boston数据集并转化为数据框

2.sklearn”三板斧“操作

3.岭回归

4.模型的保存及使用

5.对单个数据进行标准化

（1）数据展示

（2）对preprocessing数据进行标准化

（3）求均值

（4）对数据的某些列求标准化

6.在多个数据集上使用相同的标准化

7.标准化的一些相关命令

二、将特征变量缩放至特定范围

三、数据的正则化-求单位向量

Sklearn上机笔记--标准化相关推荐

最新文章

热门文章