目录

一、标准化

1.导入boston数据集并转化为数据框

2.sklearn”三板斧“操作

3.岭回归

4.模型的保存及使用

5.对单个数据进行标准化

(1)数据展示

(2)对preprocessing数据进行标准化

(3)求均值

(4)对数据的某些列求标准化

6.在多个数据集上使用相同的标准化

7.标准化的一些相关命令

二、将特征变量缩放至特定范围

三、数据的正则化-求单位向量


一、标准化

1.导入boston数据集并转化为数据框

#导入boston数据库
from sklearn import datasets
boston = datasets.load_boston()
#转化为数据框
import pandas as pd
boston_df = pd.DataFrame(boston.data,columns = boston.feature_names)
boston_df.head(20)

结果:

2.sklearn”三板斧“操作

实例化-->fit(训练)-->transforms or predict(转化/预测)

from sklearn.preprocessing import StandardScaler
std = StandardScaler(with_mean=False)#实例化
std.fit(boston.data)#训练
std.transform(boston.data)#转化或预测predict

结果:

可以使用help()命令查询相关注释:

help(StandardScaler)#StandardScaler(*, copy=True, with_mean=True, with_std=True)

3.岭回归

from sklearn.linear_model import Ridge #岭回归
ridge = Ridge()
ridge.fit(boston.data,boston.target)
ridge.predict(boston.data)

结果:

4.模型的保存及使用

#模型的保存
import joblib
joblib.dump(ridge,'C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl')

结果:

#使用模型
import joblib
std2 = joblib.load("C:/Users/Lenovo/A-数据挖掘课/ridge20220923.pkl")
from sklearn.datasets import load_boston
boston=load_boston()
std2.predict(boston.data)

结果:

5.对单个数据进行标准化

scale(X, *, axis=0, with_mean=True, with_std=True, copy=True)

axis=0为对列进行计算  
with_mean=True:是否中心化数据(移除均值)
with_std=True:是否均一标准差(除以标准差)
copy=True:是否生成副本而不是替换原数

(1)数据展示

boston_df.head()

结果:

boston_df.describe()

结果:

(2)对preprocessing数据进行标准化

from sklearn import preprocessing
boston_scaled = preprocessing.scale(boston_df)
boston_scaled#[-3,3]

结果:

(3)求均值

boston_scaled.mean(axis = 0)#均值

结果:

一些命令:

boston_scaled_rows = preprocessing.scale(boston_df,axis=1)
boston_scaled_rows.mean(axis=0)#对列求均值
boston_scaled_rows.mean(axis=1)#对行求均值
boston_scaled.std(axis = 0)#标准差

(4)对数据的某些列求标准化

boston_df.head()

结果:

preprocessing.scale(boston_df[['CRIM','ZN']])

结果:

6.在多个数据集上使用相同的标准化

sklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_st =True

copy = True:是否生成副本而不是替换原对象(但这种替换不一定能成功)
with_mean=True:该选项对稀疏矩阵无效

StandardScaler类的属性:
scale_:ndarray,shape(n_features,)
mean_:array of floats with shape
var_:array of floats with shape
n_samples_seen_:int

#from sklearn import datasets
#from sklearn import preprocessing
#import pandas as pd
#boston = datasets.load_boston()
#boston_df = pdf.DataFrame(boston.data,columns = boston.feature_names)
std = preprocessing.StandardScaler()
std.fit(boston_df)
std.mean_,std.scale_
#fit之后求出了原始数据每列的均值和标准表

结果:

7.标准化的一些相关命令

std.get_params()
#查看当前参数值
std.set_params(copy=False)
#设置参数值
std.scale_
#标准化之后的尺度
std.mean_#标准化后的期望

二、将特征变量缩放至特定范围

sklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)将数据缩放至特定的范围内
sklearn,preprocessing.MaxAbsScaler(copy = True)将数据的最大值缩放至1

scale = preprocessing.MinMaxScaler((1,10))
scale.fit_transform(boston_df)

结果:

scaler_1 = preprocessing.MaxAbsScaler()
scaler_1.fit_transform(boston_df)

结果:

三、数据的正则化-求单位向量

sklearn.preprocessing.normalize(x,axis=1,copy=True,norm='l2':'l1','l2',or 'max',用于正则化的具体范数,return_norm=False:是否返回所使用的范数)

import sklearn.preprocessing
x=[[-1,-1,2]]
x_normalized = preprocessing.normalize(x,norm='l2',return_norm = True)
x_normalized

结果:

-1/2.44948974

结果:

Sklearn上机笔记--标准化相关推荐

  1. sklearn上机笔记3:朴素贝叶斯算法实践

    import pandas as pd import numpy as np #导入数据集生成工具 from sklearn.datasets import make_blobs #随机生成500个类 ...

  2. SKlearn学习笔记——XGBoost

    SKlearn学习笔记--XGBoost 1. 概述 1.1 xgboost库与XGB的sklearn API 1.2 XGBoost的三大板块 2. 梯度提升树 2.1 提升集成算法:重要参数 n_ ...

  3. python sklearn学习笔记大全(常见代码速查)

    skleran是python中常见的机器学习包,整理下笔记.方便查询. 官方文档链接:sklearn官方英文文档 常见模型 from sklearn.linear_model import Linea ...

  4. sklearn学习笔记

    1.监督学习 1.1.广义线性模型 1.1.1.普通最小二乘法 class sklearn.linear_model.LinearRegression(fit_intercept=True, norm ...

  5. sklearn 归一化 和 标准化

    from sklearn.preprocessing import MinMaxScaler,MaxAbsScaler,StandardScaler,Normalizer # pip install ...

  6. 机器学习(5.sklearn归一化以及标准化)

    归一化 特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间 注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X'' 为最终结果,mx,mi分别为指定区间值默认mx为1, ...

  7. sklearn学习笔记(一):数据预处理

    文章目录 1.缺失值处理 2. 数据的规范化 2.1 缩放规范化 2.1.1 最大值-最小值缩放 2.1.2 最大绝对值缩放 2.1.3 自定义缩放区间 2.2 标椎化 2.3 范数规范化 3. 非线 ...

  8. sklearn学习笔记之简单线性回归

    简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...

  9. Sklearn——对数据标准化(Normalization)

    文章目录 1.前言 2.数据标准化 3.对比标准化前后 3.1.数据标准化前 3.2.数据标准化后 1.前言 由于数据的偏差与跨度会影响机器学习的成效,因此正规化(标准化)数据可以提升机器学习的成效 ...

最新文章

  1. java socket同步通信,javasocket客户端与服务端同步通信实例
  2. 记录使用Performance API遇到的问题
  3. oracle的all函数,oracle函数 MIN([distinct|all]x)
  4. linux grep 正则搜索某段时间内的日志
  5. MSCRM2011 Current User has Role 【判定当前用户角色方法】
  6. 微信小程序INC自增自减MUL自乘问题
  7. Mysql 重做日志及与二进制日志的区别
  8. java 缓存ech_ehcache获取缓存空指针
  9. java mysql数据库编程_java JDBC数据库(mysql)编程
  10. fork source exec区别差异
  11. Java四大函数式接口
  12. jquery-ui寺
  13. 当 Python 中混进一只薛定谔的猫……
  14. linux安装kafka_巨杉Tech | 基于Kafka+Spark+SequoiaDB实时处理架构快速实战
  15. [转载] 在IDEA中将SpringBoot项目打包成jar包的方法
  16. 机房管理--如何应对学生关闭极域电子教室
  17. (官方win10PE使用)微软官方win10PE取出文件操作教学
  18. ICMP协议解析与实战
  19. 推荐一款免费在线高效作图工具
  20. 如何制作ISO镜像文件

热门文章

  1. 【算法导论】 内部排序算法总结
  2. 在网上开店有哪些好处?最多可以开几个?
  3. 文本批量替换的正则表达式
  4. 0基础转行软件测试从哪开始学,怎么有效学?
  5. u盘格式化了怎样恢复还原
  6. android 魔力锁屏源码,打造最炫手机锁屏桌面 10款安卓魔力锁屏主题推荐
  7. 干货深挖!从写简历,到面试、谈薪酬的那些技巧和防坑指南
  8. 伤害世界怎么自建服务器,《伤害世界Hurtworld》服务器架设方法图文详解 怎么开服?...
  9. 基于java的婚恋交友动态网站
  10. 50种常见Matplotlib科研论文绘图合集!赶紧收藏~~