归一化、标准化、单位化方法的总结

归一化：常用的方法是对原始数据进行线性变换把数据映射到[0,1]或者[-1,1]之间。变换方法见下文一、二。不同变量往往量纲不同，归一化可以消除量纲对最终结果的影响，是不同变量具有可比性。在不涉及距离度量、协方差计算、数据不符合正态分布时，可使用归一化方法。比如图像处理中，将RGB图像转换为灰度图向后，将其值限定在[0,255]的范围等。

标准化：常用的方法是z-score标准化，镜柜处理后数据均值为0，标准差为1。该标准化方法要求原始数据的分布可以近似为高斯分布，均值为0，标准差为1,。在分类、聚类算法中，需要使用距离来度量相似性的时候，或者PCA技术进行降维的时候，Z-score standardization表现的更好。

单位化：单位化处理比较简单。就是每个矩阵除以他自己的模。模的计算时矩阵中每个元素的平方和再开方。

一、L1 normalization, L2 normalization, Lp normalization

无论传统图像处理，还是深度学习，我们经常会听说存在L1 normalization，L2 normalization，那么这些归一化是什么呢？在统计学习中，归一化的具体作用是归纳归一样本的统计分布性。归一化在0~1之间是统计的概率分布，归一化在-1~+1之间是统计的坐标分布。即该函数在（负无穷，正无穷）的积分为1。

下图为pytorch官网normalize的定义和实现方程

从公式中可以看出这是一个Lp normalize，p表示1,2，...，n。sigma是一个极小的小数，为了防止分母为0时所做的处理。

对于L1来说，p=1，分母就是上图中的示例1。对于L2来说，p=2，分母就是上图中的示例2。对于Lp来说，分母就是上图中的示例3。

比如存在数：

L1 normalize的结果和L2 normalize的结果如下：

pytorch计算结果：

Lp normalization归一化范围：[-1, 1]

所以往后可以使用Lp normalize了，方便简单。

二、使用最大最小值进行归一化处理

1. Rescaling

其中：

min(x)：数据分布的最小值

max(x)：数据分布的最大值

作用：计算出每个样本的比例值。

取值范围：[0,1]

2. Mean Normalization

其中：

mean(x)：数据分布中的均值

min(x)：数据分布的最小值

max(x)：数据分布的最大值

作用：计算出每个样本的比例值。

取值范围：[-1,1]

三、符合正态分布的标准化处理

常用的方法是z-score标准化，镜柜处理后数据均值为0，标准差为1。

其中：

u：表示均值，mean

sigma：表示标准差，std

标准化处理就是数据减去均值然后除以标准差，使其分布符合正态分布。

标准差 = 方差的算数平方根

该标准化方法要求原始数据的分布可以近似为高斯分布，均值为0，标准差为1,。在分类、聚类算法中，需要使用距离来度量相似性的时候，或者PCA技术进行降维的时候，Z-score standardization表现的更好。

四、使用最大最小值进行归一化处理。

Scaling to unit length

单位化处理比较简单。就是每个矩阵除以他自己的模。模的计算时矩阵中每个元素的平方和再开方。

归一化、标准化、单位化方法的总结相关推荐

解读：为什么要做特征归一化/标准化？
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:shine-lee,编辑:极市平台本文解读了一项数据预处理中的重 ...
关于你不知道的特征归一化/标准化
目录 1. Feature scaling 的必要性 2. 常用的Feature scaling方法有什么 3. 什么时候需要feature scaling 4. 什么情况不需要Feature 1. ...
数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...
为什么要做特征归一化/标准化？
作者:shine-lee 来源:极市平台公众号链接:https://blog.csdn.net/blogshinelee/article/details/102875044 编辑:王萌(深度学习冲鸭 ...
R语言ggplot2可视化：可视化人口金字塔图、人口金字塔显示不同性别不同年龄段的人口数，是了解人口组成的最优可视化方法、人口金字塔图可以用来表示按体积排序的群体的分布、形成漏斗结构
R语言ggplot2可视化:可视化人口金字塔图.人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法.人口金字塔图可以用来表示按体积排序的群体的分布.形成漏斗结构(Populati ...
Python使用matplotlib可视化人口金字塔图、人口金字塔显示不同性别不同年龄段的人口数，是了解人口组成的最优可视化方法、人口金字塔图可以用来表示按体积排序的群体的分布、形成漏斗结构
Python使用matplotlib可视化人口金字塔图.人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法.人口金字塔图可以用来表示按体积排序的群体的分布.形成漏斗结构(Popu ...
清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码...
近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...
java 求集合平均数_图像二值化方法介绍（转载学习）
ImageJ中图像二值化方法介绍概述二值图像分析在对象识别与模式匹配中有重要作用,同时也在机器人视觉中也是图像处理的关键步骤,选择不同图像二值化方法得到的结果也不尽相同.本文介绍超过十种以上的基于 ...
SublimeText3.2.1的汉化方法(也适用于3）
SublimeText3.2.1的汉化方法(也适用于3) [http://www.sublimetext.cn/]( http://www.sublimetext.cn/) [Sublime Text ...

归一化、标准化、单位化方法的总结

归一化、标准化、单位化方法的总结相关推荐

最新文章

热门文章