归一化、标准化、单位化方法的总结
归一化:常用的方法是对原始数据进行线性变换把数据映射到[0,1]或者[-1,1]之间。变换方法见下文一、二。不同变量往往量纲不同,归一化可以消除量纲对最终结果的影响,是不同变量具有可比性。在不涉及距离度量、协方差计算、数据不符合正态分布时,可使用归一化方法。比如图像处理中,将RGB图像转换为灰度图向后,将其值限定在[0,255]的范围等。
标准化:常用的方法是z-score标准化,镜柜处理后数据均值为0,标准差为1。该标准化方法要求原始数据的分布可以近似为高斯分布,均值为0,标准差为1,。在分类、聚类算法中,需要使用距离来度量相似性的时候,或者PCA技术进行降维的时候,Z-score standardization表现的更好。
单位化:单位化处理比较简单。就是每个矩阵除以他自己的模。模的计算时矩阵中每个元素的平方和再开方。
一、L1 normalization, L2 normalization, Lp normalization
无论传统图像处理,还是深度学习,我们经常会听说存在L1 normalization,L2 normalization,那么这些归一化是什么呢?在统计学习中,归一化的具体作用是归纳归一样本的统计分布性。归一化在0~1之间是统计的概率分布,归一化在-1~+1之间是统计的坐标分布。即该函数在(负无穷,正无穷)的积分为1。
下图为pytorch官网normalize的定义和实现方程
从公式中可以看出这是一个Lp normalize,p表示1,2,...,n。sigma是一个极小的小数,为了防止分母为0时所做的处理。
对于L1来说,p=1,分母就是上图中的示例1。对于L2来说,p=2,分母就是上图中的示例2。对于Lp来说,分母就是上图中的示例3。
比如存在数:
L1 normalize的结果和L2 normalize的结果如下:
pytorch计算结果:
Lp normalization归一化范围:[-1, 1]
所以往后可以使用Lp normalize了,方便简单。
二、使用最大最小值进行归一化处理
1. Rescaling
其中:
min(x):数据分布的最小值
max(x):数据分布的最大值
作用:计算出每个样本的比例值。
作用:计算出每个样本的比例值。
取值范围:[0,1]
2. Mean Normalization
其中:
mean(x):数据分布中的均值
min(x):数据分布的最小值
max(x):数据分布的最大值
作用:计算出每个样本的比例值。
取值范围:[-1,1]
三、符合正态分布的标准化处理
常用的方法是z-score标准化,镜柜处理后数据均值为0,标准差为1。
其中:
u:表示均值,mean
sigma:表示标准差,std
标准化处理就是数据减去均值然后除以标准差,使其分布符合正态分布。
标准差 = 方差的算数平方根
该标准化方法要求原始数据的分布可以近似为高斯分布,均值为0,标准差为1,。在分类、聚类算法中,需要使用距离来度量相似性的时候,或者PCA技术进行降维的时候,Z-score standardization表现的更好。
四、使用最大最小值进行归一化处理。
Scaling to unit length
单位化处理比较简单。就是每个矩阵除以他自己的模。模的计算时矩阵中每个元素的平方和再开方。
归一化、标准化、单位化方法的总结相关推荐
- 解读:为什么要做特征归一化/标准化?
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:shine-lee,编辑:极市平台 本文解读了一项数据预处理中的重 ...
- 关于你不知道的特征归一化/标准化
目录 1. Feature scaling 的必要性 2. 常用的Feature scaling方法有什么 3. 什么时候需要feature scaling 4. 什么情况不需要Feature 1. ...
- 数据预处理之归一化/标准化/正则化/零均值化
数据预处理之归一化/标准化/正则化/零均值化 一.标准化(Standardization) 二.归一化(Normalization) 三,中心化/零均值化 (Zero-centered) 四.正则化 ...
- 为什么要做特征归一化/标准化?
作者:shine-lee 来源:极市平台公众号 链接:https://blog.csdn.net/blogshinelee/article/details/102875044 编辑:王萌(深度学习冲鸭 ...
- R语言ggplot2可视化:可视化人口金字塔图、人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法、人口金字塔图可以用来表示按体积排序的群体的分布、形成漏斗结构
R语言ggplot2可视化:可视化人口金字塔图.人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法.人口金字塔图可以用来表示按体积排序的群体的分布.形成漏斗结构(Populati ...
- Python使用matplotlib可视化人口金字塔图、人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法、人口金字塔图可以用来表示按体积排序的群体的分布、形成漏斗结构
Python使用matplotlib可视化人口金字塔图.人口金字塔显示不同性别不同年龄段的人口数,是了解人口组成的最优可视化方法.人口金字塔图可以用来表示按体积排序的群体的分布.形成漏斗结构(Popu ...
- 清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码...
近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...
- java 求集合平均数_图像二值化方法介绍(转载学习)
ImageJ中图像二值化方法介绍 概述 二值图像分析在对象识别与模式匹配中有重要作用,同时也在机器人视觉中也是图像处理的关键步骤,选择不同图像二值化方法得到的结果也不尽相同.本文介绍超过十种以上的基于 ...
- SublimeText3.2.1的汉化方法(也适用于3)
SublimeText3.2.1的汉化方法(也适用于3) [http://www.sublimetext.cn/]( http://www.sublimetext.cn/) [Sublime Text ...
最新文章
- java---编写一个方法,返回一个int型的二维数组,数组中的元素通过解析字符串参数获得。
- python调用所有函数_python打印所有函数调用以了解脚本
- VC小技巧(网上搜的)
- R语言时间序列数据应用xts
- python路径规划算法可视化_路径规划问题:DIJKSTRA算法 以及Python实现
- gawk如何在win7安装_电脑怎样安装win7系统
- 70多个国家地区免费享受wifi
- 随机生成关于银行卡号的字典(卡号以6102009开头,后面依次是001,002,...)
- Kindle 助手上线啦
- java jdbc jar包_大数据从入门到深入:JavaEE 之 数据库技术 JDBC(1)
- redis zset转set 反序列化失败_关于Redis中的五种数据结构,要知其然知其所以然...
- java注解获取参数_JAVA 自定义注解及参数获取 | 学步园
- 19【推荐系统13】FNN——TensorFlow2实现
- pmp第六版错题集6.1
- jQuery实现留言板功能
- wow.js动画插件
- 学籍管理的c语言程序代码,学生学籍管理系统-C语言程序代码
- CSS字体颜色,文本装饰线,删除线
- Win10 双屏:主屏和左右屏设置
- MindSpore数据集加载-GeneratorDataset数据处理报错:The pointer[cnode] is null
热门文章
- 叮当快药-登录协议+例程
- 谷歌piexl手机如何刷机 root
- [AcWing]827. 双链表(C++实现)双链表模板题
- qt如何去掉文件路径最后一个反斜杠的内容
- 喊话程序员:Sketch设计作图切图利器,你值得拥有。
- matlab 李萨如_用Matlab研究李萨如图形及其讨论
- 股票估值模型基础-股票内在价值的计算方法
- 中国空间站:无缘登月中转站,却是技术试验场
- CAD 实验4 二维图形变换
- 计算机考试计算学生均值,2018年职称计算机考试Excel考点:求平均值函数AVERAGE...