规范化(normalize)到底是什么,以及哪些算法需要规范化
这是一篇从笔记里摘录的知识点,因为发现在不同的文献或者文章里,对图片数据规范化、归一化的具体方法都不一样,很是困惑。下面这几种,都是广义上的数据规范化
- Data normalization
- Data standarization
- Data streching
总体上来说,standarization与streching都是规范化的选择,只不过他们作用到数据上导致的结果有些许不同,所以有了更为细致的说法。
Data normalization
或者叫做 data (re-)scaling, 数据被映射到一个新定义的范围(通常是[0,1],或[-1,1]),当数据来自不同的数据库,想用同一个算法对其进行处理时,这种方法很有用。
最标准的定义是:
I n e w = I − m i n ( I ) m a x ( I ) − m i n ( I ) ∗ ( n e w m a x − n e w m i n ) I_{new}=\frac{I - min(I)}{max(I)-min(I)}*(newmax - newmin) Inew=max(I)−min(I)I−min(I)∗(newmax−newmin)
当newmax=1, newmin=0时,(即数据被映射到[0,1]之间)
I n e w = I − m i n ( I ) m a x ( I ) − m i n ( I ) I_{new}=\frac{I - min(I)}{max(I)-min(I)} Inew=max(I)−min(I)I−min(I)
也被叫做Min-Max Scaling
还有一个与standarization很类似,需要注意区别的是 Mean Normalization,这可以将数据映射到[-1,1]的范围之间,同时具有均值=0的特性(注意区别,standarization可以使数据均值为0,方差为1)
I n e w = I − m e a n ( I ) m a x ( I ) − m i n ( I ) I_{new}=\frac{I - mean(I)}{max(I)-min(I)} Inew=max(I)−min(I)I−mean(I)
(另外一提,下面这种也可以被称为数据的规范化,|| I ||代表L1 规范化或L2规范化:
I n e w = I ∣ ∣ I ∣ ∣ I_{new}=\frac{I}{||I||} Inew=∣∣I∣∣I
)
Data standarization
是另一种规范化数据方法,standarization和Mean Normalization在很多机器学习中算法中用得多,数据标准化保证了均值为0,方差为1的高斯分布。
I n e w = I − m e a n ( I ) s t d ( I ) I_{new}=\frac{I - mean(I)}{std(I)} Inew=std(I)I−mean(I)
Data streching
(当处理图片时,Data streching也叫做直方图拉伸),数据被截断至给定范围之间。
I n e w = I I n e w [ I < a ] = a I n e w [ I > b ] = b I_{new}=I\\ I_{new}[I < a]=a\\ I_{new}[I > b]=b Inew=IInew[I<a]=aInew[I>b]=b
哪些算法需要数据的scaling
之所以很多机器学习算法需要进行数据的拉伸,是因为算法在计算时使用了数据的欧式距离。
下面这些算法在使用前记得进行数据的scaling工作
- k-nearest neighbors
使用欧式距离的k临近算法对于数据的大小(magnitude)很敏感,因此在使用之前记得将所有特征缩放到大小相同。 - PCA
主成分分析算法会倾向于找到方差最大的特征,而magnitude大的数据也会有更大的方差。如果不进行数据的scaling,pca就会偏向于magnitude大的数据。 - 使用了梯度下降的算法
因为magnitude大的数据,其下降的速度将会小于magnitude小的数据。这会造成极致点寻找过程中低效的震荡现象。 - 使用了正则化参数的算法
- 使用了ridge and lasso regression的算法
哪些算法不需要数据的scaling
- 基于树的模型
因为基于树的模型并不依赖于距离 - 类似于Linear Discriminant Analysis,和Naive Bayes的算法
这些算法在设计的时候,就对特征的大小进行了有效的处理,会分配给不同的特征对应的权重。
规范化(normalize)到底是什么,以及哪些算法需要规范化相关推荐
- Task01算法的规范化和量化度量
1.1算法的规范化和量化度量 ENIAC是一种专用计算机,专门用于解决研制长程火炮过程中的计算问题.EDVAC是世界上第一台程序控制的通用电子计算机,它涵盖了一种通用的计算机的体系结构. 高德纳闻名于 ...
- 算法到底该怎么学?算法数据结构Java编程超全干货!(ACM金牌选手分享超牛学习路径~)...
怎么才能最快的学习算法呢?(ps:文末附2022大厂面试真题~) 这是很多知友都关心的话题,作为一个ACM金牌选手,根据我的专业角度,特给大家来分享一下! 学习算法,切记不要一上来就开始啃<算法 ...
- 到底什么是谱聚类算法?
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:视学算法 谱聚类算法是目前最流行的聚类算法之一,其性能及 ...
- 我们到底该如何学习《数据结构与算法》?
本文出自<愚公要移山>个人博客中,地址www.javachat.cc 收录于<手牵手一起学习数据结构与算法>专栏 前言:我们到底该不该学习算法与数据结构? 1.真的应该学习 这 ...
- 四化大业:论算法工程师的自我修养
前言 本文将根据我的实践经验,讨论一个算法工程师,如何提升自我修养,由菜鸟小白进化为高手. 本文同样不关注某个具体算法那样的"术",也不像<推荐算法的"五环之歌&q ...
- 数据的规范化,归一化,标准化,正则化
原文地址:数据的规范化,归一化,标准化,正则化作者:打湿井盖 数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化 ...
- 【数据挖掘】神经网络 后向传播算法 向前传播输入 案例计算分析 ( 网络拓扑 | 输入层计算 | 隐藏层计算 | 输出层计算 )
文章目录 I . 神经网络 后向传播算法 计算 隐藏层 与 输出层 的输入输出实例分析 II . 神经网络 后向传播算法 输入层公式 III. 神经网络 后向传播算法 输入层计算 IV . 神经网络 ...
- 神策数据算法专家:推荐系统的实践与思考(上)
本文内容来自神策数据<智能推荐--应用场景与技术难点剖析>闭门会分享内容整理,分享者为神策数据算法专家胡士文,分享主题为<推荐系统的实践与思考>. 大家好,在演讲开始前,我对在 ...
- PPT 下载 | 神策数据算法专家:推荐系统的实践与思考(上)
本文内容来自神策数据<智能推荐--应用场景与技术难点剖析>闭门会分享内容整理,分享者为神策数据算法专家胡士文,分享主题为<推荐系统的实践与思考>. 大家好,在演讲开始前,我对在 ...
最新文章
- JS 保持数组长度为3位并且值不重复
- 我熬了几个大夜,学完一套 海外博士 总结的「卷积神经网络、目标检测、OpenCV」笔记!...
- FastAPI 之自动化测试数据库接口
- vs下载python最后一点很慢-python读取大文件越来越慢的原因与解决
- 【AI出牌器】第一次见这么“刺激”的斗地主,胜率高的关键因素竟是......
- 美团AI全景图:吃喝玩乐背后的黑科技
- string 长度_String源码解析
- mysql连接数详解_MySQl 修改最大连接数详解
- html 文件域变滑块,小巧的jQuery区域范围滑块插件noUiSlider
- STM32工作笔记0039---认识电路图中的DS203,MS,L等
- 01-Quartz2D
- 详细Ubuntu桥接模式网络配置过程
- 去除暴风影音2009广告的方法!
- 职称计算机培训一天,职称计算机的培训心得
- 2018年医疗人工智能技术与应用白皮书
- 《云计算与大数据技术应用》
- 企业双运营商出口负载均衡同时冗余备份
- 《转》openstack中删除虚拟主机,状态一直deleting
- 控件的颜色设置(本景色,文本色,文本背景色)
- linux客户端连接iscsi,配置ISCSI客户端(LINUX)redhat5-iSCSI-INITIATOR