这是一篇从笔记里摘录的知识点,因为发现在不同的文献或者文章里,对图片数据规范化、归一化的具体方法都不一样,很是困惑。下面这几种,都是广义上的数据规范化

  • Data normalization
  • Data standarization
  • Data streching
    总体上来说,standarization与streching都是规范化的选择,只不过他们作用到数据上导致的结果有些许不同,所以有了更为细致的说法。

Data normalization

或者叫做 data (re-)scaling, 数据被映射到一个新定义的范围(通常是[0,1],或[-1,1]),当数据来自不同的数据库,想用同一个算法对其进行处理时,这种方法很有用。
最标准的定义是

I n e w = I − m i n ( I ) m a x ( I ) − m i n ( I ) ∗ ( n e w m a x − n e w m i n ) I_{new}=\frac{I - min(I)}{max(I)-min(I)}*(newmax - newmin) Inew​=max(I)−min(I)I−min(I)​∗(newmax−newmin)
当newmax=1, newmin=0时,(即数据被映射到[0,1]之间)
I n e w = I − m i n ( I ) m a x ( I ) − m i n ( I ) I_{new}=\frac{I - min(I)}{max(I)-min(I)} Inew​=max(I)−min(I)I−min(I)​
也被叫做Min-Max Scaling

还有一个与standarization很类似,需要注意区别的是 Mean Normalization,这可以将数据映射到[-1,1]的范围之间,同时具有均值=0的特性注意区别,standarization可以使数据均值为0,方差为1
I n e w = I − m e a n ( I ) m a x ( I ) − m i n ( I ) I_{new}=\frac{I - mean(I)}{max(I)-min(I)} Inew​=max(I)−min(I)I−mean(I)​
(另外一提,下面这种也可以被称为数据的规范化,|| I ||代表L1 规范化或L2规范化:
I n e w = I ∣ ∣ I ∣ ∣ I_{new}=\frac{I}{||I||} Inew​=∣∣I∣∣I​
)

Data standarization

是另一种规范化数据方法,standarization和Mean Normalization在很多机器学习中算法中用得多,数据标准化保证了均值为0,方差为1的高斯分布。
I n e w = I − m e a n ( I ) s t d ( I ) I_{new}=\frac{I - mean(I)}{std(I)} Inew​=std(I)I−mean(I)​

Data streching

(当处理图片时,Data streching也叫做直方图拉伸),数据被截断至给定范围之间。
I n e w = I I n e w [ I &lt; a ] = a I n e w [ I &gt; b ] = b I_{new}=I\\ I_{new}[I &lt; a]=a\\ I_{new}[I &gt; b]=b Inew​=IInew​[I<a]=aInew​[I>b]=b

哪些算法需要数据的scaling

之所以很多机器学习算法需要进行数据的拉伸,是因为算法在计算时使用了数据的欧式距离
下面这些算法在使用前记得进行数据的scaling工作

  • k-nearest neighbors
    使用欧式距离的k临近算法对于数据的大小(magnitude)很敏感,因此在使用之前记得将所有特征缩放到大小相同。
  • PCA
    主成分分析算法会倾向于找到方差最大的特征,而magnitude大的数据也会有更大的方差。如果不进行数据的scaling,pca就会偏向于magnitude大的数据。
  • 使用了梯度下降的算法
    因为magnitude大的数据,其下降的速度将会小于magnitude小的数据。这会造成极致点寻找过程中低效的震荡现象。
  • 使用了正则化参数的算法
  • 使用了ridge and lasso regression的算法

哪些算法不需要数据的scaling

  • 基于树的模型
    因为基于树的模型并不依赖于距离
  • 类似于Linear Discriminant Analysis,和Naive Bayes的算法
    这些算法在设计的时候,就对特征的大小进行了有效的处理,会分配给不同的特征对应的权重。

规范化(normalize)到底是什么,以及哪些算法需要规范化相关推荐

  1. Task01算法的规范化和量化度量

    1.1算法的规范化和量化度量 ENIAC是一种专用计算机,专门用于解决研制长程火炮过程中的计算问题.EDVAC是世界上第一台程序控制的通用电子计算机,它涵盖了一种通用的计算机的体系结构. 高德纳闻名于 ...

  2. 算法到底该怎么学?算法数据结构Java编程超全干货!(ACM金牌选手分享超牛学习路径~)...

    怎么才能最快的学习算法呢?(ps:文末附2022大厂面试真题~) 这是很多知友都关心的话题,作为一个ACM金牌选手,根据我的专业角度,特给大家来分享一下! 学习算法,切记不要一上来就开始啃<算法 ...

  3. 到底什么是谱聚类算法?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:视学算法 谱聚类算法是目前最流行的聚类算法之一,其性能及 ...

  4. 我们到底该如何学习《数据结构与算法》?

    本文出自<愚公要移山>个人博客中,地址www.javachat.cc 收录于<手牵手一起学习数据结构与算法>专栏 前言:我们到底该不该学习算法与数据结构? 1.真的应该学习 这 ...

  5. 四化大业:论算法工程师的自我修养

    前言 本文将根据我的实践经验,讨论一个算法工程师,如何提升自我修养,由菜鸟小白进化为高手. 本文同样不关注某个具体算法那样的"术",也不像<推荐算法的"五环之歌&q ...

  6. 数据的规范化,归一化,标准化,正则化

    原文地址:数据的规范化,归一化,标准化,正则化作者:打湿井盖 数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化 ...

  7. 【数据挖掘】神经网络 后向传播算法 向前传播输入 案例计算分析 ( 网络拓扑 | 输入层计算 | 隐藏层计算 | 输出层计算 )

    文章目录 I . 神经网络 后向传播算法 计算 隐藏层 与 输出层 的输入输出实例分析 II . 神经网络 后向传播算法 输入层公式 III. 神经网络 后向传播算法 输入层计算 IV . 神经网络 ...

  8. 神策数据算法专家:推荐系统的实践与思考(上)

    本文内容来自神策数据<智能推荐--应用场景与技术难点剖析>闭门会分享内容整理,分享者为神策数据算法专家胡士文,分享主题为<推荐系统的实践与思考>. 大家好,在演讲开始前,我对在 ...

  9. PPT 下载 | 神策数据算法专家:推荐系统的实践与思考(上)

    本文内容来自神策数据<智能推荐--应用场景与技术难点剖析>闭门会分享内容整理,分享者为神策数据算法专家胡士文,分享主题为<推荐系统的实践与思考>. 大家好,在演讲开始前,我对在 ...

最新文章

  1. JS 保持数组长度为3位并且值不重复
  2. 我熬了几个大夜,学完一套 海外博士 总结的「卷积神经网络、目标检测、OpenCV」笔记!...
  3. FastAPI 之自动化测试数据库接口
  4. vs下载python最后一点很慢-python读取大文件越来越慢的原因与解决
  5. 【AI出牌器】第一次见这么“刺激”的斗地主,胜率高的关键因素竟是......
  6. 美团AI全景图:吃喝玩乐背后的黑科技
  7. string 长度_String源码解析
  8. mysql连接数详解_MySQl 修改最大连接数详解
  9. html 文件域变滑块,小巧的jQuery区域范围滑块插件noUiSlider
  10. STM32工作笔记0039---认识电路图中的DS203,MS,L等
  11. 01-Quartz2D
  12. 详细Ubuntu桥接模式网络配置过程
  13. 去除暴风影音2009广告的方法!
  14. 职称计算机培训一天,职称计算机的培训心得
  15. 2018年医疗人工智能技术与应用白皮书
  16. 《云计算与大数据技术应用》
  17. 企业双运营商出口负载均衡同时冗余备份
  18. 《转》openstack中删除虚拟主机,状态一直deleting
  19. 控件的颜色设置(本景色,文本色,文本背景色)
  20. linux客户端连接iscsi,配置ISCSI客户端(LINUX)redhat5-iSCSI-INITIATOR

热门文章

  1. WinFrom中TreeView中的应用
  2. 区块链+物联网助力智慧农业新发展
  3. 常见几个设计模式(面试自自备)
  4. FFmpeg框架与媒体处理
  5. 王见:1招提高10倍转化揭密!
  6. 保持宽度不变裁剪图片 html,固定长宽的img标签如何保持里面的图片不缩放
  7. 使用Maven Archetype创建Java项目模板
  8. 各个组件表单 校验时自动定位到未填处
  9. 离散余弦DCT域的数字水印
  10. 安卓图片自适应高度时图片长度过大的解决方案