都在说加正则化项能防止过拟合,可是为什么它可以防止过拟合呢呢

说这个东西之前我们先讲一下什么是 L2 范数,以及什么是过拟合

L2范数

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,一方面可以使得W的个数少些,另一方面可以使得W的每个元素都很小,都接近于0。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?我们等会儿来说

在机器学习里面一般的是

C = C 0 + λ ∥ w ∥ 2 C={{C}_{0}}+\lambda {{\left\| w \right\|}_{2}} C=C0​+λ∥w∥2​

其中C0代表原始的代价函数,后面那一项就是L2正则化项

更多向量的范数见这篇博文 https://blog.csdn.net/qq_43657442/article/details/105240103

矩阵的范数见这篇 https://blog.csdn.net/qq_43657442/article/details/105240853

过拟合

过拟合(overfitting,或称拟合过度)是指过于紧密或精确地匹配特定(训练)数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。 过拟合通常由于数据相对有限而且参数过多或者结构过于复杂的统计模型引起。

比如下图的绿线就是过拟合的表现

讲完什么是 L2范数,什么是过拟合了之后,我们再来看看刚才说的为什么越小的参数说明模型越简单?这个问题

为什么越小的参数说明模型越简单?

过拟合的时候,拟合函数的系数往往非常大,为什么?过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。上图绿线,是不是波动较大

这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

来个实际点的例子,就以上面的过拟合那张图来讲

黑线的多项式方程使这个

f w ( x ) = w 0 + w 1 x 1 + w 2 x 2 + w 3 x 1 2 + w 4 x 2 2 + w 5 x 1 x 2 {{f}_{w}}(x)={{w}_{0}}+{{w}_{1}}{{x}_{1}}+{{w}_{2}}{{x}_{2}}+{{w}_{3}}x_{1}^{2}+{{w}_{4}}x_{2}^{2}+{{w}_{5}}{{x}_{1}}{{x}_{2}} fw​(x)=w0​+w1​x1​+w2​x2​+w3​x12​+w4​x22​+w5​x1​x2​

绿线是这个

f w ( x ) = w 0 + w 1 x 1 + w 2 x 1 2 + w 3 x 1 2 x 2 + w 4 x 1 2 x 2 2 + w 5 x 1 3 x 2 + w 6 x 1 x 2 2 + w 6 x 1 2 x 2 3 + ⋯ {{f}_{w}}(x)={{w}_{0}}+{{w}_{1}}{{x}_{1}}+{{w}_{2}}x_{1}^{2}+{{w}_{3}}x_{1}^{2}{{x}_{2}}+{{w}_{4}}x_{1}^{2}x_{2}^{2}+{{w}_{5}}x_{1}^{3}x_{2}^{{}}+{{w}_{6}}x_{1}^{{}}x_{2}^{2}+{{w}_{6}}x_{1}^{2}x_{2}^{3}+\cdots fw​(x)=w0​+w1​x1​+w2​x12​+w3​x12​x2​+w4​x12​x22​+w5​x13​x2​+w6​x1​x22​+w6​x12​x23​+⋯

那么我们来想。从图上看,绿线在纵轴(x2)方向的变化率是蛮大的吧(对x2的偏导蛮大),这意味着什么呢?

∂ f w ( x ) ∂ x 2 = w 3 x 1 2 + 2 w 4 x 1 2 x 2 + w 5 x 1 3 + 2 w 6 x 1 x 2 + 3 w 6 x 1 2 x 2 2 + ⋯ \frac{\partial {{f}_{w}}(x)}{\partial {{x}_{2}}}={{w}_{3}}x_{1}^{2}+2{{w}_{4}}x_{1}^{2}x_{2}^{{}}+{{w}_{5}}x_{1}^{3}+2{{w}_{6}}x_{1}^{{}}x_{2}^{{}}+3{{w}_{6}}x_{1}^{2}x_{2}^{2}+\cdots ∂x2​∂fw​(x)​=w3​x12​+2w4​x12​x2​+w5​x13​+2w6​x1​x2​+3w6​x12​x22​+⋯

看这儿,这儿的x1(横轴)变化很小吧,但是曲线的变化幅度大吧,即说明这儿的对x2的偏导比较大,偏导上面求出来了,x1变化很小的情况下,要让偏导比较大,那么只有,参数 w 比较多,参数比较大两种可能能让他比较大

我们用 L2 范数 ∥ w ∥ 2 {{\left\| w \right\|}_{2}} ∥w∥2​ 刚好不是有这个作用吗,一方面可以使得W的个数少些,另一方面可以使得W的每个元素都很小,都接近于0。

所以这样一来刚好就让曲线的变化幅度不剧烈了,变化幅度不剧烈,不就意味着不容易过拟合了吗

以上是我的一个思考,虽然不一定对,但是我觉得这样讲得通,网上也没有一个好的说法,暂时先这样理解吧,等我多读点书,如果有不对的再更新

为什么L2范数能防止过拟合相关推荐

  1. L1、L2范数如何解决过拟合问题

    范数一般当做距离来理解.过拟合问题的通俗理解就是泛化能力过强,在最小化误差的同时使模型尽可能的拟合训练数据,学习的特征越多,模型的复杂度越高,测试时的误差也就越大.像决策树的叶子结点越多,这时我们就要 ...

  2. 简单理解L0、L1与L2范数

    机器学习中的范数规则化之(一)L0.L1与L2范数 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters&qu ...

  3. L0、L1、L2 范数

    为什么正则化能够降低过拟合 : 为什么正则化能够降低过拟合 · 神经网络与深度学习 正则化的解释:  正则化 · 神经网络与深度学习 机器学习中正则化项L1和L2的直观理解: 机器学习中正则化项L1和 ...

  4. Machine Learning系列--L0、L1、L2范数

    今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个 ...

  5. 什么是范数(norm)?以及L1,L2范数的简单介绍

    什么是范数? 范数,是具有"距离"概念的函数.我们知道距离的定义是一个宽泛的概念,只要满足非负.自反.三角不等式就可以称之为距离.范数是一种强化了的距离概念,它在定义上比距离多了一 ...

  6. l2范数求导_稀疏编码学习笔记(二)L2范数

    L2范数 除了L1范数,还有一种更受宠幸的规则化范数是L2范数: ||W||2.它也不逊于L1范数,它有两个美称,在回归里面,有人把有它的回归叫"岭回归"(Ridge Regres ...

  7. 机器学习基础-23:矩阵理论(L0/L1/L2范数等)

    机器学习基础-23:矩阵理论(L0/L1/L2范数等) 机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 线性代数是数学的一个分支,广泛应用于科学和工程领域.线性代数和矩阵理论是机器学 ...

  8. 机器学习中的范数规则化之(一)L0、L1与L2范数

    机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 参考资料:<机器学习中常常提到的正则化到底是什么意思? ...

  9. l2范数求导_机器学习中的范数规则化之(一)L0、L1与L2范数 非常好,必看

    机器学习中的范数规则化之(一)L0.L1与L2范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题 ...

最新文章

  1. windows 检查cuda安装_Windows环境CUDA 4.0:安装与验证
  2. nginx的内存池及内存管理
  3. Eclipse无法连接真机 并非ADB被占用 原因 很2 已解决 记录之
  4. Nacos源码更服务列表
  5. pycharm中如何正确配置pyqt5
  6. subscribe error不执行_你不知道的redis:第三方jar无封装命令我们该怎么执行?
  7. linux目录硬链接,linux查看硬链接对应的所有文件
  8. display:inline-block;在各浏览器下的问题和终极兼容办法
  9. Hive on Spark与SparkSql的区别
  10. 判断浏览器类型和版本
  11. CurrentUser获取不到当前登录用户name
  12. python转换unicode_转-Python Unicode与中文处理
  13. “华为杯”——中国研究生数学建模大赛相关解读及LaTeX模版、算法、真题、优秀论文等相关资源分享(超详细)
  14. LODOP打印分页出现空白页
  15. 错误提示 relocation overflow in R_ARM_THM_CALL
  16. Android心率测试
  17. 一起来DIY一个人工智能实验室吧
  18. URL 的参数(query)是什么,以及如何解析获取
  19. Spring框架(容器)--简介(实现原理、核心模块、组成部分)
  20. 第十届蓝桥杯(国赛)——拼接

热门文章

  1. 精科智创科技公司发布2022年版 PVDF压电薄膜制备及、加工及测试一体化平台设备购置预算明细表
  2. 在高温环境下利用金属钋、铍和锂制备氚化锂的方法
  3. 【案例练习】12—50 个从今天就可以开始做起来的小型Web项目
  4. Java动态处理PDF合同模板并下载
  5. 计算机绘图试卷分析范文,制图员考试分析.doc
  6. XMPP协议 好友管理(协议)
  7. 【Kotlin 协程】协程简介 ( 协程概念 | 协程作用 | 创建 Android 工程并进行协程相关配置开发 | 异步任务与协程对比 )
  8. 烧心吃什么马上能缓解11 oracle,烧心吃什么马上能缓解
  9. RTFKT 的 Meta Dungeon 来啦
  10. 自己开店怎么选会员卡管理系统