版权声明:本文为博主原创文章,转载请指明转载地址

一、纲要

  欠拟合和过拟合

  代价函数正则化

  正则化线性回归

  正则化逻辑回归

二、内容详述

  1、欠拟合和过拟合

  欠拟合,也叫高偏差,就是没有很好的拟合数据集的情况。如下图中的左图所示

  过拟合,也叫高方差,就是虽然高阶多项式可以完美的拟合所有的数据,但会导致函数过于庞大,变量太多而我们又没有足够的数据来约束这个模型,这就是过度拟合。过度拟合的原因,简单来说就是过多的特征变量和过少的数据集。如下图右。

  过拟合带来的效果就是,虽然可以完美的拟合现有的数据集,但是在预测新数据方面却表现的不尽如人意。所以最适合的还是中间的方式。

  当然上面是线性回归的过拟合问题,逻辑回归中也存在这样的问题,就以多项式理解,阶数越高,拟合程度越好,但是预测方面就表现的很差。那么如何解决这些问题呢?这里就要引入“正则化”的概念!

  2、代价函数正则化

  以第一个问题中的线性回归过拟合为例,我们应该怎样用正则化解决这个问题呢?我们知道如果让高次项系数为0的话,我们就可以比较好的进行拟合。所以我们假设代价函数是,然后在求解代价函数J最小化的

过程中我们就会使Θ3、Θ4尽可能的小,这样的话高次项就趋于0,就能很好的解决这个问题。这就给了我们正则化算法的启示。

  我们在代价函数J后面加入一个正则项,代价函数就变为,其中λ为正则化参数。需要注意的是,这里的正则项Θ的Θj是从j=1开始到j=n为止,而不包括Θ0,虽然加与不加Θ0的结果相差不大,但是按照惯例一般Θ0单独考虑。所以我们在使用梯度算法的时候Θ0的参数更新要与其他Θj分开考虑。

  这里需要强调的一点是,正则化参数的选择非常重要,如果λ过大,那么就会使得Θj(j=1,2,3...n)都基本趋于0,也就是只剩下hθ(x)=θ0,就如下图的情况,这样就变成了欠拟合的问题(Too big lamda),而当λ选择合适的话,过拟合的曲线(Unregulated)就会变成良好的Regulated

  3、正则化线性回归

  正则化线性回归的代价函数J为,在使用梯度下降法之前需要对J进行偏导,,然后带入梯度下降法得到:,之前说过这里Θ0的参数更新要与其他Θj分开考虑的原因。对θj进行调整得到,这个式子是不是很熟悉?跟之前的梯度下降法参数更新公式很像,区别只是θj变成了θj(1-α*(λ/m)),这里1-α*(λ/m)就是一个小于1的常数,可能是0.99或0.98.这里可以看出正则化线性回归的梯度下降算法的变化在于,每次都在原有的更新规则的基础上令θ额外减去一个值。

  之前我们说的线性回归还有一种正规方程解法,我们同样可以对线性回归正规方程进行正则化,方法为

X = [(x(0))T    (x(1))T    (x(2))T    ...    (x(n))T]T,y=[y(1)    y(2)    y(3)    ...    y(m)]T,X是m*(n+1)维矩阵,y为m*1维矩阵

图中矩阵的尺寸为(n+1)*(n+1)

  4、正则化逻辑回归

  代价函数为,用梯度下降法进行参数更新得到的方程为:

这里虽然形式跟线性回归的梯度下降法一样,但是由于hθ(x)的不同,所以两者还是有很大差别

  

转载于:https://www.cnblogs.com/kl2blog/p/7712210.html

斯坦福2014机器学习笔记五----正则化相关推荐

  1. 斯坦福大学机器学习第五课正则化“

    斯坦福大学机器学习第五课"正则化" 本次课程主要包括4部分: 1)  The Problem of Overfitting(过拟合问题) 2)  Cost Function(成本函 ...

  2. 机器学习笔记之正则化(一)拉格朗日乘数法角度

    机器学习笔记之正则化--拉格朗日乘数法角度 引言 回顾:基于正则化的最小二乘法 正则化描述 正则化的优化对象 常见的正则化方法 正则化角度处理神经网络的过拟合问题 场景构建 最优模型参数的不确定性 最 ...

  3. 斯坦福大学机器学习笔记(2)逻辑回归

    上一篇线性回归是连续的量,用的是梯度下降或者正规方程来求解. 这一篇讲 分类 离散的量. 课程官网 吴恩达老师机器学习课程笔记 斯坦福大学的课程视频 判定边界 首先随便不管是什么参数θ,我们需要的是输 ...

  4. 吴恩达机器学习笔记 —— 8 正则化

    http://www.cnblogs.com/xing901022/p/9338467.html 本章讲述了机器学习中如何解决过拟合问题--正则化.讲述了正则化的作用以及在线性回归和逻辑回归是怎么参与 ...

  5. 斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑

    作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢 声明:此系列博文根据斯坦福CS229课程,吴恩达主讲 所写,为本人自学笔记,写 ...

  6. 机器学习笔记(五)神经网络

    5.神经网络 5.1神经元模型 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应.对这句话的理解,简单提要下,主角是简单单元(输入单 ...

  7. 吴恩达机器学习笔记五之神经网络

    本节目录: 1.非线性假设 2. 神经元和大脑 3. 模型表示 4. 特征的直观理解 5. 样本的直观理解 6. 多类分类 1 非线性假设 假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是 ...

  8. 机器学习笔记(五)回归模型

    1.线性回归模型 1.广义线性模型 也就是x和y的线性组合也就是: y = w1x1+w2x2-+wnxn+b coef_是系数矩阵w =[w1,w2-wn],intercept_就是截距 2.普通最 ...

  9. 机器学习笔记~五种常见的聚类算法简介

    参考:https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef ...

最新文章

  1. Docker学习(一)Ubuntu版本的Docker安装和使用
  2. 领取Virmach免费Minecraft主机搭建“我的世界”服务器
  3. Android Socket编程
  4. 广汽研究院BMS软件工程师_感·创未来 2020广汽科技日有哪些干货?
  5. Pytorch cifar100离线加载二进制文件
  6. html分页 css,js+css实现的简单易用兼容好的分页
  7. 【06年博文搬家】一个修改时间的批处理程序
  8. UVA10014 Simple calculations【数列】
  9. Windows安装MySQL 5.7.19及相关问题处理
  10. 机构、基民双输,基金销售的利益困局如何破?
  11. java比较时间大小
  12. CHIP-seq流程学习笔记(11)-使用GSEA软件进行GSEA分析
  13. 计算机处理答题卡原理,中高考答题卡扫描进电脑原来是这样的!难怪要被多扣分了(附卷面高分八法)...
  14. Unity 之 贝塞尔曲线介绍和实际使用
  15. Gentoolinux安装教程
  16. Win10禁用管理员帐户后无法进入的两种解决方法
  17. ubuntu下搭建不同端口网站
  18. OpenNLP学习笔记1
  19. 笔记 -- 电磁学基础2
  20. 华为系统鸿蒙命名的哲学含义,鸿蒙什么意思?华为自研操作系统为何叫鸿蒙?

热门文章

  1. Mybatis深入了解(四)----输入输出映射
  2. 通过SQL Server 2008 访问MySQL
  3. python删除中文停用词_python词云 wordcloud+jieba生成中文词云图
  4. PRML-github code使用两个小攻略
  5. 泛架构之于外包IT工程
  6. OpenCV学习之路之OpenCV安装(VS2013版)
  7. JS中 let 和var的区别
  8. c#-检查USB硬件变化
  9. C++ leetcode 7. 整数反转 给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。
  10. 【upc 9541 矩阵乘法】非正解