目录

一、代价函数(平方代价函数)

二、梯度下降法(迭代式)

1、定义:将代价函数或一般函数最小化的方法

2、特点:不同点开始梯度下降会获得不同的局部最优解

3、公式:

3.1详解公式(运行方式)

4、梯度下降法结合代价函数

5、矩阵运算的作用

6、多特征变量(多元线性回归)

三、多元梯度下降法

1、梯度下降运算中的实用技巧

(1)特征缩放

(2)学习率α

(3)定义新的特征,得到更好的模型

四、正规方程(一次性求解)

1、求法:

2、适用范围

3、正规方程及其不可逆性(进阶选学材料)


一、代价函数(平方代价函数)

pass

二、梯度下降法(迭代式)

1、定义:将代价函数或一般函数最小化的方法

2、特点:不同点开始梯度下降会获得不同的局部最优解

3、公式:

注:其中α是学习率(多大幅度更新θ0和θ1),α越大,梯度下降越快;且θ0和θ1同步更新

3.1详解公式(运行方式)

例如:θ0=0的代价函数为例

  • (1) 导数的意义:

上图为正导数,θ1-α*正导数,不断变“小”,向x轴“负”方向移动,不断趋于目标(最小值)

下图为负导数,θ1-α*负导数,不断变“大”,向x轴“正”方向移动,不断趋于目标(最小值)

  • (2)α的意义:

注:太小,效率太慢;太大,容易无法收敛或者发散

  • (3)达到最小点的标志:

偏导数为0,θ1=θ1-α*0

4、梯度下降法结合代价函数

θ0≠0,θ1≠0;代价函数图是凸函数,没有局部最优解,解只有全局最优。下图梯度变化的过程:

5、矩阵运算的作用

预测运算可以大量打包,用一次的矩阵乘法打包,例子如下:

6、多特征变量(多元线性回归)

示例如下:

假设形式写法:

三、多元梯度下降法

1、梯度下降运算中的实用技巧

(1)特征缩放

背景:若代价函数是个细长的等高线图(特征值比例较大的情况下),在梯度下降的过程中会反复来回震荡,即下降到最低点的速度缓慢。

想法:确保特征值在相似的范围内,这样等高线偏移不严重,look more round

每个特征值控制在-1≤xi≤1范围

具体做法:

数据归一化,用(xi-μ)/si代替xi,其中μi是均值,si是特征值的范围(最大值-最小值)

(2)学习率α

过小,效率慢;

过大,代价函数值不会下降,或者不会收敛;

注:绘制J(θ)随步数变化的曲线,每隔3倍取一个值

(3)定义新的特征,得到更好的模型

例如将“临街宽”和“纵深”改为房屋面积,例如将单纯面积改为面积的平方、立方或是平方根

注:需要尤其注意特征缩放

四、正规方程(一次性求解)

向量没说是竖向量,转置是横向量

1、求法:

octave:pinv(X'*X)*X'*y,(注:octave中X的转置表示为X')

数学上可以证出,这个式子可以给出最优的θ,即使得J(θ)最小。(注:无需关注特征缩放)

2、适用范围

梯度下降法:

缺点1:选择学习率,多次尝试多次迭代;缺点2:迭代计算,效率较慢

优点:特征值很多时,仍能很好运行

正规方程:

缺点:特征值一多,逆矩阵计算量增大,速度缓慢接近O(n^3)

优点:不需要选择学习率

注:数值多与少的判定,n是上百上千仍然可以使用正规方程法,对于现代计算机仍然很快,butn上万,开始有点慢,倾向于梯度下降法。

3、正规方程及其不可逆性(进阶选学材料)

背景:正规方程X’X不可逆(两种情况case1有特征成比例,case2m≤n)如何处理?

第一步:查看是否有多余的特征,删除

其次,octave中求逆函数pinv是伪逆矩阵,即使不可逆也能正常运算

代价函数/梯度下降法相关推荐

  1. 单变量线性回归中的梯度下降法求解代价函数的最小值

    1. 什么是代价函数 在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m = 47.而我们的假设函数, 也就是用来进行预测的函数,是这样的线性函数形式, 则代价函数可以表示为: 我 ...

  2. 通俗易懂讲解梯度下降法!

    Datawhale干货 作者:知乎King James,伦敦国王大学 知乎 | https://zhuanlan.zhihu.com/p/335191534 前言:入门机器学习必须了解梯度下降法,虽然 ...

  3. 深度学习之梯度下降法

    深度学习之梯度下降法 代价函数 在一开始,我们会完全随机地初始化所有的权重和偏置值.可想而知,这个网络对于给定的训练示例,会表现得非常糟糕.例如输入一个3的图像,理想状态应该是输出层3这个点最亮. 可 ...

  4. 最小二乘法MSE 梯度下降法

    为什么要比较这两种方法呢?很多人可能不知道,我先简单的介绍一下 机器学习有两种,一种是监督学习,另一种是非监督学习.监督学习就是我告诉计算机你把班上同学分个类,分类标准是按照性别,男生和女生:非监督分 ...

  5. 最小二乘法和梯度下降法有哪些区别?

    为什么要比较这两种方法呢?很多人可能不知道,我先简单的介绍一下 机器学习有两种,一种是监督学习,另一种是非监督学习.监督学习就是我告诉计算机你把班上同学分个类,分类标准是按照性别,男生和女生:非监督分 ...

  6. 深入浅出--梯度下降法及其实现

    梯度下降的场景假设 梯度 梯度下降算法的数学解释 梯度下降算法的实例 梯度下降算法的实现 Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度 ...

  7. 2.9 Logistic 回归的梯度下降法-深度学习-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 2.8 计算图的导数计算 回到目录 2.10 m 个样本的梯度下降 Logistic 回归的梯度下降法 (Logistic Regression Gradient Desce ...

  8. 2.4 梯度下降法-深度学习-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 2.3 Logistic 回归损失函数 回到目录 2.5 导数 梯度下降法 (Gradient Descent) 梯度下降法可以做什么? 在你测试集上,通过最小化代价函数(成 ...

  9. 机器学习入门系列一(关键词:单变量线性回归,梯度下降法)

    机器学习入门系列一(关键词:单变量线性回归,梯度下降法) 如上图所示,我们的目标是希望通过这些数据得到城市人口数和利润可能的对应关系,并可以通过城市人口数(利润)来预测它的利润(城市人口数),在这里我 ...

最新文章

  1. 【spring】自动装配
  2. TensorFlow——多维矩阵的转置(transpose)
  3. 动态语言和静态语言的比较
  4. 如何使div像星星一样,简易demo,授人以鱼,自行更改完善
  5. Linux PCI 设备驱动基本框架(一)
  6. argb888与rgb888转换程序_一文了解各平台RGB565和RGB888区别
  7. MaxCompute full outer join改写left anti join实践
  8. authentication java_HTTP基本认证(Basic Authentication)的JAVA实例代码
  9. [C++] 哈希计数
  10. java子弹集合_Java使用线程并发库模拟弹夹装弹以及发射子弹的过程
  11. 在电脑上如何剪辑音乐?
  12. 三大代码审计工具对比
  13. 基于单片机的便携式瓦斯检测仪系统设计-基于单片机超声波停车位自动检测系统-基于单片机产品数量自动计量系统设计-基于单片机激光电子琴设计-基于单片机锂电池电量显示设计-基于单片机温湿度农田自动灌溉设计
  14. 单应性变换(Homography)的学习与理解
  15. 高手过招的乐趣---测试用例预演
  16. 【游戏设计模式】之一 序言:架构,性能与游戏
  17. 利用命令简单检查网络
  18. Balancer均衡器时段设置
  19. 苹果小白笔记本_【电脑】外媒评选年度办公/学生笔记本榜单 快看有你需要的吗...
  20. Java小白的数据库爱情(四)Oracle DDL、DML使用

热门文章

  1. 如何用postman实现接口自动化测试
  2. git仓库账号或着密码修改之后需要重新配置SSH公钥
  3. 原谅帽大作战游戏程序
  4. latex longtable 自动换行_TechRepo | LaTeX基本知识和应用
  5. leetcode:2448. 使数组相等的最小开销【猜结论落在给定点 + 考虑初始值和变化量 + 三分法模板学习】
  6. DDK开发介绍_自我学习
  7. CSS面试题整理汇总
  8. jbpm创建流程图_jbpm - 工作流的基本操作
  9. 正则表达式匹配任意字符串
  10. php chunked trailer header,HTTP协议之Chunked解析