摘自《数值最优化方法》
\qquad 设 f ( x ) f(x) f(x)具有连续得二阶偏导数,当前得迭代点是 x k x_{k} xk​。 f ( x ) f(x) f(x)在 x k x_{k} xk​处得 T a y l o r Taylor Taylor展开式为(以基本 N e w t o w n Newtown Newtown法为例( α \alpha α=1))
f ( x k + 1 ) = f ( x k + d ) = f ( x k ) + g k T d + 1 2 d T G k d + O ( ∣ ∣ d ∣ ∣ 2 ) f(x_{k+1})=f(x_{k}+d)=f(x_{k})+g_{k}^{T}d+\frac{1}{2}d^{T}G_{k}d+O(||d||^{2}) f(xk+1​)=f(xk​+d)=f(xk​)+gkT​d+21​dTGk​d+O(∣∣d∣∣2) \qquad 在点 x k x_{k} xk​的领域内,使用二次函数
q k ( d ) = Δ f ( x k ) + g k T d + 1 2 d T G d q_{k}(d)\mathop{=}\limits^{\Delta}f(x_{k})+g_{k}^{T}d+\frac{1}{2}d^{T}Gd qk​(d)=Δf(xk​)+gkT​d+21​dTGd近似 f ( x k + d ) f(x_{k}+d) f(xk​+d),求解问题
m i n q k ( d ) min\ q_{k}(d) min qk​(d) \qquad 若 G k G_{k} Gk​正定,则方程组
G k d = − g k G_{k}d=-g_{k} Gk​d=−gk​ \qquad 解为 d k = − G k − 1 g k d_{k}=-G_{k}^{-1}g_{k} dk​=−Gk−1​gk​得到的方向为 N e w t o w n Newtown Newtown方向。只要 G k G_{k} Gk​正定, N e w t o w n Newtown Newtown方向 d k d_{k} dk​就是下降方向,即 g k T d k = − g k T G − 1 g k &lt; 0 g^{T}_{k}d_{k}=-g^{T}_{k}G^{-1}g_{k}&lt;0 gkT​dk​=−gkT​G−1gk​<0。
\qquad 基本 N e w t o w n Newtown Newtown方法的收敛性 定 义 \color{#F00}{定义} 定义 设 f ( x ) ∈ C 2 , f ( x ) f(x)\in C^{2},f(x) f(x)∈C2,f(x)的 H e s s e Hesse Hesse矩阵 G ( x ) G(x) G(x)满足 L i s p s c h i t z Lispschitz Lispschitz条件,即存在 β &gt; 0 \beta&gt;0 β>0,对任给的 x x x与 y y y,有 ∣ ∣ G ( x ) − G ( y ) ∣ ∣ ≤ β ∣ ∣ x − y ∣ ∣ ||G(x)-G(y)||\leq\beta||x-y|| ∣∣G(x)−G(y)∣∣≤β∣∣x−y∣∣。若 x 0 x_{0} x0​充分接近 f ( x ) f(x) f(x)的局部极小值点 x ∗ x^{*} x∗,且 G ∗ G^{*} G∗正定,则 N e w t o w n Newtown Newtown对所有的 k k k有定义,并以二阶速度收敛,梯度序列 { ∣ ∣ ∇ f k ∣ ∣ } \{||\nabla f_{k}||\} {∣∣∇fk​∣∣}二阶收敛到零。


G k = ∇ 2 f k g k = ∇ f k G_{k} = \nabla^{2}f_{k}\qquad g_{k} = \nabla f_{k} Gk​=∇2fk​gk​=∇fk​


\qquad 收敛速度证明 依据基本 N e w t o w n Newtown Newtown法定义和最优条件 ∇ f ∗ = 0 \nabla f_{*}=0 ∇f∗​=0得到
x k + d − x ∗ = x k − x ∗ − ∇ 2 f k − 1 ∇ f k = ∇ 2 f k − 1 [ ∇ 2 f k ( x k − x ∗ ) − ( ∇ f k − ∇ f ∗ ) ] x_{k}+d-x^{*}=x_{k}-x^{*}-\nabla^{2}f_{k}^{-1}\nabla f_{k}=\nabla^{2}f_{k}^{-1}[\nabla^{2}f_{k}^{}(x_{k}-x^{*})-(\nabla f_{k}-\nabla f_{*})] xk​+d−x∗=xk​−x∗−∇2fk−1​∇fk​=∇2fk−1​[∇2fk​(xk​−x∗)−(∇fk​−∇f∗​)]因为
∇ f k − ∇ f ∗ = ∫ 0 1 ∇ 2 f ( x k + t ( x ∗ − x k ) ) ( x k − x ∗ ) d t = ∫ 0 1 ∇ 2 f ( x k + t ( x ∗ − x k ) ) d ( t ( x k − x ∗ ) ) = − ∫ x k x ∗ ∇ 2 f ( u ) d u \nabla f_{k}-\nabla f_{*}=\int_{0}^{1}\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))(x_{k}-x^{*})dt\\ = \int_{0}^{1}\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))d(t(x_{k}-x^{*}))\\ = -\int_{x_{k}}^{x^{*}}\nabla^{2}f(u)du ∇fk​−∇f∗​=∫01​∇2f(xk​+t(x∗−xk​))(xk​−x∗)dt=∫01​∇2f(xk​+t(x∗−xk​))d(t(xk​−x∗))=−∫xk​x∗​∇2f(u)du又由
∣ ∣ ∇ 2 f ( x k ) ( x k − x ∗ ) − ( ∇ f k − ∇ f ( x ∗ ) ) ∣ ∣ = ∣ ∣ ∫ 0 1 ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ) ( x k − x ∗ ) d t ∣ ∣ ≤ ∫ 0 1 ∣ ∣ ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ) ( x k − x ∗ ) ∣ ∣ d t ≤ ∣ ∣ x k − x ∗ ∣ ∣ ∫ 0 1 ∣ ∣ ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ∣ ∣ d t ≤ ∣ ∣ x k − x ∗ ∣ ∣ 2 ∫ 0 1 L t d t = 1 2 L ∣ ∣ x k − x ∗ ∣ ∣ 2 ||\nabla^{2}f(x_{k})(x_{k}-x^{*})-(\nabla f_{k}-\nabla f(x^{*}))||\\ = ||\int_{0}^{1}(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k})))(x_{k}-x^{*})dt||\\ \leq\int_{0}^{1}||(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k})))(x_{k}-x^{*})||dt\\ \leq||x_{k}-x^{*}||\int_{0}^{1}||(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))||dt\\ \leq||x_{k}-x^{*}||^{2}\int_{0}^{1}Ltdt=\frac{1}{2}L||x_{k}-x^{*}||^{2} ∣∣∇2f(xk​)(xk​−x∗)−(∇fk​−∇f(x∗))∣∣=∣∣∫01​(∇2f(xk​)−∇2f(xk​+t(x∗−xk​)))(xk​−x∗)dt∣∣≤∫01​∣∣(∇2f(xk​)−∇2f(xk​+t(x∗−xk​)))(xk​−x∗)∣∣dt≤∣∣xk​−x∗∣∣∫01​∣∣(∇2f(xk​)−∇2f(xk​+t(x∗−xk​))∣∣dt≤∣∣xk​−x∗∣∣2∫01​Ltdt=21​L∣∣xk​−x∗∣∣2所以
∣ ∣ x k + 1 − x ∗ ∣ ∣ ≤ 1 2 L ∣ ∣ x k − x ∗ ∣ ∣ 2 ∣ ∣ ∇ 2 f k − 1 ∣ ∣ ||x_{k+1}-x^{*}||\leq\frac{1}{2}L||x_{k}-x^{*}||^{2}||\nabla^{2}f_{k}^{-1}|| ∣∣xk+1​−x∗∣∣≤21​L∣∣xk​−x∗∣∣2∣∣∇2fk−1​∣∣ \qquad ! ! ! \color{#F00}{!!!} !!!当 ∇ 2 f ( x ∗ ) \nabla^{2}f(x^{*}) ∇2f(x∗)是非奇异并且 ∇ 2 f k → ∇ 2 f ( x ∗ ) \nabla^{2}f_{k}\to\nabla^{2}f(x^{*}) ∇2fk​→∇2f(x∗)时,有 ∣ ∣ ∇ 2 f k − 1 ∣ ∣ ≤ 2 ∣ ∣ ∇ 2 f ( x ∗ ) − 1 ∣ ∣ ||\nabla^{2}f_{k}^{-1}||\leq2||\nabla^{2}f(x^{*})^{-1}|| ∣∣∇2fk−1​∣∣≤2∣∣∇2f(x∗)−1∣∣( 有 界 \color{#F00}{有界} 有界),所以当起始点充分接近 x ∗ x^{*} x∗,序列 x k {x_{k}} xk​收敛到 x ∗ x^{*} x∗则 N e w t o w n Newtown Newtown法二阶收敛。
\qquad 由条件 ∇ f k + ∇ 2 f k ( x k + 1 − x k ) = 0 \nabla f_{k}+\nabla^{2}f_{k}(x_{k+1}-x_{k})=0 ∇fk​+∇2fk​(xk+1​−xk​)=0(由最优方向选择,考虑 α ≠ 1 \alpha\neq1 α̸​=1是否有影响)则的:
∣ ∣ ∇ f k + 1 ∣ ∣ = ∣ ∣ ∇ f k + 1 − ∇ f k − ∇ 2 f k ( x k + 1 − x k ) ∣ ∣ = ∣ ∣ ∫ 0 1 ( ∇ 2 f ( x k + t ( x k + 1 − x k ) ) − ∇ 2 f ( x k ) ) ( x k + 1 − x k ) d t ∣ ∣ ≤ 1 2 L ∣ ∣ x k − 1 − x k ∣ ∣ 2 ≤ 1 2 L ∣ ∣ ∇ 2 f k − 1 ∣ ∣ 2 ∣ ∣ ∇ f k ∣ ∣ 2 ≤ 2 L ∣ ∣ ∇ f ∗ − 1 ∣ ∣ 2 ∣ ∣ ∇ f k ∣ ∣ 2 ||\nabla f_{k+1}||=||\nabla f_{k+1}-\nabla f_{k}-\nabla^{2}f_{k}(x_{k+1}-x_{k})||\\ = ||\int_{0}^{1}(\nabla^{2}f(x_{k}+t(x_{k+1}-x_{k}))-\nabla^{2}f(x_{k}))(x_{k+1}-x_{k})dt||\\ \leq \frac{1}{2}L ||x_{k-1}-x_{k}||^{2}\\ \leq \frac{1}{2}L||\nabla^{2}f_{k}^{-1}||^{2}||\nabla f_{k}||^{2}\\ \leq 2L||\nabla f_{*}^{-1}||^{2}||\nabla f_{k}||^{2} ∣∣∇fk+1​∣∣=∣∣∇fk+1​−∇fk​−∇2fk​(xk+1​−xk​)∣∣=∣∣∫01​(∇2f(xk​+t(xk+1​−xk​))−∇2f(xk​))(xk+1​−xk​)dt∣∣≤21​L∣∣xk−1​−xk​∣∣2≤21​L∣∣∇2fk−1​∣∣2∣∣∇fk​∣∣2≤2L∣∣∇f∗−1​∣∣2∣∣∇fk​∣∣2以上证明标准梯度 ∣ ∣ ∇ f k ∣ ∣ ||\nabla f_{k}|| ∣∣∇fk​∣∣二阶收敛到零。( 为 什 么 ? ? , 为 什 么 不 证 明 \color{#F00}{为什么??,为什么不证明} 为什么??,为什么不证明 2 L ∣ ∣ ∇ f ∗ − 1 ∣ ∣ 2 &lt; 1 2L||\nabla f_{*}^{-1}||^{2}&lt;1 2L∣∣∇f∗−1​∣∣2<1)。

Newtown(牛顿)方法收敛速度相关推荐

  1. matlab 一元方程程序,用牛顿方法解一元非线性方程的根(Matlab实现)

    题目:用牛顿法求方程x-cos(x)=0的实根(精确到1E-6). (1)要求用函数调用. (2)进一步研究和弦截法作比较. 算法分析: (1)       此题是利用牛顿方法解一元非线性方程的根.( ...

  2. 数值优化(Numerical Optimization)学习系列-拟牛顿方法(Quasi-Newton)

    概述 拟牛顿方法类似于最速下降法,在每一步迭代过程中仅仅利用梯度信息,但是通过度量梯度之间的变化,能够产生超线性的收敛效果.本节主要学习一下知识点: 1. 拟牛顿方程推导 2. 几个常见的拟牛顿方法 ...

  3. 非线性方程组求解Matlab实现 (多元牛顿方法、Broyden方法、Broyden方法2)

    三元牛顿方法(非线性方程中三个未知数) function jie = multvarnewton3(g1,g2,g3,c) e=[inf,inf,inf]; syms x y z k1=g1(x,y, ...

  4. 如何通过牛顿方法解决Logistic回归问题 By 机器之心2017年8月09日 16:30 本文介绍了牛顿方法(Newton's Method),以及如何用它来解决 logistic 回归。log

    如何通过牛顿方法解决Logistic回归问题 By 机器之心2017年8月09日 16:30 本文介绍了牛顿方法(Newton's Method),以及如何用它来解决 logistic 回归.logi ...

  5. 牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

    转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9207047 最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少 ...

  6. c语言知识地图,AI之旅(5):正则化与牛顿方法

    前置知识 导数,矩阵的逆 知识地图 正则化是通过为参数支付代价的方式,降低系统复杂度的方法.牛顿方法是一种适用于逻辑回归的求解方法,相比梯度上升法具有迭代次数少,消耗资源多的特点. 过拟合与欠拟合 回 ...

  7. 求解非约束优化问题的拟牛顿方法(BFGS、DFP)

    求解非约束优化问题的拟牛顿方法(BFGS.DFP) 拟牛顿法是一种以牛顿法为基础设计的,求解非线性方程组或连续的最优化问题函数的零点或极大.极小值的算法.当牛顿法中所要求计算的雅可比矩阵或Hessia ...

  8. 机器学习笔记:牛顿方法

    1 牛顿法介绍 牛顿法是一种二阶优化技术,它将目标函数建模为二次函数. 我们知道,在梯度下降中,我们是把函数近似为一次函数.在牛顿法中,我们将其近似为二次函数: 让上式的微分为0,我们有: 如果函数本 ...

  9. 斯坦福《机器学习》Lesson4感想--1、Logistic回归中的牛顿方法

    在上一篇中提到的Logistic回归是利用最大似然概率的思想和梯度上升算法确定θ,从而确定f(θ).本篇将介绍还有一种求解最大似然概率ℓ(θ)的方法,即牛顿迭代法. 在牛顿迭代法中.如果一个函数是,求 ...

最新文章

  1. SharePoint的Workflow History列表在哪里?
  2. 超级封装RecyclerView的适配器Adapter 只需二三十行代码
  3. Python实现的导弹跟踪算法,燃!
  4. oracle 0 函数吗,Oracle9.2.0.1版函数编译一个小问题
  5. Round A - Kick Start 2019
  6. 【Web】JavaWeb项目为什么我们要放弃jsp?为什么要前后端解耦?为什么要前后端分离?2.0版,为分布式架构打基础。 - CSDN博客
  7. 二进制法生成1-n的子集
  8. N 层应用程序中的数据检索和 CUD 操作 (LINQ to SQL)
  9. php 查找文件 替换内容,关于php:文件中查找和替换功能困扰
  10. lte 在网络覆盖方面应该注意哪些问题_TD-LTE网络深度覆盖三个受限因素及四大解决策略...
  11. 算法正在统治世界——每个程序员都应该收藏的算法复杂度速查表
  12. vs2019配置opencv_VS2019下Opencv配置
  13. 二、用于数据分析的Tableau技巧
  14. 用css制作网站首页
  15. 域无法在加入计算机,计算机无法加入域的终级解决方法
  16. 2021年计算机保研面试题
  17. 1分钟学会给你的网站添加上https!
  18. 深入理解 MySQL 主键和唯一(unique)索引
  19. 开发公众号如何本地调试
  20. SpringJpa @query 中根据传入参数(字段)排序

热门文章

  1. HSDPA、WiMAX和LTE关键技术比较与分析
  2. java游戏超级玛丽_超级玛丽_JAVA游戏免费版下载_7723手机游戏[www.7723.cn]
  3. 第三篇:基于深度学习的人脸特征点检测 - 数据集整理
  4. java7 迅雷_java7下载
  5. 关于GRLDR标题的修改之晨枫 ——(五四青年修改版)
  6. 用vscode实现vue.js项目的一个完整过程
  7. NBA球员管理系统的开发与设计
  8. 电子病历系统开发过程
  9. python求协方差矩阵_协方差矩阵python实现
  10. Android是什么--by流氓兔斯基