Newtown(牛顿)方法收敛速度
摘自《数值最优化方法》
\qquad 设 f ( x ) f(x) f(x)具有连续得二阶偏导数,当前得迭代点是 x k x_{k} xk。 f ( x ) f(x) f(x)在 x k x_{k} xk处得 T a y l o r Taylor Taylor展开式为(以基本 N e w t o w n Newtown Newtown法为例( α \alpha α=1))
f ( x k + 1 ) = f ( x k + d ) = f ( x k ) + g k T d + 1 2 d T G k d + O ( ∣ ∣ d ∣ ∣ 2 ) f(x_{k+1})=f(x_{k}+d)=f(x_{k})+g_{k}^{T}d+\frac{1}{2}d^{T}G_{k}d+O(||d||^{2}) f(xk+1)=f(xk+d)=f(xk)+gkTd+21dTGkd+O(∣∣d∣∣2) \qquad 在点 x k x_{k} xk的领域内,使用二次函数
q k ( d ) = Δ f ( x k ) + g k T d + 1 2 d T G d q_{k}(d)\mathop{=}\limits^{\Delta}f(x_{k})+g_{k}^{T}d+\frac{1}{2}d^{T}Gd qk(d)=Δf(xk)+gkTd+21dTGd近似 f ( x k + d ) f(x_{k}+d) f(xk+d),求解问题
m i n q k ( d ) min\ q_{k}(d) min qk(d) \qquad 若 G k G_{k} Gk正定,则方程组
G k d = − g k G_{k}d=-g_{k} Gkd=−gk \qquad 解为 d k = − G k − 1 g k d_{k}=-G_{k}^{-1}g_{k} dk=−Gk−1gk得到的方向为 N e w t o w n Newtown Newtown方向。只要 G k G_{k} Gk正定, N e w t o w n Newtown Newtown方向 d k d_{k} dk就是下降方向,即 g k T d k = − g k T G − 1 g k < 0 g^{T}_{k}d_{k}=-g^{T}_{k}G^{-1}g_{k}<0 gkTdk=−gkTG−1gk<0。
\qquad 基本 N e w t o w n Newtown Newtown方法的收敛性 定 义 \color{#F00}{定义} 定义 设 f ( x ) ∈ C 2 , f ( x ) f(x)\in C^{2},f(x) f(x)∈C2,f(x)的 H e s s e Hesse Hesse矩阵 G ( x ) G(x) G(x)满足 L i s p s c h i t z Lispschitz Lispschitz条件,即存在 β > 0 \beta>0 β>0,对任给的 x x x与 y y y,有 ∣ ∣ G ( x ) − G ( y ) ∣ ∣ ≤ β ∣ ∣ x − y ∣ ∣ ||G(x)-G(y)||\leq\beta||x-y|| ∣∣G(x)−G(y)∣∣≤β∣∣x−y∣∣。若 x 0 x_{0} x0充分接近 f ( x ) f(x) f(x)的局部极小值点 x ∗ x^{*} x∗,且 G ∗ G^{*} G∗正定,则 N e w t o w n Newtown Newtown对所有的 k k k有定义,并以二阶速度收敛,梯度序列 { ∣ ∣ ∇ f k ∣ ∣ } \{||\nabla f_{k}||\} {∣∣∇fk∣∣}二阶收敛到零。
G k = ∇ 2 f k g k = ∇ f k G_{k} = \nabla^{2}f_{k}\qquad g_{k} = \nabla f_{k} Gk=∇2fkgk=∇fk
\qquad 收敛速度证明 依据基本 N e w t o w n Newtown Newtown法定义和最优条件 ∇ f ∗ = 0 \nabla f_{*}=0 ∇f∗=0得到
x k + d − x ∗ = x k − x ∗ − ∇ 2 f k − 1 ∇ f k = ∇ 2 f k − 1 [ ∇ 2 f k ( x k − x ∗ ) − ( ∇ f k − ∇ f ∗ ) ] x_{k}+d-x^{*}=x_{k}-x^{*}-\nabla^{2}f_{k}^{-1}\nabla f_{k}=\nabla^{2}f_{k}^{-1}[\nabla^{2}f_{k}^{}(x_{k}-x^{*})-(\nabla f_{k}-\nabla f_{*})] xk+d−x∗=xk−x∗−∇2fk−1∇fk=∇2fk−1[∇2fk(xk−x∗)−(∇fk−∇f∗)]因为
∇ f k − ∇ f ∗ = ∫ 0 1 ∇ 2 f ( x k + t ( x ∗ − x k ) ) ( x k − x ∗ ) d t = ∫ 0 1 ∇ 2 f ( x k + t ( x ∗ − x k ) ) d ( t ( x k − x ∗ ) ) = − ∫ x k x ∗ ∇ 2 f ( u ) d u \nabla f_{k}-\nabla f_{*}=\int_{0}^{1}\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))(x_{k}-x^{*})dt\\ = \int_{0}^{1}\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))d(t(x_{k}-x^{*}))\\ = -\int_{x_{k}}^{x^{*}}\nabla^{2}f(u)du ∇fk−∇f∗=∫01∇2f(xk+t(x∗−xk))(xk−x∗)dt=∫01∇2f(xk+t(x∗−xk))d(t(xk−x∗))=−∫xkx∗∇2f(u)du又由
∣ ∣ ∇ 2 f ( x k ) ( x k − x ∗ ) − ( ∇ f k − ∇ f ( x ∗ ) ) ∣ ∣ = ∣ ∣ ∫ 0 1 ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ) ( x k − x ∗ ) d t ∣ ∣ ≤ ∫ 0 1 ∣ ∣ ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ) ( x k − x ∗ ) ∣ ∣ d t ≤ ∣ ∣ x k − x ∗ ∣ ∣ ∫ 0 1 ∣ ∣ ( ∇ 2 f ( x k ) − ∇ 2 f ( x k + t ( x ∗ − x k ) ) ∣ ∣ d t ≤ ∣ ∣ x k − x ∗ ∣ ∣ 2 ∫ 0 1 L t d t = 1 2 L ∣ ∣ x k − x ∗ ∣ ∣ 2 ||\nabla^{2}f(x_{k})(x_{k}-x^{*})-(\nabla f_{k}-\nabla f(x^{*}))||\\ = ||\int_{0}^{1}(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k})))(x_{k}-x^{*})dt||\\ \leq\int_{0}^{1}||(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k})))(x_{k}-x^{*})||dt\\ \leq||x_{k}-x^{*}||\int_{0}^{1}||(\nabla^{2}f(x_{k})-\nabla^{2}f(x_{k}+t(x^{*}-x_{k}))||dt\\ \leq||x_{k}-x^{*}||^{2}\int_{0}^{1}Ltdt=\frac{1}{2}L||x_{k}-x^{*}||^{2} ∣∣∇2f(xk)(xk−x∗)−(∇fk−∇f(x∗))∣∣=∣∣∫01(∇2f(xk)−∇2f(xk+t(x∗−xk)))(xk−x∗)dt∣∣≤∫01∣∣(∇2f(xk)−∇2f(xk+t(x∗−xk)))(xk−x∗)∣∣dt≤∣∣xk−x∗∣∣∫01∣∣(∇2f(xk)−∇2f(xk+t(x∗−xk))∣∣dt≤∣∣xk−x∗∣∣2∫01Ltdt=21L∣∣xk−x∗∣∣2所以
∣ ∣ x k + 1 − x ∗ ∣ ∣ ≤ 1 2 L ∣ ∣ x k − x ∗ ∣ ∣ 2 ∣ ∣ ∇ 2 f k − 1 ∣ ∣ ||x_{k+1}-x^{*}||\leq\frac{1}{2}L||x_{k}-x^{*}||^{2}||\nabla^{2}f_{k}^{-1}|| ∣∣xk+1−x∗∣∣≤21L∣∣xk−x∗∣∣2∣∣∇2fk−1∣∣ \qquad ! ! ! \color{#F00}{!!!} !!!当 ∇ 2 f ( x ∗ ) \nabla^{2}f(x^{*}) ∇2f(x∗)是非奇异并且 ∇ 2 f k → ∇ 2 f ( x ∗ ) \nabla^{2}f_{k}\to\nabla^{2}f(x^{*}) ∇2fk→∇2f(x∗)时,有 ∣ ∣ ∇ 2 f k − 1 ∣ ∣ ≤ 2 ∣ ∣ ∇ 2 f ( x ∗ ) − 1 ∣ ∣ ||\nabla^{2}f_{k}^{-1}||\leq2||\nabla^{2}f(x^{*})^{-1}|| ∣∣∇2fk−1∣∣≤2∣∣∇2f(x∗)−1∣∣( 有 界 \color{#F00}{有界} 有界),所以当起始点充分接近 x ∗ x^{*} x∗,序列 x k {x_{k}} xk收敛到 x ∗ x^{*} x∗则 N e w t o w n Newtown Newtown法二阶收敛。
\qquad 由条件 ∇ f k + ∇ 2 f k ( x k + 1 − x k ) = 0 \nabla f_{k}+\nabla^{2}f_{k}(x_{k+1}-x_{k})=0 ∇fk+∇2fk(xk+1−xk)=0(由最优方向选择,考虑 α ≠ 1 \alpha\neq1 α̸=1是否有影响)则的:
∣ ∣ ∇ f k + 1 ∣ ∣ = ∣ ∣ ∇ f k + 1 − ∇ f k − ∇ 2 f k ( x k + 1 − x k ) ∣ ∣ = ∣ ∣ ∫ 0 1 ( ∇ 2 f ( x k + t ( x k + 1 − x k ) ) − ∇ 2 f ( x k ) ) ( x k + 1 − x k ) d t ∣ ∣ ≤ 1 2 L ∣ ∣ x k − 1 − x k ∣ ∣ 2 ≤ 1 2 L ∣ ∣ ∇ 2 f k − 1 ∣ ∣ 2 ∣ ∣ ∇ f k ∣ ∣ 2 ≤ 2 L ∣ ∣ ∇ f ∗ − 1 ∣ ∣ 2 ∣ ∣ ∇ f k ∣ ∣ 2 ||\nabla f_{k+1}||=||\nabla f_{k+1}-\nabla f_{k}-\nabla^{2}f_{k}(x_{k+1}-x_{k})||\\ = ||\int_{0}^{1}(\nabla^{2}f(x_{k}+t(x_{k+1}-x_{k}))-\nabla^{2}f(x_{k}))(x_{k+1}-x_{k})dt||\\ \leq \frac{1}{2}L ||x_{k-1}-x_{k}||^{2}\\ \leq \frac{1}{2}L||\nabla^{2}f_{k}^{-1}||^{2}||\nabla f_{k}||^{2}\\ \leq 2L||\nabla f_{*}^{-1}||^{2}||\nabla f_{k}||^{2} ∣∣∇fk+1∣∣=∣∣∇fk+1−∇fk−∇2fk(xk+1−xk)∣∣=∣∣∫01(∇2f(xk+t(xk+1−xk))−∇2f(xk))(xk+1−xk)dt∣∣≤21L∣∣xk−1−xk∣∣2≤21L∣∣∇2fk−1∣∣2∣∣∇fk∣∣2≤2L∣∣∇f∗−1∣∣2∣∣∇fk∣∣2以上证明标准梯度 ∣ ∣ ∇ f k ∣ ∣ ||\nabla f_{k}|| ∣∣∇fk∣∣二阶收敛到零。( 为 什 么 ? ? , 为 什 么 不 证 明 \color{#F00}{为什么??,为什么不证明} 为什么??,为什么不证明 2 L ∣ ∣ ∇ f ∗ − 1 ∣ ∣ 2 < 1 2L||\nabla f_{*}^{-1}||^{2}<1 2L∣∣∇f∗−1∣∣2<1)。
Newtown(牛顿)方法收敛速度相关推荐
- matlab 一元方程程序,用牛顿方法解一元非线性方程的根(Matlab实现)
题目:用牛顿法求方程x-cos(x)=0的实根(精确到1E-6). (1)要求用函数调用. (2)进一步研究和弦截法作比较. 算法分析: (1) 此题是利用牛顿方法解一元非线性方程的根.( ...
- 数值优化(Numerical Optimization)学习系列-拟牛顿方法(Quasi-Newton)
概述 拟牛顿方法类似于最速下降法,在每一步迭代过程中仅仅利用梯度信息,但是通过度量梯度之间的变化,能够产生超线性的收敛效果.本节主要学习一下知识点: 1. 拟牛顿方程推导 2. 几个常见的拟牛顿方法 ...
- 非线性方程组求解Matlab实现 (多元牛顿方法、Broyden方法、Broyden方法2)
三元牛顿方法(非线性方程中三个未知数) function jie = multvarnewton3(g1,g2,g3,c) e=[inf,inf,inf]; syms x y z k1=g1(x,y, ...
- 如何通过牛顿方法解决Logistic回归问题 By 机器之心2017年8月09日 16:30 本文介绍了牛顿方法(Newton's Method),以及如何用它来解决 logistic 回归。log
如何通过牛顿方法解决Logistic回归问题 By 机器之心2017年8月09日 16:30 本文介绍了牛顿方法(Newton's Method),以及如何用它来解决 logistic 回归.logi ...
- 牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9207047 最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少 ...
- c语言知识地图,AI之旅(5):正则化与牛顿方法
前置知识 导数,矩阵的逆 知识地图 正则化是通过为参数支付代价的方式,降低系统复杂度的方法.牛顿方法是一种适用于逻辑回归的求解方法,相比梯度上升法具有迭代次数少,消耗资源多的特点. 过拟合与欠拟合 回 ...
- 求解非约束优化问题的拟牛顿方法(BFGS、DFP)
求解非约束优化问题的拟牛顿方法(BFGS.DFP) 拟牛顿法是一种以牛顿法为基础设计的,求解非线性方程组或连续的最优化问题函数的零点或极大.极小值的算法.当牛顿法中所要求计算的雅可比矩阵或Hessia ...
- 机器学习笔记:牛顿方法
1 牛顿法介绍 牛顿法是一种二阶优化技术,它将目标函数建模为二次函数. 我们知道,在梯度下降中,我们是把函数近似为一次函数.在牛顿法中,我们将其近似为二次函数: 让上式的微分为0,我们有: 如果函数本 ...
- 斯坦福《机器学习》Lesson4感想--1、Logistic回归中的牛顿方法
在上一篇中提到的Logistic回归是利用最大似然概率的思想和梯度上升算法确定θ,从而确定f(θ).本篇将介绍还有一种求解最大似然概率ℓ(θ)的方法,即牛顿迭代法. 在牛顿迭代法中.如果一个函数是,求 ...
最新文章
- SharePoint的Workflow History列表在哪里?
- 超级封装RecyclerView的适配器Adapter 只需二三十行代码
- Python实现的导弹跟踪算法,燃!
- oracle 0 函数吗,Oracle9.2.0.1版函数编译一个小问题
- Round A - Kick Start 2019
- 【Web】JavaWeb项目为什么我们要放弃jsp?为什么要前后端解耦?为什么要前后端分离?2.0版,为分布式架构打基础。 - CSDN博客
- 二进制法生成1-n的子集
- N 层应用程序中的数据检索和 CUD 操作 (LINQ to SQL)
- php 查找文件 替换内容,关于php:文件中查找和替换功能困扰
- lte 在网络覆盖方面应该注意哪些问题_TD-LTE网络深度覆盖三个受限因素及四大解决策略...
- 算法正在统治世界——每个程序员都应该收藏的算法复杂度速查表
- vs2019配置opencv_VS2019下Opencv配置
- 二、用于数据分析的Tableau技巧
- 用css制作网站首页
- 域无法在加入计算机,计算机无法加入域的终级解决方法
- 2021年计算机保研面试题
- 1分钟学会给你的网站添加上https!
- 深入理解 MySQL 主键和唯一(unique)索引
- 开发公众号如何本地调试
- SpringJpa @query 中根据传入参数(字段)排序
热门文章
- HSDPA、WiMAX和LTE关键技术比较与分析
- java游戏超级玛丽_超级玛丽_JAVA游戏免费版下载_7723手机游戏[www.7723.cn]
- 第三篇:基于深度学习的人脸特征点检测 - 数据集整理
- java7 迅雷_java7下载
- 关于GRLDR标题的修改之晨枫 ——(五四青年修改版)
- 用vscode实现vue.js项目的一个完整过程
- NBA球员管理系统的开发与设计
- 电子病历系统开发过程
- python求协方差矩阵_协方差矩阵python实现
- Android是什么--by流氓兔斯基