第一次课程-最优化理论基础

1.1 最优化问题的数学模型

几乎所有类型的最优化问题都可以用下面的数学模型来描述：
m i n f ( x ) s . t . x ∈ K min f\left(x\right)\\ s.t. x \in K minf(x)s.t.x∈K
这里，K称为可行集或可行域， f ( x ) f(x) f(x)是定义在K上的目标函数， x x x被称为决策变量。
按照可行集的性质对最优化问题进行分类：

线性规划和非线性规划：可行集是有限维空间中的一个子集；
组合优化或网络优化：可行集中元素是有限的；
动态规划：可行集是一个依赖时间的决策序列；
最优控制：可行集是无穷维空间的一个连续子集。

这里主要考虑非线性规划：
m i n f ( x ) s . t . h i ( x ) = 0 , i = 1... l g i ( x ) ≥ 0 , i = 1... m min f\left(x\right)\\ s.t. h_{i}\left(x\right)=0,i=1...l\\ g_{i}\left(x\right)\geq0, i=1...m minf(x)s.t.hi(x)=0,i=1...lgi(x)≥0,i=1...m
h i ( x ) h_{i}(x) hi(x)（等式约束）和 g i ( x ) g_{i}(x) gi(x)（不等式约束）被称为约束函数。通常把目标函数为二次函数，而约束函数为线性函数的优化问题称为二次规划；目标函数和约束函数均为线性函数的优化问题称为线性规划。

1.2 向量和矩阵范数

向量范数

向量 x x x的范数 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣是一个非负数，它必须满足以下条件：

∣ ∣ x ∣ ∣ ≥ 0 , ∣ ∣ x ∣ ∣ = 0 ⇔ x = 0 ||x||\geq0,||x||=0\Leftrightarrow x=0 ∣∣x∣∣≥0,∣∣x∣∣=0⇔x=0;
λ ∣ ∣ x ∣ ∣ = ∣ λ ∣ ∣ ∣ x ∣ ∣ , λ ∈ R \lambda ||x||=|\lambda|||x||,\lambda\in R λ∣∣x∣∣=∣λ∣∣∣x∣∣,λ∈R;
∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq ||x||+||y|| ∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣

常用的向量范数有：
1-范数： ∣ ∣ x ∣ ∣ 1 = ∑ i = 1 n ∣ x i ∣ ||x||_{1}=\sum_{i=1}^n|x_i| ∣∣x∣∣1=∑i=1n∣xi∣;
2-范数： ∣ ∣ x ∣ ∣ 2 = ( ∑ i = 1 n ∣ x i ∣ 2 ) 1 2 ||x||_2=(\sum_{i=1}^n|x_i|^2)^\frac{1}{2} ∣∣x∣∣2=(∑i=1n∣xi∣2)21;
∞ \infty ∞-范数： ∣ ∣ x ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∣ x i ∣ ||x||_{\infty} = max_{1\leq i\leq n}|x_i| ∣∣x∣∣∞=max1≤i≤n∣xi∣。

矩阵范数

矩阵 A A A的范数是一个非负实数，它除了要满足与与向量范数相似的三条性质外，还需要具备乘法法则：

∣ ∣ A B ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ ||AB||\leq {||A||}\quad{||B||} ∣∣AB∣∣≤∣∣A∣∣∣∣B∣∣

常用的矩阵范数有：
行和范数： ∣ ∣ A ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ ||A||_\infty = max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}| ∣∣A∣∣∞=max1≤i≤n∑j=1n∣aij∣;
列和范数： ∣ ∣ A ∣ ∣ 1 = m a x 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ ||A||_1 = max_{1\leq j \leq n}\sum_{i=1}^n |a_{ij}| ∣∣A∣∣1=max1≤j≤n∑i=1n∣aij∣;
谱范数： ∣ ∣ A ∣ ∣ 2 = m a x { λ ∣ λ ∈ λ ( A T A ) } ||A||_2 = max\left\{ \sqrt{ \lambda } | \lambda \in \lambda \left( A^T A\right)\right\} ∣∣A∣∣2=max{λ ∣λ∈λ(ATA)}。
在讨论向量序列和矩阵序列的收敛性是，常用谱范数和下式定义的F-范数：
∣ ∣ A ∣ ∣ F = ( ∑ i = 1 n ∑ j = 1 n a i j 2 ) 1 2 = t r ( A T A ) ||A||_F = \left( \sum_{i=1}^n \sum_{j=1}^n a_{ij}^2 \right) ^ \frac{1}{2} = \sqrt{tr \left( A^T A \right)} ∣∣A∣∣F=(i=1∑nj=1∑naij2)21=tr(ATA)

向量序列和矩阵序列的收敛性

向量序列收敛性：
lim ⁡ k → ∞ x ( k ) = x ↔ lim ⁡ k → ∞ x i ( k ) = x i i = 1... n \lim_{k \rightarrow \infty} x^ {(k)} = x \leftrightarrow \lim_{ k \rightarrow \infty } x_i ^{(k)} = x_i \quad i=1...n k→∞limx(k)=x↔k→∞limxi(k)=xii=1...n
用向量范数来描述：
lim ⁡ k → ∞ x ( k ) = x ⇔ lim ⁡ k → ∞ ∣ ∣ x ( k ) − x ∣ ∣ = 0 \lim_{k \rightarrow \infty} x^{(k)}= x \Leftrightarrow \lim_{k \rightarrow \infty} ||x^{(k)} - x|| = 0 k→∞limx(k)=x⇔k→∞lim∣∣x(k)−x∣∣=0
类似的，矩阵序列收敛性：
lim ⁡ k → ∞ A ( k ) = A ⇔ lim ⁡ k → ∞ a i j ( k ) = a i j i = 1... n \lim_{k \rightarrow \infty} A^ {(k)} = A \Leftrightarrow \lim_{k \rightarrow \infty} a_{ij}^{( k )} = a_{ij} \quad i=1...n k→∞limA(k)=A⇔k→∞limaij(k)=aiji=1...n
用矩阵范数来描述：
lim ⁡ k → ∞ A ( k ) = A ⇔ lim ⁡ k → ∞ ∣ ∣ A ( k ) − A ∣ ∣ = 0 \lim_{k \rightarrow \infty} A^{(k)}= A \Leftrightarrow \lim_{k \rightarrow \infty} ||A^{(k)} - A|| = 0 k→∞limA(k)=A⇔k→∞lim∣∣A(k)−A∣∣=0

向量范数及矩阵范数的等价定理

对于两个向量范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣⋅∣∣和 ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣⋅∣∣′，存在两个正数 c 1 c_1 c1， c 2 c_2 c2，对于所有 x x x，下式恒成立：
c 1 ∣ ∣ x ∣ ∣ ≤ ∣ ∣ x ∣ ∣ ′ ≤ c 2 ∣ ∣ x ∣ ∣ c_1 ||x|| \leq ||x||^ \prime \leq c_2 ||x|| c1∣∣x∣∣≤∣∣x∣∣′≤c2∣∣x∣∣
对于两个矩阵范数 ∣ ∣ ⋅ ∣ ∣ || \cdot || ∣∣⋅∣∣和 ∣ ∣ ⋅ ∣ ∣ ′ || \cdot ||^ \prime ∣∣⋅∣∣′，存在两个正数 m 1 m_1 m1， m 2 m_2 m2，对于所有 A A A，下式恒成立：
m 1 ∣ ∣ A ∣ ∣ ≤ ∣ ∣ A ∣ ∣ ′ ≤ m 2 ∣ ∣ A ∣ ∣ m_1 ||A|| \leq ||A||^ \prime \leq m_2 ||A|| m1∣∣A∣∣≤∣∣A∣∣′≤m2∣∣A∣∣

1.3多元函数的梯度、Hesse矩阵、Jcobi矩阵

设有n元实函数 f ( x ) f(x) f(x)，其中自变量 x = ( x 1 , . . . , x n ) T x=(x_1,...,x_n)^T x=(x1,...,xn)T，则其梯度为：

优化方法与实践-第一次课程相关推荐

【硬刚Hive】Hive高级（5）：优化(5)HiveSQL优化方法与实践（二）
4 Order by的优化原理如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因是:所有的数据都会在同一个reduc ...
mysql模糊查询的优化方法--亲自实践
数据有4W多条,不多,但是模糊查询起来特别慢. 1,尝试过用 select * from (select * from a union all select * from b...很多表union) ...
mysql模糊查询优化_mysql模糊查询的优化方法--亲自实践
数据有4W多条,不多,但是模糊查询起来特别慢. 1,尝试过用 select * from (select * from a union all select * from b...很多表union) ...
DB2设计与性能优化：原理、方法与实践
DB2设计与性能优化:原理.方法与实践王飞鹏陈辉张广舟成孜论编著 ISBN 978-7-121-13094-6 2011年4月出版定价:89.80元(含光盘1张) 16开 416 ...
基于深度强化学习的组合优化方法在工业应用中的实践
<统筹方法平话>中有一个例子曾被收录到语文课本中,讲"烧水泡茶"有五道工序:1.烧开水,2.洗茶壶,3.洗茶杯,4.拿茶叶,5.泡茶,其中前四道工序是泡茶的前提,且各道 ...
机器学习调参自动优化方法
本文旨在介绍当前被大家广为所知的超参自动优化方法,像网格搜索.随机搜索.贝叶斯优化和Hyperband,并附有相关的样例代码供大家学习. 一.网格搜索(Grid Search) 网格搜索是暴力搜索,在 ...
YOLOV5 的小目标检测网络结构优化方法汇总(附代码)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨南山来源丨 AI约读社 YOLOv5是一种非常受欢迎的单阶段目标检测,以其性能和速度著称,其结 ...
《代码阅读方法与实践》阅读笔记一
第三本书我选择了代码阅读方法与实践,说实话,觉得三本书里面最好的就是这一本书了,每一段话,每一段代码打偶让我受益匪浅.下面是我的收获: 1.1为什么以及如何阅读代码将代码作为文献:要养成一个习惯, ...
PPT 下载 | 神策数据曹犟：数据驱动从方法到实践
本文根据神策数据联合创始人& CTO 曹犟在神策 2018 数据驱动大会现场,发表题为<数据驱动从方法到实践>演讲整理所得. 温馨提示:完整版 PPT 可点击阅读原文下载. 主要内 ...

优化方法与实践-第一次课程