矩阵论-定义、符号、以及相关理论
Directory
- 矩阵的秩 (rank)
- 矩阵内积 (Inner Product of Matrices)
- Cauchy-Shwarz inequality
- 哈达玛积 (Hadamard Product )
- 克罗内克积(Kronecker Product )
- 向量的范式
- 1. 向量范式的定义
- 2. L1L_1L1范式、L2范式、Infinity范式
- 1). L1L_1L1-morm
- 2). L2L_2L2-morm
- 3). L∞L_\inftyL∞-morm
- 矩阵范式
- 黑塞矩阵(Hessian Matrix)
- 定义
- 作用
- 函数的黑塞矩阵
- 一元函数的泰勒展开式
- 二元函数的黑塞矩阵
- 多元函数的黑塞矩阵
- 利用黑塞矩阵判定多元函数的极值
- 例子
矩阵的秩 (rank)
符号:r(A),rk(A),orrank(A)r(A),rk(A), \ or \ rank(A)r(A),rk(A), or rank(A)
定义:在线性代数中,一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地,行秩是A的线性无关的横行的极大数目。即如果把矩阵看成一个个行向量或者列向量,秩就是这些行向量或者列向量的秩,也就是极大无关组中所含向量的个数。
MATLAB求秩函数: rank()
矩阵内积 (Inner Product of Matrices)
符号:⟨.,.⟩\langle., .\rangle⟨.,.⟩
目的:度量长度。
定义:列向量a\mathbf{a}a与行向量b\mathbf{b}b的内积是指:组成a\mathbf{a}a的第一个元素与组成b\mathbf{b}b的第一个元素的乘积,依次,m个这样的乘积的加和。例如,
<a,b>=(a1a2)(b1b2)=a1b1+a2b2<\mathbf{a},\mathbf{b}>= \left(\begin{array}{c} a_{1} \\ a_{2} \end{array}\right) \left(\begin{array}{ll} b_{1} & b_{2} \end{array}\right) =a_{1} b_{1} + a_{2} b_{2}<a,b>=(a1a2)(b1b2)=a1b1+a2b2
矩阵A\mathbf{A}A与矩阵B\mathbf{B}B的内积是指:组成A\mathbf{A}A的第一个向量与组成B\mathbf{B}B的第一个向量的内积,依次,m个这样的内积的加和。
<A,B>=∑i=1n∑j=1naij∗bij<\mathbf{A},\mathbf{B}>=\sum^n_{i=1}\sum^n_{j=1}a_{ij}*b_{ij}<A,B>=i=1∑nj=1∑naij∗bij
例如
<A,B>=(a11a12a21a22)(b11b12b21b22)=(a11+b11a12+b12a21+b21a22+b22)<\mathbf{A},\mathbf{B}>= \left(\begin{array}{c} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right) \left(\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right) =\left(\begin{array}{ll} a_{11}+b_{11} & a_{12}+b_{12} \\ a_{21}+b_{21} & a_{22}+b_{22} \end{array}\right)<A,B>=(a11a21a12a22)(b11b21b12b22)=(a11+b11a21+b21a12+b12a22+b22)
另一种定义: 令 VVV 是定义在场 F\mathbf{F}F ( F=RorC\mathbf{F} = \mathbf{R} \ or \ \mathbf{C}F=R or C)上的向量空间。 如果对于任意 x,y,z∈Vx, y, z \in Vx,y,z∈V 和 c∈Fc\in \mathbf{F}c∈F,函数 <⋅,⋅>:V×V→F\left< \cdot ,\cdot \right>:V\times V\to \mathbf{F}⟨⋅,⋅⟩:V×V→F满足下列条件,则它是一个内积(inner product)。
(1)⟨x,x⟩≥0,Nonnegativity(非负)(1a)⟨x,x⟩=0,ifandonlyifx=0Positivity(永正)(2)⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩,Additivity(加法)(3)<cx,y>=c<x,y>,Homogeneity(同质)(4)<x,y>≤<y,x>‾,HermitianProperty(共轭对称)\begin{aligned} &(1) \ \ \ ⟨x,x⟩ \ge 0 , & \mathrm{Nonnegativity}(非负) \\ &(1a) \ ⟨x,x⟩=0, &\mathrm{if \ and \ only \ if \ x=0 \ Positivity}(永正) \\ &(2)\ \ \ ⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩, &\mathrm{Additivity}(加法) \\ &(3)\ \ \ <cx,y>= c<x,y>, &\mathrm{Homogeneity}(同质) \\ &(4)\ \ \ <x,y>≤\overline{<y,x>}, &\mathrm{Hermitian \ Property}(共轭对称)\end{aligned}(1) ⟨x,x⟩≥0,(1a) ⟨x,x⟩=0,(2) ⟨x+y,z⟩=⟨x,z⟩+⟨y,z⟩,(3) <cx,y>=c<x,y>,(4) <x,y>≤<y,x>,Nonnegativity(非负)if and only if x=0 Positivity(永正)Additivity(加法)Homogeneity(同质)Hermitian Property(共轭对称) 只满足(1), (2), (3), (4)而不满足(1a)的称为半内积(semi-inner product)。
Cauchy-Shwarz inequality
定理 (Cauchy-Shwarz inequality). <⋅,⋅>\left< \cdot ,\cdot \right>⟨⋅,⋅⟩是定义在向量空间 VVV 上的内积,则对于任意 x,y∈Vx,y\in Vx,y∈V
∣<x,y>∣2≤<x,x><y,y>{\left |\left< x ,y \right> \right|}^2 \le \left< x ,x \right>\left< y ,y \right> \quad∣⟨x,y⟩∣2≤⟨x,x⟩⟨y,y⟩
当且仅当(if and only if) x 和 y 线性相关(linearly dependent),不等式取等号。
标量形式表示为 (∑i=1nxiyi)2≤(∑i=1nxi2)(∑i=1nyi2)(\sum_{i=1}^{n}x_iy_i)^2 \le (\sum_{i=1}^{n}x_i^2 )(\sum_{i=1}^{n}y_i^2)(∑i=1nxiyi)2≤(∑i=1nxi2)(∑i=1nyi2)
Proof. 令 x,y∈Vx,y\in Vx,y∈V,若 x=y=0x=y=0x=y=0,则不等式显然成立,所以假设其中一个是非零向量,不失一般性,假设y≠0y\ne 0y=0,令 v=<y,y>x−<x,y>yv=\left< y ,y \right>x - \left< x ,y \right>yv=⟨y,y⟩x−⟨x,y⟩y,有:
0≤<v,v>=<<y,y>x−<x,y>y,<y,y>x−<x,y>y>=<y,y>2<x,x>−<y,y><x,y>‾<x,y>−<x,y><y,x><y,y>+<y,y><x,y>‾<x,y>=<y,y>2<x,x>−<y,y>∣<x,y>∣2=<y,y>(<x,x><y,y>−∣<x,y>∣2)\begin{aligned} 0\le \left< v,v \right>&=\left< \left< y ,y \right>x - \left< x ,y \right>y ,\left< y ,y \right>x - \left< x ,y \right>y \right> \\ &=\left< y ,y \right>^2 \left< x,x \right> -\left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right>-\left< x,y \right>\left< y,x \right> \left< y,y \right> + \left< y,y \right>\overline{ \left< x,y \right>}\left< x,y \right> \\ &=\left< y ,y \right>^2\left< x,x \right> - \left< y ,y \right> {\left |\left< x,y \right> \right|}^2 \\ &=\left< y ,y \right>(\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2)\end{aligned}0≤⟨v,v⟩=⟨⟨y,y⟩x−⟨x,y⟩y,⟨y,y⟩x−⟨x,y⟩y⟩=⟨y,y⟩2⟨x,x⟩−⟨y,y⟩⟨x,y⟩⟨x,y⟩−⟨x,y⟩⟨y,x⟩⟨y,y⟩+⟨y,y⟩⟨x,y⟩⟨x,y⟩=⟨y,y⟩2⟨x,x⟩−⟨y,y⟩∣⟨x,y⟩∣2=⟨y,y⟩(⟨x,x⟩⟨y,y⟩−∣⟨x,y⟩∣2)
因为y≠0y\ne 0y=0,即<y,y>>0\left< y ,y \right> > 0⟨y,y⟩>0,则推出 <x,x><y,y>−∣<x,y>∣2≥0\left< x,x \right>\left< y ,y \right>-{\left |\left< x,y \right> \right|}^2 \ge 0⟨x,x⟩⟨y,y⟩−∣⟨x,y⟩∣2≥0 ,只有当 v=0v=0v=0 的时候,等式成立,即 v=<y,y>x−<x,y>y=0v=\left< y ,y \right>x - \left< x ,y \right>y=0v=⟨y,y⟩x−⟨x,y⟩y=0,也就是说 xxx和 yyy线性依赖。
推论 1.5. 如果 $\left< \cdot ,\cdot \right> 是定义在实数或者复数域向量空间是定义在实数或者复数域向量空间是定义在实数或者复数域向量空间V$ 上的内积,则函数 ∥⋅∥:V→[0,∞)\|\cdot\|:V\to [0,\infty)∥⋅∥:V→[0,∞), ∥x∥=<x,x>1/2\|x\|= \left< x,x \right>^{1/2}∥x∥=⟨x,x⟩1/2是向量空间 VVV 上的一个范式。这样的范式(norm)被称为从内积获得(derived from an inner product)。
哈达玛积 (Hadamard Product )
符号: ∘\circ∘
LeTex : \circ
定义:哈达玛积 ( Hadamard product ) 是矩阵的一类运算,若A=(aij)和B=(bij)\boldsymbol{A}=(a_{ij})和\boldsymbol{B}=(b_{ij})A=(aij)和B=(bij)是两个同阶矩阵,若cij=aij×bijc_{ij}=a_{ij}×b_{ij}cij=aij×bij,则称矩阵C=(cij)\boldsymbol{C}=(c_{ij})C=(cij)为A\boldsymbol{A}A和B\boldsymbol{B}B的哈达玛积,记为A∘B\boldsymbol{A} \ \circ \boldsymbol{B}A ∘B,具体为:
[a11b11a12b12⋯a1nb1na21b21a22b22⋯a2nb2n⋮⋮⋮am1bm1am2bm2⋯amnbmn]\left[\begin{array}{cccc} a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1 n} b_{1 n} \\ a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2 n} b_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} b_{m 1} & a_{m 2} b_{m 2} & \cdots & a_{m n} b_{m n} \end{array}\right]⎣⎢⎢⎢⎡a11b11a21b21⋮am1bm1a12b12a22b22⋮am2bm2⋯⋯⋯a1nb1na2nb2n⋮amnbmn⎦⎥⎥⎥⎤
克罗内克积(Kronecker Product )
符号:⊗\otimes⊗
LeTex: \otimes
定义:克罗内克积是两个任意大小的矩阵间的运算,它是张量积的特殊形式。给定A\boldsymbol{A}A和B\boldsymbol{B}B,则A\boldsymbol{A}A和B\boldsymbol{B}B的克罗内克积是一个在空间Rmp×nq\mathbb{R}^{m p \times n q}Rmp×nq的分块矩阵:
A⊗B=[a11B⋯a1nB⋮⋱⋮am1B⋯amnB]\boldsymbol{A} \otimes \boldsymbol{B}=\left[\begin{array}{ccc} a_{11} \boldsymbol{B} & \cdots & a_{1 n} \boldsymbol{B} \\ \vdots & \ddots & \vdots \\ a_{m 1} \boldsymbol{B} & \cdots & a_{m n} \boldsymbol{B} \end{array}\right]A⊗B=⎣⎢⎡a11B⋮am1B⋯⋱⋯a1nB⋮amnB⎦⎥⎤
向量的范式
1. 向量范式的定义
定义:令 VVV 是定义在场 F\mathbf{F}F ( F=R\mathbf{F} = \mathbf{R}F=R 或者 C\mathbf{C}C,即实数域或者是复数域)上的向量空间。 如果对于任意的x,y∈Vx , y \in Vx,y∈V 和 c∈Fc\in \mathbf{F}c∈F 都满足下面几个条件,则称函数 ∥⋅∥:V→R\|\cdot\|:V\to \mathbf{R}∥⋅∥:V→R 是一个范式 (有时被称为向量范式vector norm)。
(1)∥x∥≥0,Nonnegativity(非负)(1a)∥x∥=0,ifandonlyifx=0Positivity(永正)(2)∥cx∥=∣c∣∥x∥,Homogeneity(同质)(3)∥x+y∥≤∥x∥+∥y∥,TriangleInequality(三角不等)\begin{aligned} &(1) \ \ \ ∥x∥≥0, \quad &\mathrm{Nonnegativity}(非负)\\ &(1a) \ ∥x∥=0, \quad &\mathrm{if \ and \ only \ if \ x=0 \ Positivity}(永正)\\ &(2)\ \ \ ∥cx∥= | c | \|x\|, &\mathrm{Homogeneity}(同质)\\ &(3)\ \ \ ∥x+y∥≤\|x\|+\|y\|, &\mathrm{Triangle \ Inequality}(\mathbf{三角不等})\end{aligned}(1) ∥x∥≥0,(1a) ∥x∥=0,(2) ∥cx∥=∣c∣∥x∥,(3) ∥x+y∥≤∥x∥+∥y∥,Nonnegativity(非负)if and only if x=0 Positivity(永正)Homogeneity(同质)Triangle Inequality(三角不等) (2) Positivity和 (3) Homogeneity保证了对于任意非零向量xxx,可以正则化到单位向量 u=x∥x∥u=\frac{x}{\|x\|}u=∥x∥x。
只满足(1),(2),(3)而不满足(1a)的范式称为半范式(seminorm),(1a)保证了只有零向量的范式才是0,非零向量的范式都大于0,而一个非零向量的半范式可以是0。
引理 1.2. ∥⋅∥\|\cdot\|∥⋅∥是定义在实数域或者复数域向量空间 VVV 上的半范式, 则对于任意 x,y∈Vx, y\in Vx,y∈V,有 ∣∣x∣−∣y∣∣≤∣x−y∣| |x| − |y|| \le |x − y|∣∣x∣−∣y∣∣≤∣x−y∣
Proof. 即证明 ±(∥x∥−∥y∥)≤∥x−y∥\pm (\|x\| − \|y\|) \le \|x − y\|±(∥x∥−∥y∥)≤∥x−y∥
(1)∥x∥=∥x−y+y∥≤∥x−y∥+∥y∥⇒∥x−y∥≥∥x∥−∥y∥(2)∥y∥=∥y−x+x∥≤∥y−x∥+∥x∥=∥x−y∥+∥x∥⇒∥x−y∥≥∥y∥−∥x∥\begin{aligned} (1)& \ \|x\| =\|x-y+y\| \le \|x-y\|+\|y\| \\ &\Rightarrow \|x-y\| \ge \|x\| - \|y\| \\ (2) & \ \|y\| =\|y-x+x\| \le \|y-x\|+\|x\| = \|x-y\|+\|x\|\\ &\Rightarrow \|x-y\| \ge \|y\| - \|x\| \\ \end{aligned}(1)(2) ∥x∥=∥x−y+y∥≤∥x−y∥+∥y∥⇒∥x−y∥≥∥x∥−∥y∥ ∥y∥=∥y−x+x∥≤∥y−x∥+∥x∥=∥x−y∥+∥x∥⇒∥x−y∥≥∥y∥−∥x∥
2. L1L_1L1范式、L2范式、Infinity范式
1). L1L_1L1-morm
Cn\mathbf{C}^nCn上的和范式(sum norm),也叫L1L_1L1-范式(L1L_1L1-norm),定义如下:
∥x∥1=∣x1∣+⋯+∣xn∣\|x\|_1=|x_1|+\cdots+|x_n|∥x∥1=∣x1∣+⋯+∣xn∣ 其通常也被称为曼哈顿范式(Manhattan norm)。
例如:以二维向量 v=(v1,v2)\mathbf{v}=(v_1, v_2)v=(v1,v2)举例,范式的值恰好为1的图像如下,其中横轴代表 v1v_1v1,纵轴代表v2v_2v2:
L1L_1L1范式,即∥v∥1=∣v1∣+∣v2∣=1\|v\|_1=|v_1|+|v_2|=1∥v∥1=∣v1∣+∣v2∣=1
2). L2L_2L2-morm
一个向量 x=[x1,...,xn]T∈Cnx=[x_1,...,x_n]^T\in \mathbf{C}^nx=[x1,...,xn]T∈Cn的欧几里得范式(Euclidean norm),也叫L2L_2L2范式(L2L_2L2-norm),定义如下:
∥x∥2=(∣x1∣2+⋯+∣xn∣2)1/2\|x\|_2=(|x_1|^2+\cdots+|x_n|^2)^{1/2}∥x∥2=(∣x1∣2+⋯+∣xn∣2)1/2 经常使用 ∥x−y∥2\|x-y\|_2∥x−y∥2来衡量两个点x,y∈Cnx,y\in \mathbf{C}^nx,y∈Cn的欧几里得距离(Euclidean distance)。
例如:L2L_2L2范式,即∥v∥2=∣v1∣2+∣v2∣2=1\|v\|_2=\sqrt{|v_1|^2+|v_2|^2}=1∥v∥2=∣v1∣2+∣v2∣2=1
3). L∞L_\inftyL∞-morm
CnC^nCn上的max norm( l∞l_\inftyl∞ -norm)为:
∥x∥∞=max{∣x1∣,⋯,∣xn∣}\|x\|_\infty= \max \{|x_1|,\cdots,|x_n| \}∥x∥∞=max{∣x1∣,⋯,∣xn∣} 一般的,Cn\mathbf{C}^nCn 上的 lpl_plp-norm定义为:
∥x∥p=(∣x1∣p+⋯+∣xn∣p)1/p,p≥1\|x\|_p=(|x_1|^p+\cdots+|x_n|^p)^{1/p},\quad p\ge 1∥x∥p=(∣x1∣p+⋯+∣xn∣p)1/p,p≥1
例如:Infinity范式,即 ∥v∥∞=max{∣v1∣,∣v2∣}=1\|v\|_\infty= \max \{|v_1|,|v_2| \}=1∥v∥∞=max{∣v1∣,∣v2∣}=1
矩阵范式
Frobenius 范数:
∥A∥F=tr(ATA)=(∑i=1m∑j=1m∣aij∣2)1/2,\Vert \mathbf{A} \Vert_F=\sqrt{\mathrm{tr}( \mathbf{A}^{\mathrm{T}} \mathbf{A} )}=(\sum_{i=1}^{m}\sum_{j=1}^{m}|a_{ij}|^2)^{1/2},∥A∥F=tr(ATA)=(i=1∑mj=1∑m∣aij∣2)1/2,该定义可以看作向量的 Euclidean 范数对按照矩阵各行排列的“长向量”的推广。
谱范数:∥A∥F=λmax,\Vert \mathbf{A} \Vert_F=\sqrt{ \lambda_{\max} },∥A∥F=λmax, λmax\lambda_{\max}λmax 是矩阵(ATA)(\mathbf{A^{\mathrm{T}}A})(ATA)的最大特征值. 注意:如果A\mathbf{A}A是对称方阵,∥A∥=max(∣λi(A)∣)\|\mathbf{A}\|=\max (|\lambda_i(\mathbf{A})|)∥A∥=max(∣λi(A)∣),其中λi(A)\lambda_i(\mathbf{A})λi(A)为A\mathbf{A}A所有的特征值。
黑塞矩阵(Hessian Matrix)
定义
黑塞矩阵是一个多元函数的二阶偏导数构成的方阵**,描述了函数的局部曲率。
作用
黑塞矩阵常用于牛顿法解决优化问题,利用黑塞矩阵可判定多元函数的极值问题,边缘检测、消除边缘响应等方面的应用,抽取图像特征。大多数目标函数往往很复杂,为了使问题简化,常将目标函数在某点邻域展开成泰勒多项式来逼近原函数,此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。
函数的黑塞矩阵
一元函数的泰勒展开式
若一元函数f(x)f(x)f(x)在x(0)x^{(0)}x(0)点的某个邻域内具有(n+1)(n+1)(n+1)阶导数,则在x(0)x^{(0)}x(0)点处的泰勒展开式为:
f(x)=f(x(0))+12f′(x(0))Δx+f′′(x(0))(Δx)2+...,=f(x)0!+f′(x)1!(x−x(0))+f′′(x)2!(x−x(0))2+...+f(n)(x)n!(x−x(0))n+Rn(x)\begin{aligned} f(x) &=f(x^{(0)})+\frac{1}{2}f^{'}(x^{(0)})\Delta x+f^{''}(x^{(0)})(\Delta x)^2 + ..., \\ &= \frac{f(x)}{0!} + \frac{f^{'}(x)}{1!}(x - x^{(0)}) + \frac{f^{''}(x)}{2!}(x - x^{(0)})^2 + ...+\frac{f^{(n)}(x)}{n!}(x - x^{(0)})^n +R_n(x) \end{aligned}f(x)=f(x(0))+21f′(x(0))Δx+f′′(x(0))(Δx)2+...,=0!f(x)+1!f′(x)(x−x(0))+2!f′′(x)(x−x(0))2+...+n!f(n)(x)(x−x(0))n+Rn(x) 其中Δx=x−x(0),\Delta x = x - x^{(0)},Δx=x−x(0), Δx2=(x−x(0))2,Rn(x)=f(n+1)(θ)(n+1)!(x−x(0))(n+1)\Delta x^2 = \left(x - x^{(0)} \right)^2, R_n(x)=\frac{f^{(n+1)}(\theta)}{(n+1)!}(x - x^{(0)})^{(n+1)}Δx2=(x−x(0))2,Rn(x)=(n+1)!f(n+1)(θ)(x−x(0))(n+1),θ~\theta θ为xxx与x(0)x^{(0)}x(0)之间的某个值.
二元函数的黑塞矩阵
二元函数f(x1,x2)f(x_1,x_2)f(x1,x2)在X0(x1(0),x2(0))X_0(x_1^{(0)},x_2^{(0)})X0(x1(0),x2(0))点处的泰勒展开式为:
f(X)=f(X(0))+[∂f(X(0))∂x1Δx1+∂f(X(0))∂x2Δx2]+12[∂2f′′(X(0))∂2x1(Δx1)2+∂2f′′(X(0))∂2x2(Δx2)2+∂2f′′(X(0))∂x1∂x2(Δx1Δx2)]+...,\begin{aligned} f(X) &= f(X^{(0)})+ \left[ \frac{\partial f (X^{(0)})}{\partial x_1} \Delta x_1 + \frac{\partial f (X^{(0)})}{\partial x_2} \Delta x_2 \right]+ \\ &~~~\frac{1}{2} \left[ \frac{\partial^2 f^{''}(X^{(0)})}{\partial^2 x_1 } (\Delta x_1)^2 + \frac{\partial^2 f^{''}(X^{(0)})}{\partial^2 x_2 } (\Delta x_2)^2 + \frac{\partial^2 f^{''}(X^{(0)})}{\partial x_1 \partial x_2} (\Delta x_1 \Delta x_2) \right] + ..., \end{aligned}f(X)=f(X(0))+[∂x1∂f(X(0))Δx1+∂x2∂f(X(0))Δx2]+ 21[∂2x1∂2f′′(X(0))(Δx1)2+∂2x2∂2f′′(X(0))(Δx2)2+∂x1∂x2∂2f′′(X(0))(Δx1Δx2)]+..., 其中Δx1=x1−x1(0),\Delta x_1 = x1-x_1^{(0)},Δx1=x1−x1(0), Δx2=x2−x2(0).\Delta x_2 = x2-x_2^{(0)}.Δx2=x2−x2(0).
将上述展开式写为矩阵形式:
f(X)=f(X(0))+(∂f∂x1Δx1+∂f∂x2Δx2)∣X(0)(Δx1Δx2)+12(Δx1,Δx2)(∂2f∂x12∂2f∂x1∂x2∂2f∂x2∂x1∂2f∂x22)∣X(0)(Δx1Δx2)+...,=f(X(0))+∇f(X(0))TΔX+12ΔXTG(X(0))ΔX+...,\begin{aligned} f(X) &= f(X^{(0)})+ \left. \left( \frac{\partial f}{\partial x_1} \Delta x_1 + \frac{\partial f}{\partial x_2} \Delta x_2 \right) \right|_{X^{(0)}} \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)+ \left.\frac{1}{2} \left( \Delta x_{1}, \Delta x_{2}\right) \left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}} \left(\begin{array}{c} \Delta x_{1} \\ \Delta x_{2} \end{array}\right) + ...,\\ &=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + ..., \end{aligned}f(X)=f(X(0))+(∂x1∂fΔx1+∂x2∂fΔx2)∣∣∣∣X(0)(Δx1Δx2)+21(Δx1,Δx2)(∂x12∂2f∂x2∂x1∂2f∂x1∂x2∂2f∂x22∂2f)∣∣∣∣∣X(0)(Δx1Δx2)+...,=f(X(0))+∇f(X(0))TΔX+21ΔXTG(X(0))ΔX+..., 其中 G(X(0))=(∂2f∂x12∂2f∂x1∂x2∂2f∂x2∂x1∂2f∂x22)∣X(0),G(X^{(0)}) = \left.\left(\begin{array}{cc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{array} \right) \right|_{X^{(0)}},G(X(0))=(∂x12∂2f∂x2∂x1∂2f∂x1∂x2∂2f∂x22∂2f)∣∣∣∣∣X(0), ΔX=(Δx1Δx2)\Delta X = \left( \begin{aligned} \Delta x_1 \\ \Delta x_2 \end{aligned} \right)ΔX=(Δx1Δx2),G(X(0))G(X^{(0)})G(X(0)) 是f(x1,x2)f(x_1,x_2)f(x1,x2)在X(0)X^{(0)}X(0)点处的黑塞矩阵(Hessian Matrix),它是由函数f(X)f(X)f(X)在X(0)X^{(0)}X(0)点处的二阶偏导数所组成的方阵.
多元函数的黑塞矩阵
将二元函数的泰勒展开式推广到多元函数,则f(x1,x2,...,xn)f(x_1,x_2,...,x_n)f(x1,x2,...,xn)在X(0)X^{(0)}X(0)点处的泰勒展开式的矩阵形式为:
f(X)=f(X(0))+∇f(X(0))TΔX+12ΔXTG(X(0))ΔX+...,f(X)=f(X^{(0)}) + \nabla f(X^{(0)})^T \Delta X + \frac{1}{2} \Delta X^T G(X^{(0)}) \Delta X + ...,f(X)=f(X(0))+∇f(X(0))TΔX+21ΔXTG(X(0))ΔX+..., 其中:
(1). ∇f(X(0))=[∂f∂x1,∂f∂x2,...,∂f∂xn,]∣X(0)T\nabla f(X^{(0)})= \left.\left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},..., \frac{\partial f}{\partial x_n}, \right] \right|_{X^{(0)}} ^T∇f(X(0))=[∂x1∂f,∂x2∂f,...,∂xn∂f,]∣∣∣X(0)T,它是f(X)f(X)f(X)在X(0)X^{(0)}X(0)点处的梯度.
(2). G(X(0))=[∂2f∂x12∂2f∂x1∂x2⋯∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22⋯∂2f∂x2∂xn⋮⋮⋱⋮∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂xn2]X(0)G\left(X^{(0)}\right)=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]_{X^{(0)}}G(X(0))=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤X(0), 它是f(X)f(X)f(X)在X(0)X^{(0)}X(0)点处的Hessian Matrix,是由目标函数f在点XXX处的二阶偏导数组成的(n×n)(n \times n)(n×n)阶对称矩阵.
利用黑塞矩阵判定多元函数的极值
设n多元实函数f(x1,x2,...,xn)f(x_1,x_2,...,x_n)f(x1,x2,...,xn)在点M0(a1,a2,...,an)M_0(a_1,a_2,...,a_n)M0(a1,a2,...,an)的邻域内有二阶连续偏导,若有:∂f∂xj∣(a1,a2,...,an),j=1,2,...,n\left.\frac{\partial f}{\partial x_j}\right|_{(a_1,a_2,...,a_n)}, j=1,2,...,n∂xj∂f∣∣∣∣(a1,a2,...,an),j=1,2,...,n 其中Hessian Matrix为 A=[∂2f∂x12∂2f∂x1∂x2⋯∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22⋯∂2f∂x2∂xn⋮⋮⋱⋮∂2f∂xn∂x1∂2f∂xn∂x2⋯∂2f∂xn2]A = \left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \\ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}} \end{array}\right]A=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤
则有以下结论:
(1)当AAA正定矩阵时,fff在M0(a1,a2,...,an)M_0(a_1,a_2,...,a_n)M0(a1,a2,...,an)处是极小值;
(2)当AAA负定矩阵时,fff在M0(a1,a2,...,an)M_0(a_1,a_2,...,a_n)M0(a1,a2,...,an)处是极大值;
(3)当AAA不定矩阵时,M0(a1,a2,...,an)M_0(a_1,a_2,...,a_n)M0(a1,a2,...,an)不是极值点。
(4)当AAA为半正定矩阵或半负定矩阵时,M0(a1,a2,...,an)M_0(a_1,a_2,...,a_n)M0(a1,a2,...,an)是“可疑”极值点,尚需要利用其他方法来判定。
例子
求三元函数f(x,y,z)=x2+y2+z2+2x+4y−6zf(x,y,z)=x^2+y^2+z^2+2x+4y-6zf(x,y,z)=x2+y2+z2+2x+4y−6z的极值。
解:∵∂f∂x=2x+2=0,∂f∂x=2y+4y=0,∂f∂x=2z−6=0\because \frac{\partial f}{\partial x}=2x+2=0,\frac{\partial f}{\partial x}=2y+4y=0, \frac{\partial f}{\partial x}=2z-6=0∵∂x∂f=2x+2=0,∂x∂f=2y+4y=0,∂x∂f=2z−6=0
∴\therefore∴ 函数fff的驻点是(−1,−2,3)(-1,-2,3)(−1,−2,3)
又∵\because∵ A=[∂2f∂x2∂2f∂x∂y∂2f∂x1∂z∂2f∂y∂x∂2f∂y2∂2f∂y∂z∂2f∂z∂x∂2f∂z∂y∂2f∂z2]=[200020002]A=\left[\begin{array}{cccc} \frac{\partial^{2} f}{\partial x^{2}} & \frac{\partial^{2} f}{\partial x \partial y} & \frac{\partial^{2} f}{\partial x_{1} \partial z } \\ \frac{\partial^{2} f}{\partial y \partial x } & \frac{\partial^{2} f}{\partial y^{2}} & \frac{\partial^{2} f}{\partial y \partial z } \\ \frac{\partial^{2} f}{\partial z \partial x } & \frac{\partial^{2} f}{\partial z \partial y } & \frac{\partial^{2} f}{\partial z^{2}} \end{array}\right] = \left[\begin{array}{cccc} 2 & 0 & 0 \\ 0 & 2 &0 \\ 0 &0& 2 \end{array}\right]A=⎣⎢⎡∂x2∂2f∂y∂x∂2f∂z∂x∂2f∂x∂y∂2f∂y2∂2f∂z∂y∂2f∂x1∂z∂2f∂y∂z∂2f∂z2∂2f⎦⎥⎤=⎣⎡200020002⎦⎤
∴\therefore∴ AAA是正定矩阵,故(−1,−2,3)(-1,-2,3)(−1,−2,3)是极小值点,且极小值为f(−1,−2,3)=−14.f(-1,-2,3) = -14.f(−1,−2,3)=−14.
矩阵论-定义、符号、以及相关理论相关推荐
- 元胞自动机与相关理论和方法
元胞自动机与相关理论和方法的发展有着千丝万缕的联系,一方面,元胞自动机的发展得益于相关理论的研究,如逻辑数学.离散数学.计算机中的自动机理论,图灵机思想;另一方面,元胞自动机的发展也促进了一些相关学科 ...
- 01路径规划问题的相关理论
目录 1.旅行商问题 2.有能力约束的车辆路径问题 3.车辆路径主要要素特征 4.约束条件分析 5.带时间窗的车辆路径问题 6.车辆路径问题求解算法 7.小节 1.旅行商问题 旅行商问题(Travel ...
- 记:ELF文件解析初定义——Section段相关讲解
0x00 概论 因为TI的DSP输出文件与传统的ELF文件不符,所以本人就顺道研究了一下现在的ELF的文件格式. 会将其陆续完成在文章中. 承接上文,上文书说到,解析文件头格式,数据段的分配定义,与数 ...
- 卡尔曼滤波(kalman)相关理论以及与HMM、最小二乘法关系 转
卡尔曼滤波(kalman)相关理论以及与HMM.最小二乘法关系_weixin_30527143的博客-CSDN博客
- trunk口_南京课工场IT培训:VLAN、Trunk与三层交换机的相关理论知识
各位小伙伴大家好,本次和大家分享的是VLAN.Trunk与三层交换机的相关理论知识,接下来我会从下面几个方面为大家进行解析: 1.VLAN的概念及优势 2.VLAN的种类 3.静态VLAN的配置 4. ...
- 产品定价相关理论_产品定价
产品定价相关理论 While writing a quick comment on Paul Boag's recent post I thought that the issue of pricin ...
- 机构数据分析培训之关于Mysql定义及数据库相关小知识
机构数据分析培训之关于Mysql定义及数据库相关小知识 一.关于Mysql定义 MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度 ...
- 制冷与空调设备安装维修相关理论知识在线模拟考试题库
制冷与空调设备安装维修相关理论知识在线模拟考试题库 从事特殊工种作业人员必须熟悉相应特殊工种作业的安全知识及防范各种意外事故的技能,要求从业人员必须持国家安全生产监督管理局颁发<中华人民共和国特 ...
- Android 进阶——Android 系统的基础术语和编译的相关理论小结
文章大纲 引言 一.Android系统的分区 1./boot 引导分区 2./system 系统分区 3./recovery 恢复分区 刷入RE: 4./data 用户数据区 5./cache 数据缓 ...
最新文章
- SAP PM 入门系列2 - IE03显示设备主数据
- 67. Add Binary
- 如何在我的世界里打造一台计算机,在《我的世界》里从零打造一台计算机有多难?...
- 一起学React--组件定义和组件通讯
- 利用HttpSessionListener实现网站在线人数统计功能
- 快速开发工作流_01_简单流程案例
- css3中的渐变效果及花斑动画的实现
- python连续质数计算代码分析,素性测试的Miller-Rabin算法完全解析 (C语言实现、Python实现)...
- Spatial Pyramid 小结
- 高质量程序设计指南--笔记
- Energy Vault宣布完成1亿美元C轮融资
- RGB颜色空间、色调、饱和度、亮度、HSV颜色空间详解
- Windows如何使用自带的桌面整理工具?
- 高新技术企业代办费用多少?
- pandownload下载完成却找不到所下载的文件 解决方法
- Android屏幕适配AndroidAutoSize的使用
- Zabbix 离线安装及使用方法
- 2018EI收录情况
- 探究fontsize与字体height关系
- CSS炫丽的字体,含中文字体,在线字体