Jacobian矩阵 梯度矩阵 矩阵偏导与微分 常见公式

矩阵求导是机器学习中常见的运算方法,研究对象包括标量矩阵,求导分为标量矩阵求导,矩阵求导。
根据个人理解和经验,机器学习中的优化目标一般是一个由向量或矩阵运算得到的标量,因此应该重点关注标量对向量和矩阵的求导。
本文总结了矩阵求导的定义和常见公式,主要内容来自张贤达《矩阵分析与应用(第二版)》的第三章。

Jacobian矩阵

矩阵导数可以理解成实值标量函数、实值向量函数、实值矩阵函数对于向量或矩阵中的每一个元素的偏导,是由一系列偏导组成的。

若有mmm维列向量x∈Rm×1x\in \mathbb{R}^{m\times 1}x∈Rm×1,变元为xxx的实值标量函数f(x)f(x)f(x)在xxx处的偏导向量定义为:
∂f(x)∂xT=[∂f∂x1,∂f∂x2,⋯,∂f∂xm]\frac{\partial f(x)}{\partial x^T} =[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots ,\frac{\partial f}{\partial x_m}] ∂xT∂f(x)​=[∂x1​∂f​,∂x2​∂f​,⋯,∂xm​∂f​]

若有矩阵X∈Rm×nX\in \mathbb{R}^{m\times n}X∈Rm×n,变元为XXX的实值标量函数f(X)f(X)f(X)在XXX处的Jacobian矩阵定义为:
∂f(X)∂xT=[∂f(X)∂X11⋯∂f(X)∂Xm1⋮⋱⋮∂f(X)∂X1n⋯∂f(X)∂Xmn]∈Rn×m\frac{\partial f(X)}{\partial x^T} =\left[ \begin{matrix} \frac{\partial f(X)}{\partial X_{11}} & \cdots & \frac{\partial f(X)}{\partial X_{m1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f(X)}{\partial X_{1n}} & \cdots & \frac{\partial f(X)}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{n\times m} ∂xT∂f(X)​=⎣⎢⎢⎡​∂X11​∂f(X)​⋮∂X1n​∂f(X)​​⋯⋱⋯​∂Xm1​∂f(X)​⋮∂Xmn​∂f(X)​​⎦⎥⎥⎤​∈Rn×m

对于矩阵X∈Rm×nX\in \mathbb{R}^{m\times n}X∈Rm×n,实值矩阵函数f(X)∈Rp×qf(X)\in \mathbb{R}^{p\times q}f(X)∈Rp×q在XXX处的Jacobian矩阵定义为:
∂f(X)∂XT=[∂f(X)11∂X11⋯∂f(X)11∂Xm1⋯∂f(X)11∂Xmn⋮⋱⋮⋱⋮∂f(X)p1∂X11⋯∂f(X)p1∂Xm1⋯∂f(X)p1∂Xmn⋮⋱⋮⋱⋮∂f(X)pq∂X11⋯∂f(X)pq∂Xm1⋯∂f(X)pq∂Xmn]∈Rpq×mn\frac{\partial f(X)}{\partial X^T} =\left[ \begin{matrix} \frac{\partial f(X)_{11}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{11}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{11}}{\partial X_{mn}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{p1}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{mn}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{pq}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{m1}} &\cdots & \frac{\partial f(X)_{pq}}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{pq\times mn} ∂XT∂f(X)​=⎣⎢⎢⎢⎢⎢⎢⎢⎡​∂X11​∂f(X)11​​⋮∂X11​∂f(X)p1​​⋮∂X11​∂f(X)pq​​​⋯⋱⋯⋱⋯​∂Xm1​∂f(X)11​​⋮∂Xm1​∂f(X)p1​​⋮∂Xm1​∂f(X)pq​​​⋯⋱⋯⋱⋯​∂Xmn​∂f(X)11​​⋮∂Xmn​∂f(X)p1​​⋮∂Xmn​∂f(X)pq​​​⎦⎥⎥⎥⎥⎥⎥⎥⎤​∈Rpq×mn
这个Jacobian矩阵是分别对f(X)f(X)f(X)和XXX做向量化然后逐元素求偏导得到的。这里的f(X)f(X)f(X)和XXX都是按列展开的。
有了这个通用公式,其他关于向量的各种Jacobian矩阵也都有定义了。

梯度矩阵

实值标量函数f(x)f(x)f(x)在列向量变元x∈Rm×1x\in \mathbb{R}^{m\times 1}x∈Rm×1处的梯度向量定义为:
∂f(x)∂x=[∂f(x)∂x1,⋯,∂f(x)∂xm]T\frac{\partial f(x)}{\partial x} =[\frac{\partial f(x)}{\partial x_1},\cdots,\frac{\partial f(x)}{\partial x_m}]^T ∂x∂f(x)​=[∂x1​∂f(x)​,⋯,∂xm​∂f(x)​]T
注意这是个列向量。
实值标量函数f(X)f(X)f(X)在矩阵变元X∈Rm×nX\in \mathbb{R}^{m\times n}X∈Rm×n处的梯度矩阵定义为:
∂f(X)∂X=[∂f(X)∂X11⋯∂f(X)∂X1n⋮⋱⋮∂f(X)∂Xm1⋯∂f(X)∂Xmn]∈Rm×n\frac{\partial f(X)}{\partial X} =\left[ \begin{matrix} \frac{\partial f(X)}{\partial X_{11}} & \cdots & \frac{\partial f(X)}{\partial X_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f(X)}{\partial X_{m1}} & \cdots & \frac{\partial f(X)}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{m\times n} ∂X∂f(X)​=⎣⎢⎢⎡​∂X11​∂f(X)​⋮∂Xm1​∂f(X)​​⋯⋱⋯​∂X1n​∂f(X)​⋮∂Xmn​∂f(X)​​⎦⎥⎥⎤​∈Rm×n
实值矩阵函数f(X)∈Rp×qf(X)\in \mathbb{R}^{p\times q}f(X)∈Rp×q在矩阵变元X∈Rm×nX\in \mathbb{R}^{m\times n}X∈Rm×n处的梯度矩阵定义为:
∂f(X)∂X=[∂f(X)11∂X11⋯∂f(X)p1∂X11⋯∂f(X)pq∂X11⋮⋱⋮⋱⋮∂f(X)11∂Xm1⋯∂f(X)p1∂Xm1⋯∂f(X)pq∂Xm1⋮⋱⋮⋱⋮∂f(X)11∂Xmn⋯∂f(X)p1∂Xmn⋯∂f(X)pq∂Xmn]∈Rmn×pq\frac{\partial f(X)}{\partial X} =\left[ \begin{matrix} \frac{\partial f(X)_{11}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{11}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{11}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{m1}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{11}}{\partial X_{mn}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{mn}} &\cdots & \frac{\partial f(X)_{pq}}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{mn\times pq} ∂X∂f(X)​=⎣⎢⎢⎢⎢⎢⎢⎢⎡​∂X11​∂f(X)11​​⋮∂Xm1​∂f(X)11​​⋮∂Xmn​∂f(X)11​​​⋯⋱⋯⋱⋯​∂X11​∂f(X)p1​​⋮∂Xm1​∂f(X)p1​​⋮∂Xmn​∂f(X)p1​​​⋯⋱⋯⋱⋯​∂X11​∂f(X)pq​​⋮∂Xm1​∂f(X)pq​​⋮∂Xmn​∂f(X)pq​​​⎦⎥⎥⎥⎥⎥⎥⎥⎤​∈Rmn×pq
相同函数与变元对应的Jacobian矩阵和梯度矩阵互为转置关系。

不知道是张老的书写的不够简明扼要,还是我没认真看,这么简单的定义我看了好久才搞明白。书中指出,在流行计算、几何物理、微分几何等领域,行向量偏导向量和Jacobian矩阵是最自然的选择,在最优化和许多工程问题中,梯度向量和梯度矩阵是最自然的选择。这也符合我的一些经验,梯度矩阵看起来要比Jacobian矩阵顺眼很多。

一般见到的矩阵导数是梯度矩阵的形式。 说白了Jacobian矩阵是对XTX^TXT求导得到的,梯度矩阵是对XXX求导得到的。

矩阵偏导和梯度计算法则

一般说的矩阵导数就是梯度矩阵或向量。根据定义可有如下常用运算法则:

  • 若ccc为常数,∂c∂X=Om×n\frac{\partial c}{\partial X}=O_{m\times n}∂X∂c​=Om×n​,Om×nO_{m\times n}Om×n​是mmm行nnn列的0矩阵.
  • ∂[c1f(X)+c2g(X)]∂X=c1∂f(X)∂X+c2∂g(X)∂X\frac{\partial [c_1f(X)+c_2g(X)]}{\partial X}=c_1 \frac{\partial f(X)}{\partial X}+c_2 \frac{\partial g(X)}{\partial X}∂X∂[c1​f(X)+c2​g(X)]​=c1​∂X∂f(X)​+c2​∂X∂g(X)​
  • ∂[f(X)g(x)]∂X=g(X)∂f(X)∂X+f(X)∂g(X)∂X\frac{\partial [f(X)g(x)]}{\partial X}=g(X)\frac{\partial f(X)}{\partial X}+f(X)\frac{\partial g(X)}{\partial X}∂X∂[f(X)g(x)]​=g(X)∂X∂f(X)​+f(X)∂X∂g(X)​
  • ∂[f(X)g(X)h(X)]∂X=g(X)h(X)∂f(X)∂X+f(X)h(X)∂g(X)∂X+f(X)g(X)∂h(X)∂X\frac{\partial [f(X)g(X)h(X)]}{\partial X}=g(X)h(X)\frac{\partial f(X)}{\partial X}+f(X)h(X)\frac{\partial g(X)}{\partial X}+f(X)g(X)\frac{\partial h(X)}{\partial X}∂X∂[f(X)g(X)h(X)]​=g(X)h(X)∂X∂f(X)​+f(X)h(X)∂X∂g(X)​+f(X)g(X)∂X∂h(X)​
  • ∂[f(X)/g(X)]∂X=1g2(X)[g(X)∂f(X)∂X−f(X)∂g(X)∂X]\frac{\partial [f(X)/g(X)]}{\partial X}=\frac{1}{g^2(X)}[g(X)\frac{\partial f(X)}{\partial X}-f(X)\frac{\partial g(X)}{\partial X}]∂X∂[f(X)/g(X)]​=g2(X)1​[g(X)∂X∂f(X)​−f(X)∂X∂g(X)​]
  • ∂g(f(X))∂X=dg(f(X))df(X)∂f(X)∂X\frac{\partial g(f(X))}{\partial X}=\frac{dg(f(X))}{df(X)}\frac{\partial f(X)}{\partial X}∂X∂g(f(X))​=df(X)dg(f(X))​∂X∂f(X)​
  • 求导链式法则:∂g(f(X))∂X=dg(y)dy∂f(X)∂X\frac{\partial g(f(X))}{\partial X}=\frac{dg(y)}{dy} \frac{\partial f(X)}{\partial X}∂X∂g(f(X))​=dydg(y)​∂X∂f(X)​

此外在计算以向量和矩阵为变元的函数的偏导时,有个重要的独立性基本假设,即向量和矩阵中的各个元素是相互独立的,用公式表示为:
∂xi∂xj={1,ifi=j0,else\frac{\partial x_i}{\partial x_j}=\left\{ \begin{array}{l} 1,if\ i=j \\ 0,else\end{array}\right. ∂xj​∂xi​​={1,if i=j0,else​
以及:
∂xkl∂xij={1,ifk=iandl=j0,else\frac{\partial x_{kl}}{\partial x_{ij}}=\left\{ \begin{array}{l} 1,if\ k=i\ and\ l=j \\ 0,else\end{array}\right. ∂xij​∂xkl​​={1,if k=i and l=j0,else​
举个根据定义求解梯度矩阵的例子,求实值函数f(X)=aTXXTbf(X)=a^TXX^Tbf(X)=aTXXTb在矩阵变元XXX处的梯度矩阵,a,ba,ba,b均为nnn维列向量:
aTXXTb=∑k=1m∑l=1nak(∑p=1nxkpxlp)bla^TXX^Tb=\sum_{k=1}^m\sum_{l=1}^na_k(\sum_{p=1}^nx_{kp}x_{lp})b_l aTXXTb=k=1∑m​l=1∑n​ak​(p=1∑n​xkp​xlp​)bl​
然后
根据定义就是这样求解的。

矩阵微分以及与一阶导数的关系:Jacobian矩阵的辨识

矩阵微分的定义为:
dX=[dXij]i,j=1m,ndX=[dX_{ij}]_{i,j=1}^{m,n} dX=[dXij​]i,j=1m,n​

标量对标量的导数是用微分定义的,标量fff对标量xxx的导数f′(x)f'(x)f′(x)满足df=f′(x)dxdf=f'(x)dxdf=f′(x)dx。而实值标量函数f(x)f(x)f(x)对向量xxx的导数与微分的关系,可以表示为(此表示的证明书上有):
df(x)=∑i=1n∂f(x)∂xidxi=∂f(x)∂xTdxdf(x)=\sum_{i=1}^n\frac{\partial f(x)}{\partial x_i}dx_i=\frac{\partial f(x)}{\partial x}^Tdx df(x)=i=1∑n​∂xi​∂f(x)​dxi​=∂x∂f(x)​Tdx
即f(x)f(x)f(x)的微分与xxx中每个元素的微分都有关,∂f(x)∂x\frac{\partial f(x)}{\partial x}∂x∂f(x)​即为标量fff对向量xxx的梯度向量,是一个向量。

同样,实标量函数f(X)f(X)f(X)对矩阵X∈Rm×nX\in\mathbb{R}^{m\times n}X∈Rm×n求导时,f(X)f(X)f(X)的微分也与XXX中每个元素有关,表示为(此表示的证明书上有):
df(X)=∑i=1m∑j=1n∂f(X)∂XijdXij=tr(∂f(X)∂XTdX)df(X)=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f(X)}{\partial X_{ij}}dX_{ij}=tr(\frac{\partial f(X)}{\partial X}^TdX) df(X)=i=1∑m​j=1∑n​∂Xij​∂f(X)​dXij​=tr(∂X∂f(X)​TdX)
其中trtrtr表示的是矩阵求迹运算,∂f(X)∂X\frac{\partial f(X)}{\partial X}∂X∂f(X)​表示f(X)f(X)f(X)对XXX的梯度矩阵。后一个等号成立的原因是矩阵迹运算有如下性质:
tr(ATB)=∑i,jAijBijtr(A^TB)=\sum_{i,j}A_{ij}B_{ij} tr(ATB)=i,j∑​Aij​Bij​
即ATBA^TBATB的迹等于AAA与BBB中对应元素乘积的和。

这部分给出了微分矩阵与实标量函数对向量和矩阵变元的Jacobian矩阵(向量)和梯度矩阵(向量)的关系,这种关系也可以用来求实标量函数对向量和矩阵变元的Jacobian矩阵和梯度矩阵,这种关系称为Jacobian矩阵的辨识。
书上还给了实矩阵函数对矩阵变元导数与微分矩阵的辨识关系,以及二阶导数与微分矩阵的关系(Hessian矩阵的辨识,Hessian矩阵即矩阵二阶导),不过由于我不是很关注,所以没写在这里。

矩阵微分运算法则

这里给出一些求矩阵微分和迹的运算法则:

  • d(X+Y)=dX+dY,d(XY)=(dX)Y+X(dY)d(X+Y)=dX+dY,d(XY)=(dX)Y+X(dY)d(X+Y)=dX+dY,d(XY)=(dX)Y+X(dY)
  • d(XT)=(dX)Td(X^T)=(dX)^Td(XT)=(dX)T
  • dA=0dA=0dA=0,AAA为常数矩阵.
  • d(aX)=ad(X)d(aX)=ad(X)d(aX)=ad(X),aaa为常数.
  • d(AXB)=A(dX)Bd(AXB)=A(dX)Bd(AXB)=A(dX)B,A,BA,BA,B为常数矩阵.
  • d(f(X)g(X)h(X))=(df(X))g(X)h(X)+f(X)(dg(X))h(X)+f(X)g(X)(dh(X))d(f(X)g(X)h(X))=(df(X))g(X)h(X)+f(X)(dg(X))h(X)+f(X)g(X)(dh(X))d(f(X)g(X)h(X))=(df(X))g(X)h(X)+f(X)(dg(X))h(X)+f(X)g(X)(dh(X))
  • dtr(X)=tr(dX)dtr(X)=tr(dX)dtr(X)=tr(dX)
  • d∣X∣=∣X∣tr(X−1dX)d|X|=|X|tr(X^{-1}dX)d∣X∣=∣X∣tr(X−1dX),行列式的微分

举个用微分与梯度矩阵的关系求梯度矩阵的例子,求f(X)=tr(XAXB)f(X)=tr(XAXB)f(X)=tr(XAXB)对于矩阵XXX的梯度矩阵:
dtr(XAXB)=tr(d(XAXB))=tr[(dX)AXB+XA(dX)B]=tr[(AXB+BXA)dX]dtr(XAXB)=tr(d(XAXB))\\ =tr[(dX)AXB+XA(dX)B]\\ =tr[(AXB+BXA)dX] dtr(XAXB)=tr(d(XAXB))=tr[(dX)AXB+XA(dX)B]=tr[(AXB+BXA)dX]
因此得梯度矩阵:
∂tr(XAXB)∂X=(AXB+BXA)T\frac{\partial tr(XAXB)}{\partial X}=(AXB+BXA)^T ∂X∂tr(XAXB)​=(AXB+BXA)T

常用矩阵求导公式总结

在Matrix Cookbook第二章Derivatives里面有很多,这里取常见的一些总结如下。我们用∂f(X)∂X\frac{\partial f(X)}{\partial X}∂X∂f(X)​表示f(X)f(X)f(X)在XXX处的导数(即梯度矩阵),大写字母为矩阵,小写字母为列向量,则有:

  • ∂aTXb∂X=abT\frac{\partial a^TXb}{\partial X}=ab^T∂X∂aTXb​=abT
  • ∂aTXTb∂X=baT\frac{\partial a^TX^Tb}{\partial X}=ba^T∂X∂aTXTb​=baT
  • ∂xTAx∂x=(A+AT)x\frac{\partial x^TAx}{\partial x}=(A+A^T)x∂x∂xTAx​=(A+AT)x
  • ∂aTXXTb∂X=(abT+baT)X\frac{\partial a^TXX^Tb}{\partial X}=(ab^T+ba^T)X∂X∂aTXXTb​=(abT+baT)X
  • ∂aTXTXb∂X=X(abT+baT)\frac{\partial a^TX^TXb}{\partial X}=X(ab^T+ba^T)∂X∂aTXTXb​=X(abT+baT)
  • ∂bTXTDXc∂X=DXbcT+DXcbT\frac{\partial b^TX^TDXc}{\partial X}=DXbc^T+DXcb^T∂X∂bTXTDXc​=DXbcT+DXcbT
  • ∂(Xb+c)TD(Xb+c)∂X=(D+DT)(Xb+c)bT\frac{\partial (Xb+c)^TD(Xb+c)}{\partial X}=(D+D^T)(Xb+c)b^T∂X∂(Xb+c)TD(Xb+c)​=(D+DT)(Xb+c)bT
  • ∂(Ax+b)TC(Dx+e)∂x=DTCT(Ax+b)+ATC(Dx+e)\frac{\partial (Ax+b)^TC(Dx+e)}{\partial x}=D^TC^T(Ax+b)+A^TC(Dx+e)∂x∂(Ax+b)TC(Dx+e)​=DTCT(Ax+b)+ATC(Dx+e)

迹的导数:

  • ∂tr(X)∂X=I\frac{\partial tr(X)}{\partial X}=I∂X∂tr(X)​=I
  • ∂tr(XA)∂X=AT\frac{\partial tr(XA)}{\partial X}=A^T∂X∂tr(XA)​=AT
  • ∂tr(XTA)∂X=A\frac{\partial tr(X^TA)}{\partial X}=A∂X∂tr(XTA)​=A
  • ∂tr(AXT)∂X=A\frac{\partial tr(AX^T)}{\partial X}=A∂X∂tr(AXT)​=A
  • ∂tr(AXB)∂X=ATBT\frac{\partial tr(AXB)}{\partial X}=A^TB^T∂X∂tr(AXB)​=ATBT
  • ∂tr(AXTB)∂X=BA\frac{\partial tr(AX^TB)}{\partial X}=BA∂X∂tr(AXTB)​=BA
  • ∂tr(BXTX)∂X=XBT+XB\frac{\partial tr(BX^TX)}{\partial X}=XB^T+XB∂X∂tr(BXTX)​=XBT+XB
  • ∂tr(AXBX)∂X=ATXTBT+BTXTAT\frac{\partial tr(AXBX)}{\partial X}=A^TX^TB^T+B^TX^TA^T∂X∂tr(AXBX)​=ATXTBT+BTXTAT
  • ∂tr(BTXTCXB)∂X=CTXBBT+CXBBT\frac{\partial tr(B^TX^TCXB)}{\partial X}=C^TXBB^T+CXBB^T∂X∂tr(BTXTCXB)​=CTXBBT+CXBBT
  • ∂tr(AXBXTC)∂X=ATCTXBT+CAXB\frac{\partial tr(AXBX^TC)}{\partial X}=A^TC^TXB^T+CAXB∂X∂tr(AXBXTC)​=ATCTXBT+CAXB
  • ∂tr(AXTBXC)∂X=BXCA+BTXATCT\frac{\partial tr(AX^TBXC)}{\partial X}=BXCA+B^TXA^TC^T∂X∂tr(AXTBXC)​=BXCA+BTXATCT
  • ∂tr[(AXB+C)(AXB+C)T]∂X=2AT(AXB+C)BT\frac{\partial tr[(AXB+C)(AXB+C)^T]}{\partial X}=2A^T(AXB+C)B^T∂X∂tr[(AXB+C)(AXB+C)T]​=2AT(AXB+C)BT

范数的导数:

  • ∂∥x∥22∂x=∂xTx∂x=2x\frac{\partial \|x\|_2^2}{\partial x}=\frac{\partial x^Tx}{\partial x}=2x∂x∂∥x∥22​​=∂x∂xTx​=2x
  • ∂∂x∥x−a∥2=x−a∥x−a∥2\frac{\partial }{\partial x}\|x-a\|_2=\frac{x-a}{\|x-a\|_2}∂x∂​∥x−a∥2​=∥x−a∥2​x−a​
  • ∂∥X∥F2∂X=∂∂Xtr(XXH)=2X\frac{\partial \|X\|_F^2}{\partial X}=\frac{\partial }{\partial X}tr(XX^H)=2X∂X∂∥X∥F2​​=∂X∂​tr(XXH)=2X

行列式的导数:

  • ∂det(X)∂X=det(X)(X−1)T\frac{\partial det(X)}{\partial X}=det(X)(X^{-1})^T∂X∂det(X)​=det(X)(X−1)T
  • ∂det(AXB)∂X=det(AXB)(X−1)T=det(AXB)(XT)−1\frac{\partial det(AXB)}{\partial X}=det(AXB)(X^{-1})^T=det(AXB)(X^{T})^{-1}∂X∂det(AXB)​=det(AXB)(X−1)T=det(AXB)(XT)−1

暂时就这些,以后还有别的再补充。Matrix Cookbook上还有许多其他公式,也有的公式没有给出。如前所述,目前关注的还是实标量函数对矩阵和向量的导数,许多实矩阵函数对矩阵的导数的公式这里没有给出。

Jacobian矩阵 梯度矩阵 矩阵偏导与微分 例子与常见公式相关推荐

  1. 怎么用计算机求函数极限,高数计算器函数偏导版-高数计算器极限公式版v1.0 大全版-007游戏网...

    高数计算器极限公式版是一款专门为学习高数的人们打造的计算器软件,该软件可以进行多种不同公式的求解,更有高数的极限公式大全,不用担心不会做高数题,直接使用软件进行计算. 高数计算器极限公式版使用说明: ...

  2. 1.4 torch_向量/矩阵求偏导

    文章目录 函数微分 标量/向量函数求偏导 矩阵函数求偏导 函数微分 标量/向量函数求偏导 矩阵函数求偏导

  3. python 绘图时显示不同的数学符号alpha,beta,偏导、求和等等

    在使用python进行绘图时,当涉及当一些数学计算时,常常需要为我们的x.y轴以及标题添加标签,而一些特殊的数学计算符号往往在键盘上无法找到.特此,为了以后寻找方面,将一些常用的数学计算符号等进行汇总 ...

  4. 偏导,梯度,Hesse矩阵的一些概念和求函数的极值

    偏导 偏导函数..简称为偏导数 可以理解为,固定一个变量,求另一个变量的导数; 三元函数的二阶偏导有9个 梯度 梯度(由偏导数组成的一个向量) 梯度的特点: 1 方向,函数变化率最大的方向;(负梯度方 ...

  5. 极限和连续+偏导+方向导数+可微+梯度+链式法则+hessian矩阵

    文章目录 前言 一.极限和连续 二.偏导数 三.方向导数 四.可微 五.梯度 六.链式法则 七.Hessian矩阵 前言 多元函数 y对某一个变量的导数是偏导数: 偏导数的结果可以推广到任意方向,也就 ...

  6. 【机器学习中的矩阵求导】(六)Jacobian矩阵和Hessian矩阵

    学习总结 (0)回顾矩阵向量化,和 克罗内克积的主要运算法则. (1)梯度向量是雅克比矩阵的特例. (2)Hessian矩阵是梯度向量g(x)对自变量x的Jacobian矩阵,描述了函数的局部曲率. ...

  7. 最小二乘法矩阵微分偏导法证明

                               最小二乘法矩阵微分偏导法证明 向量范数回顾 向量1范数 向量1范数即是向量元素的绝对值.定义见: . 向量2范数 向量2范数即是向量里每个元素的平 ...

  8. 线性代数之矩阵偏导续

                                线性代数之矩阵偏导续 矩阵偏导 针对y或者f(x)是元素,x是矩阵的情况,则元素对矩阵的求导形式如下: 那么由这个定义则有: 证明有两种方法:一 ...

  9. 矩阵的 Frobenius 范数及其求偏导法则

    矩阵的迹求导法则 1. 复杂矩阵问题求导方法:可以从小到大,从scalar到vector再到matrix 2. x is a column vector, A is a matrix d(A∗x)/d ...

最新文章

  1. 西湖大学鞠峰组招聘微生物组学、病毒组学与生物信息学博士后
  2. Linux学习(二)--远程登录Linux系统
  3. 鼠标控制,扇形的大小
  4. 抖音“市长带你看湖北”首场直播:总成交额1793万元
  5. AccessibilityService(无障碍辅助服务)
  6. [terry笔记]Oracle10g/11g安装-redhat5.5
  7. Gitee搭建自己的图床
  8. 关联规则完整源代码_接口测试:A06_HttpRunner关联_02_提取 SessionID:固定名称方式...
  9. 学习C语言中的位操作
  10. 存在感应雷达模块,LED灯感应控制,微波雷达技术应用
  11. nas服务器加密文件夹,NAS加密文件夹创建和使用教程
  12. 唯库拼课课程大合集更新111门
  13. c语言的字符型都有什么作用是什么,字符型数据是什么意思怎么理解
  14. KMS激活错误解决方法
  15. 链栈的定义、构建、入栈、出栈和取栈顶元素
  16. 台式计算机不休眠,台式机不休眠的解决方法
  17. MySQL复制跳过错误--slave_skip_errors、sql_slave_skip_counter、slave_exec_mode
  18. 分布式与云计算系统 考试内容总结
  19. macOS 访达的显示模式(如图标大小)“用作默认”(应用到所有子文件夹)的运作逻辑
  20. 计算机u盘 硬盘无法读取,电脑无法识别usb设备,电脑无法识别u盘,移动硬盘解决方法汇总...

热门文章

  1. openGauss安全(下)
  2. 【区块链与密码学】第1-3讲:加密数字货币的通俗故事
  3. android的原型设计规范,Android设计规范 Material Design-Components(12滑块)
  4. MySQL|(单表查询操作)emp表 员工信息表练习
  5. CSDN第一何方神圣?(附前十排名)
  6. 将Excel批量转换为csv格式
  7. chatgpt赋能python:如何使用Python选中一行文本?——一名有10年Python编程经验的工程师
  8. SimpleFOC之ESP32(七)—— 霍尔电机
  9. android bugly qq,android版Bugly诚邀体验 可以使用QQ登录
  10. 2021级新生个人训练赛第36场