文章目录

  • 第一章 数学基础
    • 1.1 向量和矩阵
      • 1.1.1 标量、向量、矩阵、张量
      • 1.1.2标量、向量、张量之间关系
      • 1.1.3 标量、向量、张量与矩阵的区别
      • 1.1.4 矩阵和向量相乘结果
      • 1.1.5 向量和矩阵的范数归纳
      • 1.1.5 如何判断一个矩阵为正定
    • 1.2 导数和偏导数
      • 1.2.1 导数偏导计算
      • 1.2.2 导数和偏导数有什么区别?
    • 1.3 特征值和特征向量
      • 1.3.1 特征值分解与特征向量
      • 1.3.2 奇异值与特征值有什么关系
    • 1.4 概率分布与随机变量
      • 1.4.1 变量与随机变量有什么区别
      • 1.4.3 随机变量与概率分布的联系
      • 1.4.4 离散型随机变量和概率质量函数
      • 1.4.5 连续型随机变量和概率密度函数
      • 1.4.6 举例理解条件概率
      • 1.4.7 联合概率与边缘概率联系区别
      • 1.4.8 条件概率的链式法则
      • 1.4.9 独立性和条件独立性
    • 1.5 常见概率分布
      • 1.5.1 Bernoulli分布
      • 1.5.2 高斯分布
      • 1.5.3 何时采用正态分布
      • 1.5.4 指数分布
      • 1.5.5 Laplace 分布(拉普拉斯分布)
      • 1.5.6 Dirac分布和经验分布
    • 1.6 期望、方差、协方差、相关系数
      • 1.6.1 期望
      • 1.6.2 方差
      • 1.6.3 协方差
      • 1.6.4 相关系数
    • 参考文献

第一章 数学基础

微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量

名称 定义
标量(scalar) 一个标量表示以一个单独的数。用斜体表示标量,被赋予小写变量名
向量(vector) 表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。用带角标斜体表示,例 XnX_nXn​表示向量XXX的第n个元素。
矩阵(matrix) 矩阵是具有相同特征和维度的对象的集合,表现为一张二维数据表。其意义是一个对象表示位矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。 用粗体大写表示,例A
张量(tensor) 一个数组中的元素分布在若干维坐标的规格网格中。用大写斜体带坐标的字母表示, A(i,j,k)A_{(i,j,k)}A(i,j,k)​表示张量AAA中坐标为(i,j,k)的元素。

1.1.2标量、向量、张量之间关系

  • 标量是0阶张量,向量是一阶张量。 ​
  • 标量表示箭头的长度,但不知道箭头方向。
  • ​向量不仅表示箭头的长度,还表示前后方向。
  • ​张量不仅表示箭头长度,而且表示具体指哪儿。

1.1.3 标量、向量、张量与矩阵的区别

  • 张量可以用3×3矩阵形式来表达。
  • 表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。
  • 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么nnn阶张量就是所谓的nnn维的“表格”。 张量的严格定义是利用线性映射来描述。
  • 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。

1.1.4 矩阵和向量相乘结果

若使用爱因斯坦求和约定(Einstein summation convention),矩阵AAA, BBB相乘得到矩阵CCC可以用下式表示:
aik∗bkj=cija_{ik}*b_{kj}=c_{ij} aik​∗bkj​=cij​
其中矩阵c的第i行第j列元素可以表示为:

cij=∑t=1kaitbtj=ai1b1j+...+aikbkjc_{ij}= \sum_{t=1}^k a_{it}b_{tj} =a_{i1}b_{1j}+...+a_{ik}b_{kj} cij​=t=1∑k​ait​btj​=ai1​b1j​+...+aik​bkj​

其中,aika_{ik}aik​, bkjb_{kj}bkj​, cijc_{ij}cij​分别表示矩阵A,B,CA, B, CA,B,C的元素,kkk出现两次,是一个哑变量(Dummy Variables)表示对该参数进行遍历求和。
而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况,例如:矩阵BBB是一个n×1n \times 1n×1的矩阵。

1.1.5 向量和矩阵的范数归纳

(1)向量的范数(norm)
​ 定义一个向量为:a⃗=[−5,6,8,−10]\vec{a}=[-5, 6, 8, -10]a=[−5,6,8,−10]。任意一组向量设为x⃗=(x1,x2,...,xN)\vec{x}=(x_1,x_2,...,x_N)x=(x1​,x2​,...,xN​)。其不同范数求解如下:

  • 向量的1范数:向量的各个元素的绝对值之和,上述向量a⃗\vec{a}a的1范数结果就是:29。

∥x⃗∥1=∑i=1N∣xi∣\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert ∥x∥1​=i=1∑N​∣xi​∣

  • 向量的2范数:向量的每个元素的平方和再开平方根,通常意义上的模,上述a⃗\vec{a}a的2范数结果就是:15。

∥x⃗∥2=∑i=1N∣xi∣2\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2} ∥x∥2​=i=1∑N​∣xi​∣2​

  • 向量的负无穷范数:向量的所有元素的绝对值中最小的。上述向量a⃗\vec{a}a的负无穷范数结果就是:5。

∥x⃗∥−∞=min⁡∣xi∣\Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|} ∥x∥−∞​=min∣xi​∣

  • 向量的正无穷范数:向量的所有元素的绝对值中最大的。上述向量a⃗\vec{a}a的正无穷范数结果就是:10。

∥x⃗∥+∞=max⁡∣xi∣\Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|} ∥x∥+∞​=max∣xi​∣

  • 向量的p范数:

Lp=∥x⃗∥p=∑i=1N∣xi∣ppL_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p} Lp​=∥x∥p​=pi=1∑N​∣xi​∣p​

(2)矩阵的范数

定义一个矩阵A=[−1,2,−3;4,−6,6]A=[-1, 2, -3; 4, -6, 6]A=[−1,2,−3;4,−6,6]。 任意矩阵定义为:Am×nA_{m\times n}Am×n​,其元素为 aija_{ij}aij​。

矩阵的范数定义为

∥A∥p:=sup⁡x≠0∥Ax∥p∥x∥p\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p} ∥A∥p​:=x​=0sup​∥x∥p​∥Ax∥p​​

当向量取不同范数时, 相应得到了不同的矩阵范数。

  • 矩阵的1范数(列范数):矩阵的每一列上的元

    素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵AAA的1范数先得到[5,8,9][5,8,9][5,8,9],再取最大的最终结果就是:9。

∥A∥1=max⁡1≤j≤n∑i=1m∣aij∣\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}| ∥A∥1​=1≤j≤nmax​i=1∑m​∣aij​∣

  • 矩阵的2范数:矩阵ATAA^TAATA的最大特征值开平方根,上述矩阵AAA的2范数得到的最终结果是:10.0623。

∥A∥2=λmax(ATA)\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)} ∥A∥2​=λmax​(ATA)​

其中, λmax(ATA)\lambda_{max}(A^T A)λmax​(ATA) 为 ATAA^T AATA 的特征值绝对值的最大值。

  • 矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵AAA的行范数先得到[6;16][6;16][6;16],再取最大的最终结果就是:16。

∥A∥∞=max⁡1≤i≤m∑j=1n∣aij∣\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}| ∥A∥∞​=1≤i≤mmax​j=1∑n​∣aij​∣

  • 矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。

  • 矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵AAA最终结果就是:6。

  • 矩阵的L1范数:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵AAA最终结果就是:22。

  • 矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。

∥A∥F=(∑i=1m∑j=1n∣aij∣2)\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)} ∥A∥F​=(i=1∑m​j=1∑n​∣aij​∣2)​

  • 矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵AAA最终结果就是:17.1559。
  • 矩阵的 p范数

∥A∥p=(∑i=1m∑j=1n∣aij∣p)p\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)} ∥A∥p​=p(i=1∑m​j=1∑n​∣aij​∣p)​

1.1.5 如何判断一个矩阵为正定

判定一个矩阵是否为正定,通常有以下几个方面:

  • 顺序主子式全大于0;
  • 存在可逆矩阵CCC使CTCC^TCCTC等于该矩阵;
  • 正惯性指数等于nnn;
  • 合同于单位矩阵EEE(即:规范形为EEE)
  • 标准形中主对角元素全为正;
  • 特征值全为正;
  • 是某基的度量矩阵。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义:

导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。

注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有

v=stv=\frac{s}{t} v=ts​

其中vvv表示平均速度,sss表示路程,ttt表示时间。这个公式可以改写为

vˉ=ΔsΔt=s(t0+Δt)−s(t0)Δt\bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t} vˉ=ΔtΔs​=Δts(t0​+Δt)−s(t0​)​

其中Δs\Delta sΔs表示两点之间的距离,而Δt\Delta tΔt表示走过这段距离需要花费的时间。当Δt\Delta tΔt趋向于0(Δt→0\Delta t \to 0Δt→0)时,也就是时间变得很短时,平均速度也就变成了在t0t_0t0​时刻的瞬时速度,表示成如下形式:

v(t0)=lim⁡Δt→0vˉ=lim⁡Δt→0ΔsΔt=lim⁡Δt→0s(t0+Δt)−s(t0)Δtv(t_0)=\lim_{\Delta t \to 0}{\bar{v}}=\lim_{\Delta t \to 0}{\frac{\Delta s}{\Delta t}}=\lim_{\Delta t \to 0}{\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}} v(t0​)=Δt→0lim​vˉ=Δt→0lim​ΔtΔs​=Δt→0lim​Δts(t0​+Δt)−s(t0​)​

实际上,上式表示的是路程sss关于时间ttt的函数在t=t0t=t_0t=t0​处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有

lim⁡Δx→0ΔyΔx=lim⁡Δx→0f(x0+Δx)−f(x0)Δx\lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}} Δx→0lim​ΔxΔy​=Δx→0lim​Δxf(x0​+Δx)−f(x0​)​

则称此极限为函数 y=f(x)y=f(x)y=f(x) 在点 x0x_0x0​ 处的导数。记作 f′(x0)f'(x_0)f′(x0​) 或 y′∣x=x0y'\vert_{x=x_0}y′∣x=x0​​ 或 dydx∣x=x0\frac{dy}{dx}\vert_{x=x_0}dxdy​∣x=x0​​ 或 df(x)dx∣x=x0\frac{df(x)}{dx}\vert_{x=x_0}dxdf(x)​∣x=x0​​。

通俗地说,导数就是曲线在某一点切线的斜率。

偏导数:

既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y)z=f(x,y)z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

设函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0​,y0​)的领域内有定义,当y=y0y=y_0y=y0​时,zzz可以看作关于xxx的一元函数f(x,y0)f(x,y_0)f(x,y0​),若该一元函数在x=x0x=x_0x=x0​处可导,即有

lim⁡Δx→0f(x0+Δx,y0)−f(x0,y0)Δx=A\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A Δx→0lim​Δxf(x0​+Δx,y0​)−f(x0​,y0​)​=A

函数的极限AAA存在。那么称AAA为函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0​,y0​)处关于自变量xxx的偏导数,记作fx(x0,y0)f_x(x_0,y_0)fx​(x0​,y0​)或∂z∂x∣y=y0x=x0\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂z​∣y=y0​x=x0​​或∂f∂x∣y=y0x=x0\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}∂x∂f​∣y=y0​x=x0​​或zx∣y=y0x=x0z_x\vert_{y=y_0}^{x=x_0}zx​∣y=y0​x=x0​​。

偏导数在求解时可以将另外一个变量看做常数,利用普通的求导方式求解,比如z=3x2+xyz=3x^2+xyz=3x2+xy关于xxx的偏导数就为zx=6x+yz_x=6x+yzx​=6x+y,这个时候yyy相当于xxx的系数。

某点(x0,y0)(x_0,y_0)(x0​,y0​)处的偏导数的几何意义为曲面z=f(x,y)z=f(x,y)z=f(x,y)与面x=x0x=x_0x=x0​或面y=y0y=y_0y=y0​交线在y=y0y=y_0y=y0​或x=x0x=x_0x=x0​处切线的斜率。

1.2.2 导数和偏导数有什么区别?

导数——以导数的正负度量原函数的增减情况。
偏导数——空间曲线在某二维平面的增减情况。

导数和偏导没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。

  • 一元函数,一个yyy对应一个xxx,导数只有一个。
  • 二元函数,一个zzz对应一个xxx和一个yyy,有两个导数:一个是zzz对xxx的导数,一个是zzz对yyy的导数,称之为偏导。
  • 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

  • 特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);

  • 特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。

    如果说一个向量v⃗\vec{v}v是方阵AAA的特征向量,将一定可以表示成下面的形式:

Aν=λνA\nu = \lambda \nu Aν=λν

λ\lambdaλ为特征向量v⃗\vec{v}v对应的特征值。特征值分解是将一个矩阵分解为如下形式:

A=Q∑Q−1A=Q\sum Q^{-1} A=Q∑Q−1

其中,QQQ是这个矩阵AAA的特征向量组成的矩阵,∑\sum∑是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵AAA的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵AAA的转置乘以AAA,并对ATAA^TAATA求特征值,则有下面的形式:

(ATA)V=λV(A^TA)V = \lambda V (ATA)V=λV

这里VVV就是上面的右奇异向量,另外还有:

σi=λi,ui=1σiAV\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV σi​=λi​​,ui​=σi​1​AV

这里的σ\sigmaσ就是奇异值,uuu就是上面说的左奇异向量。【证明那个哥们也没给】
​奇异值σ\sigmaσ跟特征值类似,在矩阵∑\sum∑中也是从大到小排列,而且σ\sigmaσ的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前rrr(rrr远小于m、nm、nm、n)个的奇异值来近似描述矩阵,即部分奇异值分解:
Am×n≈Um×r∑r×rVr×nTA_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T Am×n​≈Um×r​r×r∑​Vr×nT​

右边的三个矩阵相乘的结果将会是一个接近于AAA的矩阵,在这儿,rrr越接近于nnn,则相乘的结果越接近于AAA。

1.4 概率分布与随机变量

1.4.1 变量与随机变量有什么区别

(1)随机变量(random variable)

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
​随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

(2)变量与随机变量的区别:
​当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
​ 当变量xxx值为100的概率为1的话,那么x=100x=100x=100就是确定了的,不会再有变化,除非有进一步运算.
​ 当变量xxx的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量连续型随机变量

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布,通常用大写字母 PPP表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布,通常用小写字母ppp表示。

1.4.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

  • 一般而言,P(x)P(x)P(x) 表示时X=xX=xX=x的概率.
  • 有时候为了防止混淆,要明确写出随机变量的名称P(P(P(x=x)=x)=x)
  • 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从P(P(P(x)))

PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)P(X=x,Y=y)*表示 X=xX=xX=x和Y=yY=yY=y同时发生的概率,也可以简写成 P(x,y)P(x,y)P(x,y).

如果一个函数PPP是随机变量 XXX 的 PMF, 那么它必须满足如下三个条件

  • PPP的定义域必须是x的所有可能状态的集合
  • ∀x∈∀x∈∀x∈x, $0 \leq P(x) \leq 1 $.
  • ∑x∈XP(x)=1∑_{x∈X} P(x)=1∑x∈X​P(x)=1. 我们把这一条性质称之为 归一化的(normalized)

1.4.5 连续型随机变量和概率密度函数

如果一个函数ppp是x的PDF,那么它必须满足如下几个条件

  • ppp的定义域必须是x的所有可能状态的集合。
  • ∀x∈X,p(x)≥0∀x∈X,p(x)≥0∀x∈X,p(x)≥0. 注意,我们并不要求$ p(x)≤1$,因为此处 p(x)p(x)p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • ∫p(x)dx=1∫p(x)dx=1∫p(x)dx=1, 积分下来,总和还是1,概率之和还是1.

注:PDFp(x)p(x)p(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为 δxδxδx的无线小的区域内的概率为$ p(x)δx$. 由此,我们无法求得具体某个状态的概率,我们可以求得的是 某个状态 xxx 落在 某个区间[a,b][a,b][a,b]内的概率为$ \int_{a}^{b}p(x)dx$.

1.4.6 举例理解条件概率

条件概率公式如下:
P(A∣B)=P(A∩B)/P(B)P(A|B) = P(A\cap B) / P(B) P(A∣B)=P(A∩B)/P(B)
说明:在同一个样本空间Ω\OmegaΩ中的事件或者子集AAA与BBB,如果随机从Ω\OmegaΩ中选出的一个元素属于BBB,那么下一个随机选择的元素属于AAA 的概率就定义为在BBB的前提下AAA的条件概率。条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A⋂B)P(A\bigcap B)P(A⋂B)除以P(B)P(B)P(B)。
​举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。
条件概率法:P(女∣女)=P(女女)/P(女)P(女|女)=P(女女)/P(女)P(女∣女)=P(女女)/P(女),夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则P(女女)P(女女)P(女女)为1/4,P(女)=1−P(男男)=3/4P(女)= 1-P(男男)=3/4P(女)=1−P(男男)=3/4,所以最后1/31/31/3。
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别:
​联合概率:联合概率指类似于P(X=a,Y=b)P(X=a,Y=b)P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
​边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于P(X=a)P(X=a)P(X=a),P(Y=b)P(Y=b)P(Y=b)这样,仅与单个随机变量有关的概率。

联系:
​联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义,可直接得出下面的乘法公式:
​乘法公式 设A,BA, BA,B是两个事件,并且P(A)>0P(A) > 0P(A)>0, 则有
P(AB)=P(B∣A)P(A)P(AB) = P(B|A)P(A) P(AB)=P(B∣A)P(A)
推广
P(ABC)=P(C∣AB)P(B∣A)P(A)P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)
一般地,用归纳法可证:若P(A1A2...An)>0P(A_1A_2...A_n)>0P(A1​A2​...An​)>0,则有
P(A1A2...An)=P(An∣A1A2...An−1)P(An−1∣A1A2...An−2)...P(A2∣A1)P(A1)=P(A1)∏i=2nP(Ai∣A1A2...Ai−1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1​A2​...An​)=P(An​∣A1​A2​...An−1​)P(An−1​∣A1​A2​...An−2​)...P(A2​∣A1​)P(A1​)=P(A1​)i=2∏n​P(Ai​∣A1​A2​...Ai−1​)
任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性
​两个随机变量xxx和yyy,概率分布表示成两个因子乘积形式,一个因子只包含xxx,另一个因子只包含yyy,两个随机变量相互独立(independent)。
​条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
​举例:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), 事件XXX和事件YYY独立。此时给定ZZZ,
P(X,Y∣Z)≠P(X∣Z)P(Y∣Z)P(X,Y|Z) \not = P(X|Z)P(Y|Z) P(X,Y∣Z)​=P(X∣Z)P(Y∣Z)
事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。

条件独立性
​给定ZZZ的情况下,XXX和YYY条件独立,当且仅当
X⊥Y∣Z⟺P(X,Y∣Z)=P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z) X⊥Y∣Z⟺P(X,Y∣Z)=P(X∣Z)P(Y∣Z)
XXX和YYY的关系依赖于ZZZ,而不是直接产生。

举例定义如下事件:
XXX:明天下雨;
YYY:今天的地面是湿的;
ZZZ:今天是否下雨;
ZZZ事件的成立,对XXX和YYY均有影响,然而,在ZZZ事件成立的前提下,今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli分布

Bernoulli分布(伯努利分布,0-1分布)是单个二值随机变量分布, 单参数ϕ\phiϕ∈[0,1]控制,ϕ\phiϕ给出随机变量等于1的概率. 主要性质有:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(x=1) &= \phi…
其期望和方差为:
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E_x[x] &= \phi…
适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中kkk是有限值.Multinoulli分布由向量p⃗∈[0,1]k−1\vec{p}\in[0,1]^{k-1}p​∈[0,1]k−1参数化,每个分量pip_ipi​表示第iii个状态的概率, 且pk=1−1Tpp_k=1-1^Tppk​=1−1Tp.这里1T1^T1T表示元素全为1的列向量的转置,其实就是对于向量p中除了k的概率之和。可以重写为pk=1−∑0k−1pip_k=1-\sum_{0}^{k-1}p_ipk​=1−∑0k−1​pi​ 。

补充二项分布、多项分布:

二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
N(x;μ,σ2)=12πσ2exp(−12σ2(x−μ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21​​exp(−2σ21​(x−μ)2)
其中, μ\muμ和σ\sigmaσ分别是均值和标准差, 中心峰值x坐标由μ\muμ给出, 峰的宽度受σ\sigmaσ控制, 最大点在x=μx=\mux=μ处取得, 拐点为x=μ±σx=\mu\pm\sigmax=μ±σ

正态分布中,±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1高斯分布即简化为标准正态分布:
N(x;μ,σ2)=12πexp(−12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1​​exp(−21​x2)
对概率密度函数高效求值:
N(x;μ,β−1)=β2πexp(−12β(x−μ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β−1)=2πβ​​exp(−21​β(x−μ)2)

其中,β=1σ2\beta=\frac{1}{\sigma^2}β=σ21​通过参数β∈(0,∞)\beta∈(0,\infty)β∈(0,∞)来控制分布精度。

1.5.3 何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

  1. 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
  2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到RnR^nRn空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵Σ\SigmaΣ:
N(x;μ⃗,Σ)=1(2π)ndet(Σ)exp(−12(x⃗−μ⃗)TΣ−1(x⃗−μ⃗))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ​,Σ)=(2π)ndet(Σ)1​​exp(−21​(x−μ​)TΣ−1(x−μ​))
对多为正态分布概率密度高效求值:
N(x;μ⃗,β⃗−1)=det(β⃗)(2π)nexp(−12(x⃗−μ⃗)Tβ(x⃗−μ⃗))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ​,β​−1)=det(β​)​(2π)nexp(−21​(x−μ​)Tβ(x−μ​))
此处,β⃗\vec\betaβ​是一个精度矩阵。

1.5.4 指数分布

深度学习中, 指数分布用来描述在x=0x=0x=0点处取得边界点的分布, 指数分布定义如下:
p(x;λ)=λIx≥0exp(−λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx≥0​exp(−λx)
指数分布用指示函数Ix≥0I_{x\geq 0}Ix≥0​来使xxx取负值时的概率为零。

1.5.5 Laplace 分布(拉普拉斯分布)

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 μ\muμ处设置概率质量的峰值
Laplace(x;μ;γ)=12γexp(−∣x−μ∣γ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1​exp(−γ∣x−μ∣​)

1.5.6 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克δ\deltaδ函数(也称为单位脉冲函数)定义如下:
p(x)=δ(x−μ),x≠μp(x)=\delta(x-\mu), x\neq \mu p(x)=δ(x−μ),x​=μ

∫abδ(x−μ)dx=1,a<μ<b\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b ∫ab​δ(x−μ)dx=1,a<μ<b

Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
p^(x⃗)=1m∑i=1mδ(x⃗−x⃗(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^​(x)=m1​i=1∑m​δ(x−x(i))
, 其中, m个点x1,...,xmx^{1},...,x^{m}x1,...,xm是给定的数据集, 经验分布将概率密度1m\frac{1}{m}m1​赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

  • 线性运算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c
  • 推广形式: E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}E(∑k=1n​ai​xi​+c)=∑k=1n​ai​E(xi​)+c
  • 函数期望:设f(x)f(x)f(x)为xxx的函数,则f(x)f(x)f(x)的期望为
    • 离散函数: E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}E(f(x))=∑k=1n​f(xk​)P(xk​)
    • 连续函数: E(f(x))=∫−∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}E(f(x))=∫−∞+∞​f(x)p(x)dx

注意:

  • 函数的期望大于等于期望的函数(Jensen(詹森)不等式,即E(f(x))⩾f(E(x))E(f(x))\geqslant f(E(x))E(f(x))⩾f(E(x))
  • 一般情况下,乘积的期望不等于期望的乘积。
  • 如果XXX和YYY相互独立,则E(xy)=E(x)E(y)E(xy)=E(x)E(y)E(xy)=E(x)E(y)。

1.6.2 方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

Var(x)=E((x−E(x))2)Var(x) = E((x-E(x))^2) Var(x)=E((x−E(x))2)

方差性质:

1)Var(x)=E(x2)−E(x)2Var(x) = E(x^2) -E(x)^2Var(x)=E(x2)−E(x)2
2)常数的方差为0;
3)方差不满足线性性质;
4)如果XXX和YYY相互独立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)

1.6.3 协方差

协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:
Cov(x,y)=E((x−E(x))(y−E(y)))Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((x−E(x))(y−E(y)))

方差是一种特殊的协方差。当X=YX=YX=Y时,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)。

协方差性质:

1)独立变量的协方差为0。
2)协方差计算公式:

Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1∑m​ai​xi​,j=1∑m​bj​yj​)=i=1∑m​j=1∑m​ai​bj​Cov(xi​yi​)

3)特殊情况:

Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)

1.6.4 相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y)​Cov(x,y)​

相关系数的性质:
1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。

参考文献

[1]Ian,Goodfellow,Yoshua,Bengio,Aaron…深度学习[M],人民邮电出版,2017

[2]周志华.机器学习[M].清华大学出版社,2016.

[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.

[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008

1.机器学习数学基础相关推荐

  1. 【本站作品】机器学习数学基础专辑

    本文推荐一份机器学习数学基础专辑,在线阅读地址:(数学基础专辑), 同时文末提供下载. 机器学习,需要一定的数学基础,也需要一定的代码能力.机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某 ...

  2. 视频教程-机器学习数学基础--概率论与数理统计视频教学-机器学习

    机器学习数学基础--概率论与数理统计视频教学 北京大学计算机技术及应用专业,从事IT行业十几年,主要从事java.Linux.手机应用开发.人工智能神经网络方面的工作.曾在中国数码集团.厦门三五互联集 ...

  3. 学会python需要数学吗_机器学习数学基础:学习线性代数,千万不要误入歧途!推荐一个正确学习路线...

    机器学习数学基础:学习线性代数,千万不要误入歧途!推荐一个正确学习路线 序言 写完<机器学习深度研究:机器学习中的高等数学/微积分及Python实现>,觉得十分对不起读者,写的自己都不满意 ...

  4. 机器学习数学基础学习笔记

    机器学习数学基础学习笔记 1. 微积分 1.1 导数 一阶导数,是函数 的切线斜率 二阶导数,是切线斜率的变化速度,即曲线的弯曲程度,也称为"曲率"(curvature) 1.2 ...

  5. 机器学习数学基础--凸优化

    机器学习数学基础--凸优化 1.计算几何是研究什么的? 2.计算几何理论中(或凸集中)过两点的一条直线的表达式,是如何描述的?与初中数学中那些直线方程有什么差异?有什么好处? **在计算几何理论中(或 ...

  6. 机器学习数学基础之Python矩阵运算

    机器学习数学基础之Python矩阵运算 1.在Jupyter中写下Python矩阵基本运算学习记录 1.1 python矩阵操作 1.1.1 首先打开jupyter,引入numpy 1.1.2 创建一 ...

  7. 机器学习数学基础:常见分布与假设检验

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者,东北大学 所谓机器学习和深 ...

  8. 机器学习数学基础:数理统计与描述性统计

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...

  9. 机器学习数学基础:随机事件与随机变量

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...

  10. 112页数学知识整理!机器学习-数学基础回顾.pptx

    机器学习的基础是数学,数学基础决定了机器学习从业人员的上限,想要学好机器学习,就必须学好数学. 机器学习所需要的数学知识,包括了数学分析(微积分),线性代数,概率论,统计,应用统计,数值分析,常微分方 ...

最新文章

  1. Sqoop的基础应用
  2. C++集成开发环境(IDE)的优点
  3. cmd指令卸载java_.net 服务 安装 卸载 命令行 bat cmd
  4. Linux网络设备子系统
  5. IOS树视图学习总结
  6. 一个报文的路由器之旅_【NE探秘】一个报文的路由器之旅
  7. [html] 举例说明Shadow DOM的应用场景有哪些?
  8. 逻辑运算符,位运算符
  9. 你真的理解零拷贝了吗?
  10. java人账户atm模拟存款,模拟银行ATM系统(基础版)
  11. Geolocation error:Only secure origins are allowed (see:https://goo.gl/Y0ZkNV)..
  12. 一图看懂阿里云原生发布
  13. python元组遍历
  14. oracle mysql 中文排序规则_Oracle 对汉字的order by排序规则
  15. 二、简单易用的Python代码加密方法(基于Cython)
  16. Office 2013 论文排版心得
  17. [微信小程序] 单张、多张图片上传(图片转base64格式)实践经验
  18. 使用JSP从服务器下载文件的示例
  19. 游戏平台对接哪种支付公司好(选择标准介绍)
  20. SQL Server 数据库之收缩数据库和文件

热门文章

  1. mysql 5.6 启用utf8mb4
  2. ant入门指南—web前端开发七武器(1)
  3. 如何制作一张标准地图样式的地图(附数据)
  4. 最详细的 Android Toolbar 开发实践总结
  5. Java开发语言环境_java-springboot 2中的语言环境
  6. 请不要在年轻时去云南
  7. 腾讯某安全工程师因好奇入侵酒店WiFi系统,遭安全局逮捕并处罚金
  8. 微信小程序宠物用品服务商城SSM-JAVA【数据库设计、论文、源码、开题报告】
  9. 互联网时代,云计算的6大特征
  10. linux的tra安装工具,安装 Traefik