TASK3-方差和偏差理论

视频要点

P13 偏差和方差理论

方差

这里直接粘贴一个视频里的例子，很形象：

我们想要建立一个线性回归模型，可以通过输入中国人身高去预测我们的体重。但是显然我们没有办法把全中国13亿人做一次人口普查，拿到13亿人的身高体重去建立模型。我们能做的就是从13亿中抽1000个样本进行建模，我们对这个抽样的过程重复100遍，就会得到100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性，我们得到的100个模型不可能参数完全一样，那么这100个模型之间的差异就叫做方差。显然，我们希望得到一个稳定的模型，也就是在不同的样本集估计的模型都不会相差太大，即要求f的方差越小越好。一般来说，模型的复杂度越高，f的方差就会越大。如加入二次项的模型的方差比线性回归模型的方差要大。

偏差

偏差的构成是复杂的。
偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。

偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。
“偏差-方差分解”说明：泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务，为了取得好的泛化性能，则需使偏差较小，即能够充分拟合数据，并且使方差较小，即使得数据扰动产生的影响小。

不可约误差 v a r ( ϵ ) var\left( \epsilon \right) var(ϵ)的值只跟任务有关，一旦任务确定下来，这个值就不会变了；它代表了建模任务的难度，任务越南，该值越大
模型的方差指的是用不同的数据集去估计 f f f时，估计函数的改变量（模型参数之间的差异）；模型的复杂度越高， f f f的方差越大

P14 测试误差的间接估计：Cp、AIC和BIC

RSS： Residual Sum of Squares，残差平方和
R S S = ∑ i = 1 n ( y ^ i − y i ) 2 RSS = \sum_{i=1}^n \left( \hat y_i - y_i \right)^2 RSS=i=1∑n(y^i−yi)2
y ^ i \hat y_i y^i为预测值， y i y_i yi为观测值
C p = 1 N ( R S S + 2 d σ ^ 2 ) C_p = \frac{1}{N}(RSS + 2d\hat{\sigma}^2) Cp=N1(RSS+2dσ^2)，其中d为模型特征个数， R S S = ∑ i = 1 N ( y i − f ^ ( x i ) ) 2 RSS = \sum\limits_{i=1}^{N}(y_i-\hat{f}(x_i))^2 RSS=i=1∑N(yi−f^(xi))2， σ ^ 2 \hat{\sigma}^2 σ^2为模型预测误差的方差的估计值，即残差的方差。
AIC赤池信息量准则： A I C = 1 d σ ^ 2 ( R S S + 2 d σ ^ 2 ) AIC = \frac{1}{d\hat{\sigma}^2}(RSS + 2d\hat{\sigma}^2) AIC=dσ^21(RSS+2dσ^2)
BIC贝叶斯信息量准则： B I C = 1 n ( R S S + l o g ( n ) d σ ^ 2 ) BIC = \frac{1}{n}(RSS + log(n)d\hat{\sigma}^2) BIC=n1(RSS+log(n)dσ^2)
上述这三个量都是对训练误差进行修正的，修正思路就是加入关于特征个数的惩罚项。
其中 B I C BIC BIC惩罚最重（为什么？），相对于其它两个量来说选用的特征个数是最小的
在一些模型的summary()结果中，有一项Adj.R-squared，它的代表的就是调整后的R方，一般调整后的会比调整前要小。

P15-17 偏差与方差理论的应用：特征选择，正则化-压缩估计（岭回归、Lasso回归），PCA降维

目的：从p个特征中选择m个特征，使得对应的模型的测试误差的估计最小
方法：
- 最优子集选择
1. 记不含任何特征的模型为 M 0 M_0 M0，计算这个 M 0 M_0 M0的测试误差。
2. 在 M 0 M_0 M0基础上增加一个变量，计算 p p p个模型的 R S S RSS RSS，选择 R S S RSS RSS最小的模型记作 M 1 M_1 M1，并计算该模型 M 1 M_1 M1的测试误差。
3. 再增加变量，计算 p × ( p − 1 ) p \times \left( p-1 \right) p×(p−1)个模型的 R S S RSS RSS，并选择 R S S RSS RSS最小的模型记作 M 2 M_2 M2，并计算该模型 M 2 M_2 M2的测试误差。
4. 重复以上过程知道拟合的模型有 p p p个特征为止，并选择 p + 1 p+1 p+1个模型 { M 0 , M 1 , . . . , M p } \{M_0,M_1,...,M_p \} {M0,M1,...,Mp}中测试误差最小的模型作为最优模型。
- 向前逐步选择： 最优子集选择虽然在原理上很直观，但是随着数据特征维度p的增加，子集的数量为 2 p 2^p 2p，计算效率非常低下且需要的计算内存也很高，在大数据的背景下显然不适用。因此，我们需要把最优子集选择的运算效率提高
1. 记不含任何特征的模型为 M 0 M_0 M0，计算这个 M 0 M_0 M0的测试误差。
2. 在 M 0 M_0 M0基础上增加一个变量，计算 p p p个模型的RSS，选择RSS最小的模型记作 M 1 M_1 M1，并计算该模型 M 1 M_1 M1的测试误差。
3. 在最小的RSS模型下继续增加一个变量，选择RSS最小的模型记作 M 2 M_2 M2，并计算该模型 M 2 M_2 M2的测试误差。
4. 以此类推，重复以上过程知道拟合的模型有p个特征为止，并选择p+1个模型 { M 0 , M 1 , . . . , M p } \{M_0,M_1,...,M_p \} {M0,M1,...,Mp}中测试误差最小的模型作为最优模型。
- 压缩估计(计算机中称为正则化)： 上述方法可以看作是对特征进行“离散地”选择，相对比较粗暴，现在我们希望能对特质进行“连续地”选择。我们可以对回归的系数进行约束或者加罚的技巧对p个特征的模型进行拟合，显著降低模型方差，这样也会提高模型的拟合效果。具体来说，就是将回归系数往零的方向压缩，这也就是为什么叫压缩估计的原因了。而压缩地结果可能会导致某些特征地系数趋近于0，这就相当于是抛弃了这些特征，也就近似是特征选择了。
  - 岭回归(L2正则化的例子)：
    - 在线性回归中，我们的损失函数为 J ( w ) = ∑ i = 1 N ( y i − w 0 − ∑ j = 1 p w j x i j ) 2 J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2，我们在线性回归的损失函数的基础上添加对系数的约束或者惩罚，即：
      J ( w ) = ∑ i = 1 N ( y i − w 0 − ∑ j = 1 p w j x i j ) 2 + λ ∑ j = 1 p w j 2 , 其中， λ ≥ 0 w ^ = ( X T X + λ I ) − 1 X T Y J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}w_j^2,\;\;其中，\lambda \ge 0\\ \hat{w} = (X^TX + \lambda I)^{-1}X^TY J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑pwj2,其中，λ≥0w^=(XTX+λI)−1XTY
    - 调节参数 λ \lambda λ的大小是影响压缩估计的关键， λ \lambda λ越大，惩罚的力度越大，系数则越趋近于0，反之，选择合适的 λ \lambda λ对模型精度来说十分重要。岭回归通过牺牲线性回归的无偏性降低方差，有可能使得模型整体的测试误差较小，提高模型的泛化能力。
  - Lasso回归(L1正则化的例子)：
    - 岭回归的一个很显著的特点是：将模型的系数往零的方向压缩，但是岭回归的系数只能呢个趋于0但无法等于0，换句话说，就是无法做特征选择。能否使用压缩估计的思想做到像特征最优子集选择那样提取出重要的特征呢？答案是肯定的！我们只需要对岭回归的优化函数做小小的调整就行了，我们使用系数向量的L1范数替换岭回归中的L2范数：
      J ( w ) = ∑ i = 1 N ( y i − w 0 − ∑ j = 1 p w j x i j ) 2 + λ ∑ j = 1 p ∣ w j ∣ , 其中， λ ≥ 0 J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}|w_j|,\;\;其中，\lambda \ge 0 J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑p∣wj∣,其中，λ≥0
    - 如何最优化： 最小角回归（Least Angle Regression，LARS）
    - 为什么Losso能做到特征选择而岭回归却不能呢个做到呢？(如图：左边为lasso，右边为岭回归)椭圆形曲线为RSS等高线，菱形和圆形区域分别代表了L1和L2约束，Lsaao回归和岭回归都是在约束下的回归，因此最优的参数为椭圆形曲线与菱形和圆形区域相切的点。但是Lasso回归的约束在每个坐标轴上都有拐角，因此当RSS曲线与坐标轴相交时恰好回归系数中的某一个为0，这样就实现了特征提取。反观岭回归的约束是一个圆域，没有尖点，因此与RSS曲线相交的地方一般不会出现在坐标轴上，因此无法让某个特征的系数为0，因此无法做到特征提取。
- 降维： 上述方法都是基于原始特征 x 1 , . . . , x p x_1,...,x_p x1,...,xp得到的，现在考虑一种新的思路：将原始的特征空间投影到一个低维的空间实现变量的数量变少，如：将二维的平面投影至一维空间。
  - 机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率；而 通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度（去噪） 。又或者 希望通过降维算法来寻找数据内部的本质结构特征（无监督学习） 。在很多算法中，降维算法成为了数据预处理的一部分，如PCA。事实上，有一些算法如果没有降维预处理，其实是很难得到很好的效果的。 (摘自：rosenor1博客)
  - 主成分分析(PCA)：
    - 主成分分析的思想： 通过***最大投影方差*** 将原始空间进行重构，即由特征相关重构为无关，即落在某个方向上的点(投影)的方差最大。在进行下一步推导之前，我们先把样本均值和样本协方差矩阵推广至矩阵形式：
      - 样本均值Mean: x ˉ = 1 N ∑ i = 1 N x i = 1 N X T 1 N , 其中 1 N = ( 1 , 1 , . . . , 1 ) N T \bar{x} = \frac{1}{N}\sum\limits_{i=1}^{N}x_i = \frac{1}{N}X^T1_N,\;\;\;其中1_N = (1,1,...,1)_{N}^T xˉ=N1i=1∑Nxi=N1XT1N,其中1N=(1,1,...,1)NT
      - 样本协方差矩阵 S 2 = 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) T = 1 N X T H X , 其中， H = I N − 1 N 1 N 1 N T S^2 = \frac{1}{N}\sum\limits_{i=1}^{N}(x_i-\bar{x})(x_i-\bar{x})^T = \frac{1}{N}X^THX,\;\;\;其中，H = I_N - \frac{1}{N}1_N1_N^T S2=N1i=1∑N(xi−xˉ)(xi−xˉ)T=N1XTHX,其中，H=IN−N11N1NT
      - 最大投影方差的步骤：
      1. 中心化： x i − x ˉ x_i - \bar{x} xi−xˉ
      2. 计算每个点 x 1 , . . . , x N x_1,...,x_N x1,...,xN至 u ⃗ 1 \vec{u}_1 u 1方向上的投影： ( x i − x ˉ ) u ⃗ 1 , ∣ ∣ u ⃗ 1 ∣ ∣ = 1 (x_i-\bar{x})\vec{u}_1,\;\;\;||\vec{u}_1|| = 1 (xi−xˉ)u 1,∣∣u 1∣∣=1
      3. 计算投影方差： J = 1 N ∑ i = 1 N [ ( x i − x ˉ ) T u ⃗ 1 ] 2 , ∣ ∣ u ⃗ 1 ∣ ∣ = 1 J = \frac{1}{N}\sum\limits_{i=1}^{N}[(x_i-\bar{x})^T\vec{u}_1]^2,\;\;\;||\vec{u}_1|| = 1 J=N1i=1∑N[(xi−xˉ)Tu 1]2,∣∣u 1∣∣=1
      4. 最大化投影方差求 u ⃗ 1 \vec{u}_1 u 1：
        u ˉ 1 = a r g m a x u 1 1 N ∑ i = 1 N [ ( x i − x ˉ ) T u ⃗ 1 ] 2 s . t . u ⃗ 1 T u ⃗ 1 = 1 ( u ⃗ 1 往后不带向量符号 ) \bar{u}_1 = argmax_{u_1}\;\;\frac{1}{N}\sum\limits_{i=1}^{N}[(x_i-\bar{x})^T\vec{u}_1]^2 \\ \;\;\;s.t. \vec{u}_1^T\vec{u}_1 = 1 (\vec{u}_1往后不带向量符号) uˉ1=argmaxu1N1i=1∑N[(xi−xˉ)Tu 1]2s.t.u 1Tu 1=1(u 1往后不带向量符号)
        得到：
        J = 1 N ∑ i = 1 N [ ( x i − x ˉ ) T u ⃗ 1 ] 2 = 1 N ∑ i = 1 N [ u 1 T ( x i − x ˉ ) ( x i − x ˉ ) T u 1 ] = u 1 T [ 1 N ∑ i = 1 N ( x i − x ˉ ) ( x i − x ˉ ) T ] u 1 = u 1 T S 2 u 1 J = \frac{1}{N}\sum\limits_{i=1}^{N}[(x_i-\bar{x})^T\vec{u}_1]^2 = \frac{1}{N}\sum\limits_{i=1}^{N}[u_1^T(x_i-\bar{x})(x_i-\bar{x})^Tu_1]\\ \; = u_1^T[\frac{1}{N}\sum\limits_{i=1}^{N}(x_i-\bar{x})(x_i - \bar{x})^T]u_1 = u_1^TS^2u_1 J=N1i=1∑N[(xi−xˉ)Tu 1]2=N1i=1∑N[u1T(xi−xˉ)(xi−xˉ)Tu1]=u1T[N1i=1∑N(xi−xˉ)(xi−xˉ)T]u1=u1TS2u1
        即：
        u ^ 1 = a r g m a x u 1 u 1 T S 2 u 1 , s . t . u 1 T u 1 = 1 L ( u 1 , λ ) = u 1 T S 2 u 1 + λ ( 1 − u 1 T u 1 ) ∂ L ∂ u 1 = 2 S 2 u 1 − 2 λ u 1 = 0 即： S 2 u 1 = λ u 1 \hat{u}_1 = argmax_{u_1}u_1^TS^2u_1,\;\;\;s.t.u_1^Tu_1 = 1\\ L(u_1,\lambda) = u_1^TS^2u_1 + \lambda (1-u_1^Tu_1)\\ \frac{\partial L}{\partial u_1} = 2S^2u_1-2\lambda u_1 = 0\\ 即：S^2u_1 = \lambda u_1 u^1=argmaxu1u1TS2u1,s.t.u1Tu1=1L(u1,λ)=u1TS2u1+λ(1−u1Tu1)∂u1∂L=2S2u1−2λu1=0即：S2u1=λu1
        可以看到： λ \lambda λ为 S 2 S^2 S2的特征值， u 1 u_1 u1为 S 2 S^2 S2的特征向量。因此我们只需要对中心化后的协方差矩阵进行特征值分解，得到的特征向量即为投影方向。如果需要进行降维，那么只需要取p的前M个特征向量即可。

P18 线性代数补充：特征值与特征向量

直接看这个就行了：3Blue1Brown地线性代数地本质-p14特征向量与特征值

P19 模型超参数调优：网络搜索与随即搜索

作业

1. 请用一个具体的案例解释什么是偏差和方差

2. 偏差与方差和误差之间的关系

测试均方误差的期望值可以分解为 f ^ ( x 0 ) \hat{f}(x_0) f^(x0)的方差、 f ^ ( x 0 ) \hat{f}(x_0) f^(x0)的偏差平方和误差项 ϵ \epsilon ϵ的方差。
E ( y 0 − f ^ ( x 0 ) ) 2 = Var ⁡ ( f ^ ( x 0 ) ) + [ Bias ⁡ ( f ^ ( x 0 ) ) ] 2 + Var ⁡ ( ε ) E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\varepsilon) E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)
见前面P13笔记
- 偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。
- 不可约误差 v a r ( ϵ ) var\left( \epsilon \right) var(ϵ)的值只跟任务有关，一旦任务确定下来，这个值就不会变了；它代表了建模任务的难度，任务越南，该值越大
- “偏差-方差分解”说明：泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务，为了取得好的泛化性能，则需使偏差较小，即能够充分拟合数据，并且使方差较小，即使得数据扰动产生的影响小。

3. 训练误差与测试误差之间的联系和区别，如何估计误差

使用训练集上算得的误差，那么这个误差为训练误差；使用测试集上算得的误差，那么这个误差为测试误差
模型的训练均方误差最小时，不能保证测试均方误差同时也很小；一般在训练误差达到最小时，测试均方误差一般很大
一般而言，我们并不关心模型在训练集上的训练误差，我们关心的是模型面对未知的样本集，即测试集上的测试误差，我们的目标是使得我们建立的模型在测试集上的测试误差最小
估计测试误差的方法分为间接估计和直接估计，简介估计见前面P14笔记，直接估计是交叉验证，典型方法是K-折交叉验证，即训练样本分成K等分，用K-1个样本集当做训练集，剩下的一份样本集为验证集去估计由K-1个样本集得到的模型的精度，这个过程重复K次取平均值得到测试误差的一个估计 C V ( K ) = 1 K ∑ i = 1 K M S E i CV_{(K)} = \frac{1}{K}\sum\limits_{i=1}^{K}MSE_i CV(K)=K1i=1∑KMSEi。

4. 岭回归和lasso回归的异同点

相同点：二者都属于压缩估计（正则化）方法，都对回归的系数进行约束或者加罚的技巧对p个特征的模型进行拟合，显著降低模型方差
不同点
- 岭回归是用的L2正则化，损失函数为
  J ( w ) = ∑ i = 1 N ( y i − w 0 − ∑ j = 1 p w j x i j ) 2 + λ ∑ j = 1 p w j 2 , 其中， λ ≥ 0 w ^ = ( X T X + λ I ) − 1 X T Y J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}w_j^2,\;\;其中，\lambda \ge 0\\ \hat{w} = (X^TX + \lambda I)^{-1}X^TY J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑pwj2,其中，λ≥0w^=(XTX+λI)−1XTY
  它只能是系数趋近于0，不能使他们真的为0，是近似地进行“特征选择”
- Lasso回归用的是L1正则化，需要用最小角回归来进行优化，损失函数为
  J ( w ) = ∑ i = 1 N ( y i − w 0 − ∑ j = 1 p w j x i j ) 2 + λ ∑ j = 1 p ∣ w j ∣ , 其中， λ ≥ 0 J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}|w_j|,\;\;其中，\lambda \ge 0 J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑p∣wj∣,其中，λ≥0
  Lasso回归可以做到使特征的权重降为0，实现特征选择

5. 如果使用PCA降维前是一个三维的椭球，那么把该图形降维成二维是一个什么样的图形

椭圆或圆？

6. 尝试使用对偶理论和核函数对PCA进行非线性拓展，使得PCA变成非线性降维

7. 本教程讲述的三种模型简化的方法之间有什么异同点

三种方法分别为：

基于原始变量的子集“离散地”选取特征
使用压缩估计（正则化）方法 “连续地”选取特征
降维来达到去噪或实现无监督学习（发现数据内部的本质结构特征）

三种方法相同点：都是对特征进行简化

8. 尝试使用sklearn，对一组数据先进行特征的简化（使用三种方式），再使用回归模型，最后使用网络搜索调参，观察三种方法的优劣

TASK3-方差和偏差理论相关推荐

机器学习-方差和偏差理论
机器学习-方差和偏差理论关于机器学习方差和偏差的内容其实很重要,这个方差和偏差可以帮助我们去分析,模型的泛化能力和过拟合的程度. 下面我们先给存储方差和偏差的公式: 注意,下式当中, f ( x ; ...
机器学习中的方差与偏差
方差与偏差的定义方差:不同的训练数据集训练出的模型输出值之间的差异. 偏差:用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异. 方差与偏差的数学公式首先,以回归为例 ...
Bias-Variance Tradeoff（方差、偏差、误差）通俗理解
直译 Bias:偏见,乖离率,偏重 Variance:方差.分歧.不一致 Tradeoff:权衡.参数折衷:(公平)交易:技术经济研究准确准确是两个概念:准.确. 准是bias小,就是偏差小: 确 ...
机器学习中过拟合、欠拟合与方差、偏差的关系是什么？
机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...
误差、方差、偏差、噪声、训练误差+验证误差、偏差方差窘境、错误率和误差、过拟合与欠拟合
误差.方差.偏差.噪声.训练误差+验证误差.偏差方差窘境.错误率和误差.过拟合与欠拟合目录
【机器学习】理解方差、偏差且其泛化误差的关系
https://blog.csdn.net/ChenVast/article/details/81385018 符号涵义测试样本数据集在数据集中的标记的真实标记训练集学得的模型由训练 ...
对模型方差和偏差的解释之一：过拟合
原文:http://blog.csdn.net/vivihe0/article/details/33317041 在说到模型过拟合问题的时候,我们经常听说到模型的方差和偏差,本系列就通过多项式拟合为例 ...
样本方差的期望_如何理解方差和偏差
这是我在学习李宏毅老师机器学习课程时记录的笔记,并不是一个全面的记录而只记录我认为比较关键的知识点,起到知识梳理和温故知新的作用.对较为简单的点只放上PPT和一点记录,对自认为重点的内容会多记录一些理 ...
方差与偏差的意义与推导过程
文章目录基本概念偏差与方差的公式推导符号假设泛化误差.偏差和方差之间的关系偏差.方差窘境偏差.方差与过拟合.欠拟合的关系? 偏差.方差与bagging.boosting的关系? 如何解决偏 ...
方差和偏差（Understanding the Bias-Variance Tradeoff）
当我们讨论预测模型时,预测误差可以分解成两个主要组成部分:由于"偏差"导致的误差和由于"方差"导致的误差. 模型在最小化偏差和方差之间权衡. 了解这两种类型的误 ...

TASK3-方差和偏差理论

视频要点

P13 偏差和方差理论

方差

偏差

P14 测试误差的间接估计：Cp、AIC和BIC

P15-17 偏差与方差理论的应用：特征选择，正则化-压缩估计（岭回归、Lasso回归），PCA降维

P18 线性代数补充：特征值与特征向量

P19 模型超参数调优：网络搜索与随即搜索

作业

1. 请用一个具体的案例解释什么是偏差和方差

2. 偏差与方差和误差之间的关系

3. 训练误差与测试误差之间的联系和区别，如何估计误差

4. 岭回归和lasso回归的异同点

5. 如果使用PCA降维前是一个三维的椭球，那么把该图形降维成二维是一个什么样的图形

6. 尝试使用对偶理论和核函数对PCA进行非线性拓展，使得PCA变成非线性降维

7. 本教程讲述的三种模型简化的方法之间有什么异同点

8. 尝试使用sklearn，对一组数据先进行特征的简化（使用三种方式），再使用回归模型，最后使用网络搜索调参，观察三种方法的优劣

TASK3-方差和偏差理论相关推荐

最新文章

热门文章