机器学习入门3--回归之正则化及评价指标

本系列博客基于温州大学黄海广博士的机器学习课程的笔记，小伙伴们想更详细学习黄博士课程请移步到黄博士的Github、或者机器学习初学者公众号，现在在中国慕课也是可以学习的，内容包括机器学习、深度学习及Python编程，matplotlib、numpy、pandas、sklearn等，资料很详细，要系统学习请移步哦！笔者的博客只是笔记，内容不会十分详细，甚至会有些少错误！

1.正则化

1.1 欠拟合、过拟合

1.2 过拟合解决方案

获得更多训练数据：更多的样本让模型学习到更多更有效的特征，减少噪声的影响；
降维：丢弃一些不能帮助正确预测的特征；
正则化(regularization)：保留所有特征，减少参数的大小；
集成学习方法：把多个模型集成在一起，降低单一模型的过拟合风险；

1.3 欠拟合解决方案

添加新特征：当特征不足或现有特征与样本标签相关性不强时，容易出现欠拟合；通过挖掘组合特征等新的特征，可以得到更好的效果；
增加模型复杂度：通过增加模型的复杂度使模型拥有更强的拟合能力；如：在线性模型中增加高次项，在神经网络模型中增加网络层数或神经元个数等；
减小正则化系数：正则化是防止过拟合的，当模型出现欠拟合现象时，针对性减小正则化系数来优化模型；

1.4 正则化

L1正则化：J(ω)=12∑i=1m(h(x(i))−y(i))2+λ∑j=1n∣ωj∣，LassoRegressionL_1正则化：J(\omega)=\frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n|\omega_j|，Lasso RegressionL1正则化：J(ω)=21∑i=1m(h(x(i))−y(i))2+λ∑j=1n∣ωj∣，LassoRegression
L2正则化：J(ω)=12∑i=1m(h(x(i))−y(i))2+λ∑j=1nωj2，RidgeRegressionL_2正则化：J(\omega)=\frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\omega_j^2，Ridge RegressionL2正则化：J(ω)=21∑i=1m(h(x(i))−y(i))2+λ∑j=1nωj2，RidgeRegression
ElasticNet：Elastic Net：ElasticNet：
J(ω)=12∑i=1m(h(x(i))−y(i))2+λ(ρ⋅∑j=1n∣ωj∣+(1−ρ)⋅∑j=1nωj2)J(\omega)=\frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2+\lambda(\rho·\sum_{j=1}^n|\omega_j|+(1-\rho)·\sum_{j=1}^n\omega_j^2)J(ω)=21i=1∑m(h(x(i))−y(i))2+λ(ρ⋅j=1∑n∣ωj∣+(1−ρ)⋅j=1∑nωj2)
其中：λ：正则化系数，调整正则化项与训练误差的比例，λ>0；ρ：比例系数，调整L1正则化与L2正则化比例，0≤ρ≤1；其中：\\ \lambda：正则化系数，调整正则化项与训练误差的比例，\lambda>0；\\ \rho：比例系数，调整L_1正则化与L_2正则化比例，0≤\rho≤1；其中：λ：正则化系数，调整正则化项与训练误差的比例，λ>0；ρ：比例系数，调整L1正则化与L2正则化比例，0≤ρ≤1；

在正则化限制下，L2L_2L2正则化给出的最优解ω∗\omega*ω∗使解更靠近原点，即：L2L_2L2正则化能降低参数范数的总和；
L1L_1L1正则化给出的最优解ω∗\omega*ω∗使解更靠近某些轴，其他的轴为0，即：L1L_1L1正则化得到参数稀疏化；

2.回归评价指标

2.1 均方误差(Mean Square Error，MSE)

MSE(y,y^)=1m∑i=1m(y(i)−y^(i))2MSE(y,\hat{y}) = \frac{1}{m}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2 MSE(y,y^)=m1i=1∑m(y(i)−y^(i))2
其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y^{(i)}和\hat{y}^{(i)}分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；

2.2 均方根误差(Root Mean Square Error，RMSE)

RMSE(y,y^)=1m∑i=1m(y(i)−y^(i))2RMSE(y,\hat{y})=\sqrt{\frac{1}{m}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2} RMSE(y,y^)=m1i=1∑m(y(i)−y^(i))2
其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y^{(i)}和\hat{y}^{(i)}分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；

2.3 平均绝对误差(Mean Absolute Error，MAE)

MAE(y,y^)=1m∑i=1m∣y(i)−y^(i)∣MAE(y,\hat{y})=\frac{1}{m}\sum_{i=1}^m|y^{(i)}-\hat{y}^{(i)}| MAE(y,y^)=m1i=1∑m∣y(i)−y^(i)∣
其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y^{(i)}和\hat{y}^{(i)}分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；

2.4 R方(RSquared)

R2(y,y^)=1−∑i=0m(y(i)−y^(i))2∑i=0m(y(i)−y‾)2=SSRSST=1−SSESSTR^2(y,\hat{y})=1-\frac{\sum_{i=0}^m(y^{(i)}-\hat{y}^{(i)})^2}{\sum_{i=0}^m(y^{(i)}-\overline{y})^2}=\frac{SSR}{SST}=1-\frac{SSE}{SST} R2(y,y^)=1−∑i=0m(y(i)−y)2∑i=0m(y(i)−y^(i))2=SSTSSR=1−SSTSSE
R2(y,y^)=1−∑i=0m(y(i)−y^(i))2/m∑i=0m(y(i)−y‾)2/m=1−MSEVarR^2(y,\hat{y})=1-\frac{\sum_{i=0}^m(y^{(i)}-\hat{y}^{(i)})^2/m}{\sum_{i=0}^m(y^{(i)}-\overline{y})^2/m}=1-\frac{MSE}{Var} R2(y,y^)=1−∑i=0m(y(i)−y)2/m∑i=0m(y(i)−y^(i))2/m=1−VarMSE
其中：
SSR=∑i=0m(y^(i)−y‾)2；SSE=∑i=0m(y(i)−y^(i))2；SST=∑i=0m(y(i)−y‾)2；SSR=\sum_{i=0}^m(\hat{y}^{(i)}-\overline{y})^2；SSE=\sum_{i=0}^m({y}^{(i)}-\hat{y}^{(i)})^2； SST=\sum_{i=0}^m({y}^{(i)}-\overline{y})^2； SSR=i=0∑m(y^(i)−y)2；SSE=i=0∑m(y(i)−y^(i))2；SST=i=0∑m(y(i)−y)2；
其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y^{(i)}和\hat{y}^{(i)}分别表示第i个样本的真实值和与预测值，m为样本个数；其中：y(i)和y^(i)分别表示第i个样本的真实值和与预测值，m为样本个数；