正则化极限学习机_手写逻辑回归（带l1正则）

因为带l1正则化项的损失函数是不可微的，所以这里我们单独来讨论一下l1正则化的求解方法，这里我们可以直接turn to sklearn for help.

solver : str, {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, optional (default=’liblinear’).
Algorithm to use in the optimization problem.For small datasets, ‘liblinear’ is a good choice, whereas ‘sag’ and ‘saga’ are faster for large ones.
For multiclass problems, only ‘newton-cg’, ‘sag’, ‘saga’ and ‘lbfgs’ handle multinomial loss; ‘liblinear’
is limited to one-versus-rest schemes.
‘newton-cg’, ‘lbfgs’, ‘sag’ and ‘saga’ handle L2 or no penalty
‘liblinear’ and ‘saga’ also handle L1 penalty
‘saga’ also supports ‘elasticnet’ penalty
‘liblinear’ does not handle no penaltyliblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。
lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。
saga：线性收敛的随机优化算法的的变种。

可以看到，sklearn中支持l1正则化的求解算法有liblinear和saga，由于L1范数用的是绝对值之和，导致损失函数有不可导的点。

但是实际上如果要使用梯度下降法或者牛顿法之类的其实也是可以的，只不过在部分点上导数木有意义不需要考虑到梯度更新的过程中。

sklearn.linear_model.SGDClassifier - scikit-learn 0.21.3 documentationscikit-learn.org

首先回顾一下高中知识：相关解答一：

如何证明用一个函数不可导

如果不连续，则不可导。
因为初等函数在定义域区间通常都是连续可导的，所以要证明不可导的通常都是一些分段函数分界点，转折点等。比如y=|x|中x=0这个转折点。
只须判断其左右导数是否相等。只有它们都存在且相等，在该点才可导。

函数可导不可导怎么判断

函数的条件是在定义域内,必须是连续的.可导函数都是连续的,但是连续函数不一定是可导函数.
例如，y=|x|,在x=0上不可导.即使这个函数是连续的,但是lim(x趋向0+)y'=1, lim(x趋向0-)y'=-1，两个值不相等，所以不是可导函数。也就是说在每一个点上导数的左右极限都相等的函数是可导函数，反之不是

如何让判断一个函数在某个点的可导性

首先判断函数在这个点x0是否有定义，即f(x0)是否存在；
其次判断f(x0)是否连续，即f(x0-), f(x0+), f(x0)三者是否相等；
再次判断函数在x0的左右导数是否存在且相等，即f‘(x0-)=f'(x0+)
只有以上都满足了，则函数在x0处才可导。

首先看一下l1正则化的损失函数：

则关于参数theta求导可得：

关于绝对值的导数可以用sgn(x)函数来表示，具体可见：

https://baike.baidu.com/item/sign%E5%87%BD%E6%95%B0/1343199?fr=aladdinbaike.baidu.com

其中对于二元逻辑回归，h表示sigmoid(W*X)

我们先实现一下常规的梯度下降求解lr：

import

可以看到，相对于原始的逻辑回归不带正则的推导出来的梯度更新式，l2正则化每次都是

将原来的weights按照一定比例缩小为原来的一部分，并且缩小的量也会随着weights变得越小而改变的越小，所以l2只能将系数压缩到趋近于0的小数字但是无法为0。

而l1正则化每次都是：

减去某个数字，和weights的大小基本无关，只要weights>0就是1，<0就是-1，所以明显这种方式能够导致部分weights变成0

有空再写坐标轴下降法

坐标下降法和梯度下降法的损失函数是一样的，不同的是坐标下降法是每次固定n-1个参数，去单独优化剩下的一个参数

下面为具体的更新过程。

（1）选取初始参数

这里的theta就是逻辑回归的权重系数

（2）针对当前得到的参数进行迭代，假设已经求出第k-1轮的参数，现在由求，其中，则：

（3）通过以上步骤即可以得到每轮的迭代结果，如果相对于的变化很小，则停止迭代，否则，重复步骤（2）.

通过以上迭代过程可以看出

1. 坐标轴下降法进行参数更新时，每次总是固定另外m-1个值，求另外一个的局部最优值，这样也避免了Lasso回归的损失函数不可导的问题。

2. 坐标轴下降法每轮迭代都需要O(mn)的计算。（和梯度下降算法相同）