逻辑回归原理详细推导
1. 基本原理
Logistic Regression和Linear Regression的原理是相似的,可以简单描述为以下过程:
(1)找一个合适的预测函数(Andrew Ng的公开课中称为hypothesis),一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程时非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有的是梯度下降法(Gradient Descent)。
2. 具体过程
2.1 构造预测函数
Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,用于两分类问题(即输出只有两种)。根据第二章中的步骤,需要先找到一个预测函数(h),显然,该函数的输出必须是两个值(分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
对应的函数图像是一个取值在0和1之间的S型曲线(图1)。
图1
接下来需要确定数据划分的边界类型,对于图2和图3中的两种数据分布,显然图2需要一个线性的边界,而图3需要一个非线性的边界。接下来我们只讨论线性边界的情况。
图2
图3
对于线性边界的情况,边界形式如下:
构造预测函数为:
hθ(x)函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
2.2 构造Cost函数
Andrew Ng在课程中直接给出了Cost函数及J(θ)函数如式(5)和(6),但是并没有给出具体的解释,只是说明了这个函数来衡量h函数预测的好坏是合理的。
其实这里可以通过数学上的最大似然估计来理解。作为概率密度函数,进行连乘,然后取对数。
实际上这里的Cost函数和J(θ)函数是基于最大似然估计推导得到的。下面详细说明推导的过程。(4)式综合起来可以写成:
取似然函数为:
对数似然函数为:
最大似然估计就是要求得使l(θ)取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将J(θ)取为(6)式,即:
因为乘了一个负的系数-1/m,所以J(θ)取最小值时的θ为要求的最佳参数。
2.3 梯度下降法求J(θ)的最小值
求J(θ)的最小值可以使用梯度下降法,根据梯度下降法可得θ的更新过程:
式中为α学习步长,下面来求偏导:
上式求解过程中用到如下的公式:
因此,(11)式的更新过程可以写成:
因为式中α本来为一常量,所以1/m一般将省略,所以最终的θ更新过程为:
另外,补充一下,3.2节中提到求得l(θ)取最大值时的θ也是一样的,用梯度上升法求(9)式的最大值,可得:
观察上式发现跟(14)是一样的,所以,采用梯度上升发和梯度下降法是完全一样的,这也是《机器学习实战》中采用梯度上升法的原因。
2.4 梯度下降过程向量化
关于θ更新过程的vectorization,Andrew Ng的课程中只是一带而过,没有具体的讲解。
《机器学习实战》连Cost函数及求梯度等都没有说明,所以更不可能说明vectorization了。但是,其中给出的实现代码确是实现了vectorization的,图4所示代码的32行中weights(也就是θ)的更新只用了一行代码,直接通过矩阵或者向量计算更新,没有用for循环,说明确实实现了vectorization,具体代码下一章分析。
文献[3]中也提到了vectorization,但是也是比较粗略,很简单的给出vectorization的结果为:
且不论该更新公式正确与否,这里的Σ(...)是一个求和的过程,显然需要一个for语句循环m次,所以根本没有完全的实现vectorization,不像《机器学习实战》的代码中一条语句就可以完成θ的更新。
下面说明一下我理解《机器学习实战》中代码实现的vectorization过程。
约定训练数据的矩阵形式如下,x的每一行为一条训练样本,而每一列为不同的特称取值:
约定待求的参数θ的矩阵形式为:
先求x.θ并记为A:
求hθ(x)-y并记为E:
g(A)的参数A为一列向量,所以实现g函数时要支持列向量作为参数,并返回列向量。由上式可知hθ(x)-y可以由g(A)-y一次计算求得。
再来看一下(15)式的θ更新过程,当j=0时:
同样的可以写出θj,
综合起来就是:
综上所述,vectorization后θ更新的步骤如下:
(1)求A=x.θ;
(2)求E=g(A)-y;
(3)求θ:=θ-α.x'.E,x'表示矩阵x的转置。
也可以综合起来写成:
前面已经提到过:1/m是可以省略的。
3. 代码分析
图4中是《机器学习实战》中给出的部分实现代码。
图4
sigmoid函数就是前文中的g(z)函数,参数inX可以是向量,因为程序中使用了Python的numpy。
gradAscent函数是梯度上升的实现函数,参数dataMatin和classLabels为训练数据,23和24行对训练数据做了处理,转换成numpy的矩阵类型,同时将横向量的classlabels转换成列向量labelMat,此时的dataMatrix和labelMat就是(18)式中的x和y。alpha为学习步长,maxCycles为迭代次数。weights为n维(等于x的列数)列向量,就是(19)式中的θ。
29行的for循环将更新θ的过程迭代maxCycles次,每循环一次更新一次。对比3.4节最后总结的向量化的θ更新步骤,30行相当于求了A=x.θ和g(A),31行相当于求了E=g(A)-y,32行相当于求θ:=θ-α.x'.E。所以这三行代码实际上与向量化的θ更新步骤是完全一致的。
本文来自:https://blog.csdn.net/nowfuture/article/details/81840871?utm_source=copy
逻辑回归原理详细推导相关推荐
- 逻辑回归原理及其推导
转自:https://blog.csdn.net/nageaixiaodenanhai/article/details/81592713 逻辑回归原理 逻辑回归是利用回归类似的方法来解决分类问题.假设 ...
- 逻辑回归原理及推导过程
这篇文章将详细地讲解逻辑回归的推导过程. 原理: 逻辑回归处理的是分类问题,具体来说,是处理二分类问题.为了实现逻辑回归分类器,我们可以在线性回归的基础上(即每个特征乘以一个回归系数后相加),添加一个 ...
- 逻辑回归原理以及推导
1.之前听其他面试者说,遇到过写LR中损失函数的推导,也就是从概率一般式 开始,运用似然函数求解概率最大(被问到:为什么可以用似然函数.答:因为目标是要让预测为正的的概率最大,且预测为负的概率也最大 ...
- 【TensorFlow】逻辑回归原理与实现(超详细)
逻辑回归原理与实现 学习目标 1. 神经网络基础 1.1 Logistic回归 1.2 逻辑回归损失函数 2. 梯度下降算法 3. 导数 3.1 导数 3.2 导数计算图 3.3 链式法则 3.4 逻 ...
- 【机器学习】算法原理详细推导与实现(七):决策树算法
[机器学习]算法原理详细推导与实现(七):决策树算法 在之前的文章中,对于介绍的分类算法有逻辑回归算法和朴素贝叶斯算法,这类算法都是二分类的分类器,但是往往只实际问题中yyy不仅仅只有{0,1}\{0 ...
- 逻辑回归原理及spark例子
之前在乐视网的时候组内有同事的挖掘工作用到逻辑回归,最近利用零散时间看了下逻辑回归的原理.主要参考了https://www.cnblogs.com/pinard/p/6029432.html 这篇文 ...
- 【机器学习】逻辑回归原理介绍
[机器学习]逻辑回归原理介绍 [机器学习]逻辑回归python实现 [机器学习]逻辑回归sklearn实现 Logistic 回归模型是目前广泛使用的学习算法之一,通常用来解决二分类问题,虽然名字中有 ...
- 逻辑回归原理简述及代码实现
Logistic回归 1 逻辑回归原理 1.1 线性回归 1.2 逻辑回归 2 具体过程 2.1 构造预测函数 2.2 构造损失函数J(θ) 2.3 采用梯度下降算法minJ(θ) 2.4 采用向量化 ...
- python实现逻辑回归的流程_逻辑回归原理及其python实现
September 28, 2018 7 min to read 逻辑回归原理及其python实现 原理 逻辑回归模型: $h_{\theta}(x)=\frac{1}{1+e^{-{\theta}^ ...
最新文章
- oracle数据库的详细安装,Oracle 11g数据库详细安装图文教程
- MyEclipse自定义servlet模板
- 什么是认证、授权、会话
- C# 加载C++的dll
- chrome里面的一些小技巧
- 尴尬!苹果公司首开官方微博 迎接它的却是无穷无尽的吐槽...
- google支付接入PHP语言,PHP语言开发Paypal支付demo的具体实现
- python读usb_使用Python来操作Microchip安全芯片
- Linux安装和卸载MySQL数据库
- Richard Hamming:You and your research
- Python爬虫反爬方法
- java-php-python-ssm医院诊疗信息管理计算机毕业设计
- 为什么创造 Charj 语言?从十年以后的编程说起
- 实现IE6、IE7、IE8多版本浏览器共存
- 爬虫实战-链家北京房租数据
- HPE服务器使用ILO5安装系统
- 微信小程序云开发教程-互联网软件产品开发流程和团队分工
- 转载关于KeyPress和KeyDown事件的区别和联系
- 使用H-lua框架制作魔兽争霸地图(1-准备阶段)
- C语言数字图像处理----3.2 图像边缘检测之Canny边缘检测算法