损失函数：逻辑回归损失函数推导简记

2024-05-10 05:07:06

这里只推导逻辑回归的损失公式。

假设函数

hθ(x)=11+e−θTx(假设函数)h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} \tag{假设函数} hθ(x)=1+e−θTx1(假设函数)

用于二分类

KaTeX parse error: Undefined control sequence: \mbox at position 41: …\theta( x), & \̲m̲b̲o̲x̲{if }y=1 \\ (1-…

总结：如果我们取对数和负值，可以代表对应的成本函数。和似然函数相反的方向。（log只是利于计算）。
KaTeX parse error: Undefined control sequence: \mbox at position 56: …theta( x)), & \̲m̲b̲o̲x̲{if }y=1 \\ -lo…

统一公式

我们找到联合概率公式：
p(y∣x,θ)=hθ(x)y⋅(1−hθ(x))1−y,(统一概率)p(y|x,\theta) = h_\theta( x)^{y} \cdot (1-h_\theta(x))^{1-y}, \tag{统一概率} p(y∣x,θ)=hθ(x)y⋅(1−hθ(x))1−y,(统一概率)

最大似然

最大似然就是最大化的所有样本的概率公式：
L(θ)=∏i=1mp(yi∣xi,θ)(最大似然)L(\theta) = \prod_{i=1}^{m}p(y_i|x_i,\theta)\tag{最大似然} L(θ)=i=1∏mp(yi∣xi,θ)(最大似然)

对数-最大似然

对数最大似然就是最大化的所有样本的概率公式：
L(θ)=∑i=1mlogp(yi∣xi,θ)=∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]L(\theta) = \sum_{i=1}^{m}log p(y_i|x_i,\theta)= \sum_{i=1}^{m}[ {y_i} log(h_\theta( x_i))+{(1-y_i)}log(1-h_\theta( x_i))] L(θ)=i=1∑mlogp(yi∣xi,θ)=i=1∑m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]

我们的目标是最大化似然函数。如果转化为损失函数，那就是最小化。

损失函数J（loss function）

J=−1mL(θ)=−1m∑i=1m[yiloghθ(xi)+(1−yi)log(1−hθ(xi))]J = -\frac{1}{m} L(\theta) \\ = -\frac{1}{m}\sum_{i=1}^{m}[{y_i} log h_\theta( x_i)+{(1-y_i)}log(1-h_\theta( x_i))] J=−m1L(θ)=−m1i=1∑m[yiloghθ(xi)+(1−yi)log(1−hθ(xi))]

##参数迭代公式
θj:=θj−α∗∑i=1m(h(x(i)−y(i))(xj(i))\theta_j:=\theta_j - \alpha*\sum_{i=1}^{m} (h(x^{(i)}-y^{(i)})(x_j^{(i)}) θj:=θj−α∗i=1∑m(h(x(i)−y(i))(xj(i))

解释：

参数第j个分量的更新，和每个样例都有关系。
如果m取全部，则是用所有数据来更新分量j
m=1则是用一个实例来更新参数，也就是随机梯度下降。
更新的量，与速率、当前实例的j分量、误差值（假设-当前）共同决定。

总结

一般的学习模型的三个重要步骤：

寻找h函数（即预测函数）；比如逻辑回归的 f(w,b)；线性之后多了一个激活。
构造J函数（损失函数）；不同的损失函数，代表了不同的优化方向。比如：逻辑回归如果用最小方差来作为评价函数，则容易导致局部最优。
想办法使得J函数最小并求得回归参数（θ）；各种数值优化方法，随机梯度下降；牛顿法等。
简称：找目标、定方向、执行解决。

参考

https://blog.csdn.net/iterate7/article/details/76709492

损失函数：逻辑回归损失函数推导简记相关推荐

逻辑回归损失函数推导及其模型的推导
注:本篇文章求解思路.过程均为原创,本文出现的文字.公式等均为对照原计算手稿逐字手敲,绝无复制粘贴学术不端之举,转载请注明URL以及出处. 1.什么是逻辑回归? Logistic−Regression ...
线性回归和逻辑回归损失函数推导
线性回归和逻辑回归损失函数推导 @(数据挖掘) 线性回归和逻辑回归损失函数推导一.线性回归最小二乘loss推导二.logistics回归加sigmoid原因以及交叉熵损失函数推导一.线性回归最小 ...
逻辑回归损失函数推导及求导
优点实现简单: 分类时计算量非常小,速度很快,存储资源低: 缺点容易欠拟合,一般准确度不太高只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分损失函数逻辑 ...
逻辑回归损失函数和对数损失函数的关系
这篇文章的目的是要记录一下自己学习对数损失函数时的一些疑惑,以及自己对疑惑的理解.这部分理解主要参考了下面这篇博客 https://www.cnblogs.com/zhangchaoyang/arti ...
对逻辑回归损失函数进行求导
如果我们基于逻辑回归的损失函数做GD梯度下降,那么就要求梯度,而我们知道求梯度是loss损失函数对theta求偏导. 1.首先先对逻辑回归函数求导(后面对loss求偏导会用到) 2.逻辑回归损失函数 ...
逻辑回归损失函数与最大似然估计
机器学习的损失函数是人为设计的,用于评判模型好坏(对未知的预测能力)的一个标准.尺子,就像去评判任何一件事物一样,从不同角度看往往存在不同的评判标准,不同的标准往往各有优劣,并不冲突.唯一需要注意的就 ...
逻辑回归损失函数通常是凸函数（附平方差损失的非凸证明以及交叉熵损失函数求导）
Q:为什么逻辑回归损失函数往往要求是凸函数?(此处凸函数是指下凸,国内和国外凸函数的标准不一样,是相反的,吴恩达的机器学习课程凸函数是指下凸) A:如果损失函数是非凸的,使用梯度下降法优化时,最后得到 ...
【逻辑回归算法】{2} ——逻辑回归损失函数的梯度
目标:求出逻辑回归损失函数的最小值. 逻辑回归的损失函数: 逻辑回归损失函数的梯度: 计算预测函数Sigmoid函数的导数: 代入: 计算过程: 最后得出逻辑回归损失函数的梯度: 回顾一下线性回归代价 ...
逻辑回归损失函数为啥不用最小二乘法
机器学习的损失函数是人为设计的,用于评判模型好坏(对未知的预测能力)的一个标准.尺子,就像去评判任何一件事物一样,从不同角度看往往存在不同的评判标准,不同的标准往往各有优劣,并不冲突.唯一需要注意的就 ...
二元逻辑回归 · 数学推导过程及代码实现完全解析
文章目录概述两个重要函数预测的基本思想二元逻辑回归线性模型的简单回顾从线性回归到二元逻辑回归参数怎么估计梯度下降牛顿迭代最近修改:2021/6/17 原文<从二元逻辑回归到多 ...

最新文章

热门文章