损失函数:逻辑回归损失函数 推导简记
这里只推导逻辑回归的损失公式。
假设函数
hθ(x)=11+e−θTx(假设函数)h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} \tag{假设函数} hθ(x)=1+e−θTx1(假设函数)
用于二分类
KaTeX parse error: Undefined control sequence: \mbox at position 41: …\theta( x), & \̲m̲b̲o̲x̲{if }y=1 \\ (1-…
总结:如果我们取对数和负值,可以代表对应的成本函数。和似然函数相反的方向。(log只是利于计算)。
KaTeX parse error: Undefined control sequence: \mbox at position 56: …theta( x)), & \̲m̲b̲o̲x̲{if }y=1 \\ -lo…
统一公式
我们找到联合概率公式:
p(y∣x,θ)=hθ(x)y⋅(1−hθ(x))1−y,(统一概率)p(y|x,\theta) = h_\theta( x)^{y} \cdot (1-h_\theta(x))^{1-y}, \tag{统一概率} p(y∣x,θ)=hθ(x)y⋅(1−hθ(x))1−y,(统一概率)
最大似然
最大似然就是最大化的所有样本的概率公式:
L(θ)=∏i=1mp(yi∣xi,θ)(最大似然)L(\theta) = \prod_{i=1}^{m}p(y_i|x_i,\theta)\tag{最大似然} L(θ)=i=1∏mp(yi∣xi,θ)(最大似然)
对数-最大似然
对数最大似然就是最大化的所有样本的概率公式:
L(θ)=∑i=1mlogp(yi∣xi,θ)=∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]L(\theta) = \sum_{i=1}^{m}log p(y_i|x_i,\theta)= \sum_{i=1}^{m}[ {y_i} log(h_\theta( x_i))+{(1-y_i)}log(1-h_\theta( x_i))] L(θ)=i=1∑mlogp(yi∣xi,θ)=i=1∑m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]
我们的目标是最大化似然函数。 如果转化为损失函数,那就是最小化。
损失函数J(loss function)
J=−1mL(θ)=−1m∑i=1m[yiloghθ(xi)+(1−yi)log(1−hθ(xi))]J = -\frac{1}{m} L(\theta) \\ = -\frac{1}{m}\sum_{i=1}^{m}[{y_i} log h_\theta( x_i)+{(1-y_i)}log(1-h_\theta( x_i))] J=−m1L(θ)=−m1i=1∑m[yiloghθ(xi)+(1−yi)log(1−hθ(xi))]
##参数迭代公式
θj:=θj−α∗∑i=1m(h(x(i)−y(i))(xj(i))\theta_j:=\theta_j - \alpha*\sum_{i=1}^{m} (h(x^{(i)}-y^{(i)})(x_j^{(i)}) θj:=θj−α∗i=1∑m(h(x(i)−y(i))(xj(i))
解释:
- 参数第j个分量的更新,和每个样例都有关系。
- 如果m取全部,则是用所有数据来更新分量j
- m=1则是用一个实例来更新参数,也就是随机梯度下降。
- 更新的量,与速率、当前实例的j分量、误差值(假设-当前)共同决定。
总结
一般的学习模型的三个重要步骤:
- 寻找h函数(即预测函数);比如逻辑回归的 f(w,b);线性之后多了一个激活。
- 构造J函数(损失函数);不同的损失函数,代表了不同的优化方向。比如:逻辑回归如果用最小方差来作为评价函数,则容易导致局部最优。
- 想办法使得J函数最小并求得回归参数(θ);各种数值优化方法,随机梯度下降;牛顿法等。
简称:找目标、定方向、执行解决。
参考
https://blog.csdn.net/iterate7/article/details/76709492
损失函数:逻辑回归损失函数 推导简记相关推荐
- 逻辑回归损失函数推导及其模型的推导
注:本篇文章求解思路.过程均为原创,本文出现的文字.公式等均为对照原计算手稿逐字手敲,绝无复制粘贴学术不端之举,转载请注明URL以及出处. 1.什么是逻辑回归? Logistic−Regression ...
- 线性回归和逻辑回归损失函数推导
线性回归和逻辑回归损失函数推导 @(数据挖掘) 线性回归和逻辑回归损失函数推导 一.线性回归最小二乘loss推导 二.logistics回归加sigmoid原因以及交叉熵损失函数推导 一.线性回归最小 ...
- 逻辑回归损失函数推导及求导
优点 实现简单: 分类时计算量非常小,速度很快,存储资源低: 缺点 容易欠拟合,一般准确度不太高 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分 损失函数 逻辑 ...
- 逻辑回归损失函数和对数损失函数的关系
这篇文章的目的是要记录一下自己学习对数损失函数时的一些疑惑,以及自己对疑惑的理解.这部分理解主要参考了下面这篇博客 https://www.cnblogs.com/zhangchaoyang/arti ...
- 对逻辑回归损失函数进行求导
如果我们基于逻辑回归的损失函数做GD梯度下降,那么就要求梯度,而我们知道求梯度是loss损失函数对theta求偏导. 1.首先先对逻辑回归函数求导(后面对loss求偏导会用到) 2.逻辑回归损失函数 ...
- 逻辑回归损失函数与最大似然估计
机器学习的损失函数是人为设计的,用于评判模型好坏(对未知的预测能力)的一个标准.尺子,就像去评判任何一件事物一样,从不同角度看往往存在不同的评判标准,不同的标准往往各有优劣,并不冲突.唯一需要注意的就 ...
- 逻辑回归损失函数通常是凸函数(附平方差损失的非凸证明以及交叉熵损失函数求导)
Q:为什么逻辑回归损失函数往往要求是凸函数?(此处凸函数是指下凸,国内和国外凸函数的标准不一样,是相反的,吴恩达的机器学习课程凸函数是指下凸) A:如果损失函数是非凸的,使用梯度下降法优化时,最后得到 ...
- 【逻辑回归算法】{2} ——逻辑回归损失函数的梯度
目标:求出逻辑回归损失函数的最小值. 逻辑回归的损失函数: 逻辑回归损失函数的梯度: 计算预测函数Sigmoid函数的导数: 代入: 计算过程: 最后得出逻辑回归损失函数的梯度: 回顾一下线性回归代价 ...
- 逻辑回归损失函数为啥不用最小二乘法
机器学习的损失函数是人为设计的,用于评判模型好坏(对未知的预测能力)的一个标准.尺子,就像去评判任何一件事物一样,从不同角度看往往存在不同的评判标准,不同的标准往往各有优劣,并不冲突.唯一需要注意的就 ...
- 二元逻辑回归 · 数学推导过程及代码实现完全解析
文章目录 概述 两个重要函数 预测的基本思想 二元逻辑回归 线性模型的简单回顾 从线性回归到二元逻辑回归 参数怎么估计 梯度下降 牛顿迭代 最近修改:2021/6/17 原文<从二元逻辑回归到多 ...
最新文章
- shell脚本提取服务器一段时间的日志并输出异常结果
- 二十年后的回眸(2)——顺风顺水的前三年
- 利用CSS的三列等高布局
- network programming-简单的TCP客户服务器编程
- 112. 路径总和 golang
- 论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划
- css3自适应布局单位vw,vh你知道多少?
- 生产中k8s适合mysql_在K8S集群中构建复杂的MySQL单实例数据库
- Oracle Bitmap 索引结构、如何存储及其优势
- kettle将excel导入数据库_Kettle从excel导入数据到sql server
- 520 miix 小兵 黑苹果_黑苹果资源
- 网页版扫雷 -- React练习
- 51单片机毕业设计题目大全
- 鸿蒙开发之拨打电话号码
- iTunes 12.7降级
- kubernetes dns详解
- opencv (五十四)ORB特征点
- python爬取链家租房信息_Python爬取链家网上海市租房信息
- 【论文笔记】Program synthesis using natural language
- 论简历解析及其步骤(一)步骤及理论
热门文章
- android 模拟回车,Appium模拟键盘Enter解决方法
- CC2642 HCI接口使用
- 使用POI读写微软文件
- “from . import (constants, error, message, context, ImportError: DLL load failed: 找不到指定的模块”的解决办法
- vue基础--模板语法、常用指令:v-if、v-show、v-for、虚拟DOM、v-once、v-cloak、v-text、v-html、v-bind、v-on、自定义指令
- 引入antd组件样式_antd组件样式局部加载,用react-app-rewired插件应该怎么配置?...
- API接口响应速度突然变慢的原因及解决方案
- Typora最后一个免费版
- convert , transform , transfer , transmit ,transit 的区别
- 独热编码与交叉熵损失函数