吃瓜教程task02 第3章 线性模型
第三章 线性模型
2022/5/16 雾切凉宫 至3.2节/视频P3
文章目录
- 第三章 线性模型
- 3.1 基本形式
- 3.2 线性回归
- P2 一元线性回归
- P2.1 最小二乘法
- P2.2 极大似然估计
- 误差ε
- 极大似然估计解法
- P2.3 求解w和b
- P2.4 机器学习三要素
- P3 多元线性回归
- P3.1 由最小二乘法导出w
3.1 基本形式
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即
f ( x ) = w 1 x 1 + w 2 x 2 + … … + w d x d + b f(x)=w_1x_1+w_2x_2+……+w_dx_d+b f(x)=w1x1+w2x2+……+wdxd+b
向量形式:
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
w和b学得之后,模型就得以确定。
3.2 线性回归
数据集D:
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … … ( x m , y m ) , } D=\{(x_1,y_1),(x_2,y_2),……(x_m,y_m),\} D={(x1,y1),(x2,y2),……(xm,ym),}
其中:
x i = ( x i 1 ; x i 2 ; … … ; x i d ) x_i=(x_{i1};x_{i2};……;x_{id}) xi=(xi1;xi2;……;xid)
P2 一元线性回归
p2指的是datawhale吃瓜教程视频p2
P2.1 最小二乘法
均方误差(损失函数):
E ( w , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − w x i − b ) 2 E(w,b)=\sum_{i=1}^m(y_i-f(x_i))^2=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=i=1∑m(yi−f(xi))2=i=1∑m(yi−wxi−b)2
均方误差损失函数与“欧式距离”相同,基于均方误差求解模型称为最小二乘法
( w , b ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w,b)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w,b)=argmin(w,b)i=1∑m(yi−wxi−b)2
P.S. argmin指后面式子取最小值时(w,b)的值!
P2.2 极大似然估计
极大似然原理:使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数) L(θ)取到最大值的θ*即为θ的估计值。
x 1 , x 2 , x 3 … … , x n 是 n 个 独 立 同 分 布 的 样 本 , x 已 知 θ 未 知 x_1,x_2,x_3……,x_n是n个独立同分布的样本,x已知θ未知 x1,x2,x3……,xn是n个独立同分布的样本,x已知θ未知
他们的联合概率为(似然函数):
说人话:让L(θ)最大的θ值即为待求分布参数θ的值
P.S:分布参数:如正态分布N(μ,σ^2)。
一 般 的 , 使 用 l n L ( θ ) 代 替 L ( θ ) 以 简 化 连 乘 项 一般的,使用lnL(θ)代替L(θ)以简化连乘项 一般的,使用lnL(θ)代替L(θ)以简化连乘项
误差ε
线性回归模型为:
y = w x + b + ε y=wx+b+ε y=wx+b+ε
ε为不受控制的随机误差,通常假设其服从正态分布ε~N(0,σ^2)
故ε的概率分布函数为:
p ( ε ) = 1 2 π σ e − ε 2 2 σ 2 p(ε)=\frac{1}{\sqrt{2π}σ}e^{-\frac{ε^2}{2σ^2}} p(ε)=2π σ1e−2σ2ε2
进而可知:
p ( y ) = 1 2 π σ e − ( y − ( w x + b ) ) 2 2 σ 2 p(y)=\frac{1}{\sqrt{2π}σ}e^{-\frac{(y-(wx+b))^2}{2σ^2}} p(y)=2π σ1e−2σ2(y−(wx+b))2
极大似然估计解法
上式可看做y~N(wx+b,σ^2),写出似然函数L(w,b):
根据最大似然理论,求似然函数L(w,b)取最大值时(w,b)的取值。
由于上式中第一项为常数,所以问题简化为求第二项的最大值:
( w ∗ , b ∗ ) = a r g m a x ( w , b ) l n L ( w , b ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=argmax_{(w,b)}lnL(w,b)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w∗,b∗)=argmax(w,b)lnL(w,b)=argmin(w,b)i=1∑m(yi−wxi−b)2
可见所得结果与之前使用最小二乘法所得结果一致
P2.3 求解w和b
由之前最小二乘法与极大似然估计法都得出同一个结果:
( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w∗,b∗)=argmin(w,b)i=1∑m(yi−wxi−b)2
E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E(w,b)=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=i=1∑m(yi−wxi−b)2
对于E(w,b)为凸函数的证明这里不再赘述。
分别对w和b求导:
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial{E(w,b)}}{\partial{w}}=2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i) ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)
∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial{E(w,b)}}{\partial{b}}=2(mb-\sum_{i=1}^m(y_i-wx_i)) ∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
由于▽E(w,b)=0时函数取最小值,代入上述二式得:
w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\displaystyle\sum_{i=1}^my_i(x_i-\overline{x})}{\displaystyle\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2} w=i=1∑mxi2−m1(i=1∑mxi)2i=1∑myi(xi−x)
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) b=m1i=1∑m(yi−wxi)
P2.4 机器学习三要素
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”
- 算法:求解损失函数,确定最优模型
P3 多元线性回归
P3.1 由最小二乘法导出w
模型为:
f ( x i ) = [ w 1 w 2 … w d b ] [ x i 1 x i 2 ⋮ x i d 1 ] f(x_i)=\begin{bmatrix}w_1 & w_2…w_d & b\end{bmatrix}\begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{id} \\ 1 \\ \end{bmatrix} f(xi)=[w1w2…wdb]⎣⎢⎢⎢⎢⎢⎡xi1xi2⋮xid1⎦⎥⎥⎥⎥⎥⎤
简写为:
f ( x i ^ ) = w T ^ x i ^ f(\hat{x_i})=\hat{w^T}\hat{x_i} f(xi^)=wT^xi^
由最小二乘法可得损失函数E(w):
E ( w ^ ) = ∑ i = 1 m ( y i − f ( x i ^ ) ) 2 = ∑ i = 1 m ( y i − w T ^ x i ^ ) 2 E(\hat{w})=\sum_{i=1}^m(y_i-f(\hat{x_i}))^2=\sum_{i=1}^m(y_i-\hat{w^T}\hat{x_i})^2 E(w^)=i=1∑m(yi−f(xi^))2=i=1∑m(yi−wT^xi^)2
向量化损失函数E(w):
举个例子:
a 2 + b 2 = [ a , b ] [ a b ] a^2+b^2=[a,b]\begin{bmatrix}a\\b\end{bmatrix} a2+b2=[a,b][ab]
所以损失函数E(w)可化简为:
E ( w ^ ) = [ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ … y m − w ^ T x m ^ ] [ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ ⋮ y m − w ^ T x m ^ ] E(\hat{w})=\begin{bmatrix}y_1-\hat{w}^T\hat{x_1} & y_2-\hat{w}^T\hat{x_2}…y_m-\hat{w}^T\hat{x_m}\end{bmatrix} \begin{bmatrix} y_1-\hat{w}^T\hat{x_1} \\ y_2-\hat{w}^T\hat{x_2} \\ \vdots \\ y_m-\hat{w}^T\hat{x_m} \end{bmatrix} E(w^)=[y1−w^Tx1^y2−w^Tx2^…ym−w^Txm^]⎣⎢⎢⎢⎡y1−w^Tx1^y2−w^Tx2^⋮ym−w^Txm^⎦⎥⎥⎥⎤
又对上式中最后的列向量可以化简:
[ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ ⋮ y m − w ^ T x m ^ ] = [ y 1 y 2 ⋮ y m ] [ w ^ T x 1 ^ w ^ T x 2 ^ ⋮ w ^ T x m ^ ] = y − X w ^ \begin{bmatrix} y_1-\hat{w}^T\hat{x_1} \\ y_2-\hat{w}^T\hat{x_2} \\ \vdots \\ y_m-\hat{w}^T\hat{x_m} \end{bmatrix}= \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} \begin{bmatrix} \hat{w}^T\hat{x_1} \\ \hat{w}^T\hat{x_2} \\ \vdots \\ \hat{w}^T\hat{x_m} \end{bmatrix} =y-X\hat{w} ⎣⎢⎢⎢⎡y1−w^Tx1^y2−w^Tx2^⋮ym−w^Txm^⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡y1y2⋮ym⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡w^Tx1^w^Tx2^⋮w^Txm^⎦⎥⎥⎥⎤=y−Xw^
最终**损失函数E(w)**为:
E ( w ^ ) = ( y − X w ^ ) T ( y − X w ^ ) E(\hat{w})=(y-X\hat{w})^T(y-X\hat{w}) E(w^)=(y−Xw^)T(y−Xw^)
求w的问题转化为:
w ^ = a r g m i n w ^ E ( w ^ ) = a r g m i n w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat{w}=argmin_{\hat{w}}E(\hat{w})=argmin_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w}) w^=argminw^E(w^)=argminw^(y−Xw^)T(y−Xw^)
同样对于E(w)为凸函数的证明这里不再赘述。
对w求导得:
∂ E ( w ^ ) ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial{E(\hat{w})}}{\partial{\hat{w}}}=2X^T(X\hat{w}-y) ∂w^∂E(w^)=2XT(Xw^−y)
由于▽E(w)=0时函数取最小值,代入上式得:
w ^ ∗ = ( X T X ) − 1 X T y \hat{w}^*=(X^TX)^{-1}X^Ty w^∗=(XTX)−1XTy
吃瓜教程task02 第3章 线性模型相关推荐
- (机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task02
目录 第三章 线性模型 3.1基本形式 3.3对数几率回归 3.5 多分类学习 第三章 线性模型 3.1基本形式 解读:计算不同特征xi的权重,加上截距b,训练出线形模型 为什么要加上截距?举例:如果 ...
- 吃瓜教程——第1,2章
第1章 :绪论 1.2基本术语 一批西瓜的数据: (色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉 闷), (色泽=浅白;根蒂 硬挺;敲声=清脆), -- 每对括号内代表一 ...
- 吃瓜教程task03 第4章 决策树
第四章 决策树 2022/5/26 雾切凉宫 至4.2节/视频P6 文章目录 第四章 决策树 4.1 基本流程 p6 决策树 p6.1 算法原理 4.2划分选择 p6.2 ID3决策树 自信息 信息熵 ...
- 吃瓜教程task05 第6章 支持向量机
第6章 支持向量机 2022/6/2 雾切凉宫 至6.5节/视频P9 文章目录 第6章 支持向量机 6.1 间隔与支持向量 p8 支持向量机 超平面 几何间隔 支持向量机 6.2 对偶问题 凸优化问题 ...
- 吃瓜教程task04 第5章 神经网络
第5章 神经网络 2022/5/28 雾切凉宫 至5.3节/视频P7 文章目录 第5章 神经网络 5.1 神经元模型 p7 神经网络 p7.1 M-P神经元 5.2 感知机与多层网络 p7.2 感知机 ...
- 吃瓜教程task01 第2章 模型评估与选择
第二章 模型评估与选择 2022/5/15 雾切凉宫 至2.3.3节 2.1 经验误差与过拟合 中文名 英文名 意义 训练误差/经验误差 training error/empirical error ...
- 吃瓜教程task01 第1章 绪论
第一章 绪论 2022/5/15 雾切凉宫 1.2 基本术语 中文名 英文名 意义 数据集 data set 一组记录的集合 示例/样本/特征向量 instance/sample/feature ve ...
- 【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导
[吃瓜教程]<机器学习公式详解>西瓜书与南瓜书公式推导 2021年7月11日 第0章-导学 深度学习:狭义地来说,就是具有较多层的神经网络. 整个学习过程; 先看西瓜书,在看 Datawh ...
- 【组队学习】【35期】吃瓜教程——西瓜书+南瓜书
吃瓜教程--西瓜书+南瓜书 航路开辟者:谢文睿.秦州 领航员:凌亮 航海士:谢文睿.秦州 基本信息 开源内容:https://github.com/datawhalechina/pumpkin-boo ...
最新文章
- 在ThinkPad W500 A98上升级Windows 7以及安装硬件驱动和相关程序(2/2)
- 窗口最小化之后没有图标
- jquery lt选择器与gt选择器
- floyd算法和动态规划
- 159个故事串起三千年大历史!这套“儿童版史记”太无敌了!
- yolov4论文_Alexey 大神接棒,YOLOv4 重磅来袭!快来一睹论文真容吧!| 原力计划...
- 实现深拷贝的几种方法
- Tail Recursion尾递归
- Symbian手记【三】 —— Symbian的描述符
- 给你出道题---N个数字的静态决策区分问题
- Recast源码解析(二):NavMesh导航网格生成原理(上)
- bing搜索崩溃无法访问?别慌,我来教你各大搜索引擎的选择
- Linux下自动化运维工具ansible
- 160个CrackMe 077 firework2
- 快速学习-处理响应数据
- RK3326 8.1 otg和host切换
- 开始甲骨文培训了,第一天说了一下上课学习规矩及计算机基础
- C#-属性和方法的Fody的使用(AOP)
- 高精度直线度测量仪设计问题
- iOS应用之微信支付集成-直接前端集成
热门文章
- ES6快速入门(三)类与模块
- 破解爆款网文的问题,三步教你绘制大厂标准状态图(第一篇)
- 分布式系统构建多地互联新型指挥中心解决方案|AVMEDIA
- 【翻译】Yii2 第2章 用Yii2创建自定义应用(第1部分)
- Flink CDC 系列(7)—— 从 MySQL 到 ElasticSearch
- POSTGRESQL 从越来越多的ORACLE DBA 考取 PG 证书, 回顾2019- 2022
- 手把手教你从零开始搭建Amazon Advertising-API开发环境(二)之获取SP广告数据
- js判断是否为微信浏览器(vue、react)
- Latex如何在表格下方显示注脚
- winform的子窗体关闭刷新主窗体绑定数据以及刷新的总结