第三章 线性模型

2022/5/16 雾切凉宫 至3.2节/视频P3

文章目录

  • 第三章 线性模型
    • 3.1 基本形式
    • 3.2 线性回归
      • P2 一元线性回归
        • P2.1 最小二乘法
        • P2.2 极大似然估计
          • 误差ε
          • 极大似然估计解法
        • P2.3 求解w和b
        • P2.4 机器学习三要素
      • P3 多元线性回归
        • P3.1 由最小二乘法导出w

3.1 基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即
f ( x ) = w 1 x 1 + w 2 x 2 + … … + w d x d + b f(x)=w_1x_1+w_2x_2+……+w_dx_d+b f(x)=w1​x1​+w2​x2​+……+wd​xd​+b
向量形式
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
w和b学得之后,模型就得以确定。

3.2 线性回归

数据集D:
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … … ( x m , y m ) , } D=\{(x_1,y_1),(x_2,y_2),……(x_m,y_m),\} D={(x1​,y1​),(x2​,y2​),……(xm​,ym​),}
其中:
x i = ( x i 1 ; x i 2 ; … … ; x i d ) x_i=(x_{i1};x_{i2};……;x_{id}) xi​=(xi1​;xi2​;……;xid​)

P2 一元线性回归

p2指的是datawhale吃瓜教程视频p2

P2.1 最小二乘法

均方误差(损失函数):
E ( w , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − w x i − b ) 2 E(w,b)=\sum_{i=1}^m(y_i-f(x_i))^2=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=i=1∑m​(yi​−f(xi​))2=i=1∑m​(yi​−wxi​−b)2
均方误差损失函数与“欧式距离”相同,基于均方误差求解模型称为最小二乘法
( w , b ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w,b)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w,b)=argmin(w,b)​i=1∑m​(yi​−wxi​−b)2
P.S. argmin指后面式子取最小值时(w,b)的值!

P2.2 极大似然估计

极大似然原理:使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数) L(θ)取到最大值的θ*即为θ的估计值。
x 1 , x 2 , x 3 … … , x n 是 n 个 独 立 同 分 布 的 样 本 , x 已 知 θ 未 知 x_1,x_2,x_3……,x_n是n个独立同分布的样本,x已知θ未知 x1​,x2​,x3​……,xn​是n个独立同分布的样本,x已知θ未知
他们的联合概率为(似然函数):

说人话:让L(θ)最大的θ值即为待求分布参数θ的值

P.S:分布参数:如正态分布N(μ,σ^2)。
一 般 的 , 使 用 l n L ( θ ) 代 替 L ( θ ) 以 简 化 连 乘 项 一般的,使用lnL(θ)代替L(θ)以简化连乘项 一般的,使用lnL(θ)代替L(θ)以简化连乘项

误差ε

线性回归模型为:
y = w x + b + ε y=wx+b+ε y=wx+b+ε
ε为不受控制的随机误差,通常假设其服从正态分布ε~N(0,σ^2)

故ε的概率分布函数为:
p ( ε ) = 1 2 π σ e − ε 2 2 σ 2 p(ε)=\frac{1}{\sqrt{2π}σ}e^{-\frac{ε^2}{2σ^2}} p(ε)=2π ​σ1​e−2σ2ε2​
进而可知:
p ( y ) = 1 2 π σ e − ( y − ( w x + b ) ) 2 2 σ 2 p(y)=\frac{1}{\sqrt{2π}σ}e^{-\frac{(y-(wx+b))^2}{2σ^2}} p(y)=2π ​σ1​e−2σ2(y−(wx+b))2​

极大似然估计解法

上式可看做y~N(wx+b,σ^2),写出似然函数L(w,b):

根据最大似然理论,求似然函数L(w,b)取最大值时(w,b)的取值。

由于上式中第一项为常数,所以问题简化为求第二项的最大值:
( w ∗ , b ∗ ) = a r g m a x ( w , b ) l n L ( w , b ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=argmax_{(w,b)}lnL(w,b)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w∗,b∗)=argmax(w,b)​lnL(w,b)=argmin(w,b)​i=1∑m​(yi​−wxi​−b)2
可见所得结果与之前使用最小二乘法所得结果一致

P2.3 求解w和b

由之前最小二乘法与极大似然估计法都得出同一个结果:
( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2 (w∗,b∗)=argmin(w,b)​i=1∑m​(yi​−wxi​−b)2

E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E(w,b)=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=i=1∑m​(yi​−wxi​−b)2

对于E(w,b)为凸函数的证明这里不再赘述。

分别对w和b求导:
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial{E(w,b)}}{\partial{w}}=2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i) ∂w∂E(w,b)​=2(wi=1∑m​xi2​−i=1∑m​(yi​−b)xi​)

∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial{E(w,b)}}{\partial{b}}=2(mb-\sum_{i=1}^m(y_i-wx_i)) ∂b∂E(w,b)​=2(mb−i=1∑m​(yi​−wxi​))

由于▽E(w,b)=0时函数取最小值,代入上述二式得:
w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\displaystyle\sum_{i=1}^my_i(x_i-\overline{x})}{\displaystyle\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2} w=i=1∑m​xi2​−m1​(i=1∑m​xi​)2i=1∑m​yi​(xi​−x)​

b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) b=m1​i=1∑m​(yi​−wxi​)

P2.4 机器学习三要素

  1. 模型:根据具体问题,确定假设空间
  2. 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”
  3. 算法:求解损失函数,确定最优模型

P3 多元线性回归

P3.1 由最小二乘法导出w

模型为:
f ( x i ) = [ w 1 w 2 … w d b ] [ x i 1 x i 2 ⋮ x i d 1 ] f(x_i)=\begin{bmatrix}w_1 & w_2…w_d & b\end{bmatrix}\begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{id} \\ 1 \\ \end{bmatrix} f(xi​)=[w1​​w2​…wd​​b​]⎣⎢⎢⎢⎢⎢⎡​xi1​xi2​⋮xid​1​⎦⎥⎥⎥⎥⎥⎤​
简写为:
f ( x i ^ ) = w T ^ x i ^ f(\hat{x_i})=\hat{w^T}\hat{x_i} f(xi​^​)=wT^xi​^​
最小二乘法可得损失函数E(w)
E ( w ^ ) = ∑ i = 1 m ( y i − f ( x i ^ ) ) 2 = ∑ i = 1 m ( y i − w T ^ x i ^ ) 2 E(\hat{w})=\sum_{i=1}^m(y_i-f(\hat{x_i}))^2=\sum_{i=1}^m(y_i-\hat{w^T}\hat{x_i})^2 E(w^)=i=1∑m​(yi​−f(xi​^​))2=i=1∑m​(yi​−wT^xi​^​)2
向量化损失函数E(w)

举个例子:
a 2 + b 2 = [ a , b ] [ a b ] a^2+b^2=[a,b]\begin{bmatrix}a\\b\end{bmatrix} a2+b2=[a,b][ab​]
所以损失函数E(w)可化简为:
E ( w ^ ) = [ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ … y m − w ^ T x m ^ ] [ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ ⋮ y m − w ^ T x m ^ ] E(\hat{w})=\begin{bmatrix}y_1-\hat{w}^T\hat{x_1} & y_2-\hat{w}^T\hat{x_2}…y_m-\hat{w}^T\hat{x_m}\end{bmatrix} \begin{bmatrix} y_1-\hat{w}^T\hat{x_1} \\ y_2-\hat{w}^T\hat{x_2} \\ \vdots \\ y_m-\hat{w}^T\hat{x_m} \end{bmatrix} E(w^)=[y1​−w^Tx1​^​​y2​−w^Tx2​^​…ym​−w^Txm​^​​]⎣⎢⎢⎢⎡​y1​−w^Tx1​^​y2​−w^Tx2​^​⋮ym​−w^Txm​^​​⎦⎥⎥⎥⎤​
又对上式中最后的列向量可以化简:

[ y 1 − w ^ T x 1 ^ y 2 − w ^ T x 2 ^ ⋮ y m − w ^ T x m ^ ] = [ y 1 y 2 ⋮ y m ] [ w ^ T x 1 ^ w ^ T x 2 ^ ⋮ w ^ T x m ^ ] = y − X w ^ \begin{bmatrix} y_1-\hat{w}^T\hat{x_1} \\ y_2-\hat{w}^T\hat{x_2} \\ \vdots \\ y_m-\hat{w}^T\hat{x_m} \end{bmatrix}= \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} \begin{bmatrix} \hat{w}^T\hat{x_1} \\ \hat{w}^T\hat{x_2} \\ \vdots \\ \hat{w}^T\hat{x_m} \end{bmatrix} =y-X\hat{w} ⎣⎢⎢⎢⎡​y1​−w^Tx1​^​y2​−w^Tx2​^​⋮ym​−w^Txm​^​​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​y1​y2​⋮ym​​⎦⎥⎥⎥⎤​⎣⎢⎢⎢⎡​w^Tx1​^​w^Tx2​^​⋮w^Txm​^​​⎦⎥⎥⎥⎤​=y−Xw^
最终**损失函数E(w)**为:
E ( w ^ ) = ( y − X w ^ ) T ( y − X w ^ ) E(\hat{w})=(y-X\hat{w})^T(y-X\hat{w}) E(w^)=(y−Xw^)T(y−Xw^)
求w的问题转化为:
w ^ = a r g m i n w ^ E ( w ^ ) = a r g m i n w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat{w}=argmin_{\hat{w}}E(\hat{w})=argmin_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w}) w^=argminw^​E(w^)=argminw^​(y−Xw^)T(y−Xw^)
同样对于E(w)为凸函数的证明这里不再赘述。

对w求导得:
∂ E ( w ^ ) ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial{E(\hat{w})}}{\partial{\hat{w}}}=2X^T(X\hat{w}-y) ∂w^∂E(w^)​=2XT(Xw^−y)

由于▽E(w)=0时函数取最小值,代入上式得:
w ^ ∗ = ( X T X ) − 1 X T y \hat{w}^*=(X^TX)^{-1}X^Ty w^∗=(XTX)−1XTy

吃瓜教程task02 第3章 线性模型相关推荐

  1. (机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task02

    目录 第三章 线性模型 3.1基本形式 3.3对数几率回归 3.5 多分类学习 第三章 线性模型 3.1基本形式 解读:计算不同特征xi的权重,加上截距b,训练出线形模型 为什么要加上截距?举例:如果 ...

  2. 吃瓜教程——第1,2章

    第1章 :绪论 1.2基本术语 一批西瓜的数据: (色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉 闷), (色泽=浅白;根蒂 硬挺;敲声=清脆), -- 每对括号内代表一 ...

  3. 吃瓜教程task03 第4章 决策树

    第四章 决策树 2022/5/26 雾切凉宫 至4.2节/视频P6 文章目录 第四章 决策树 4.1 基本流程 p6 决策树 p6.1 算法原理 4.2划分选择 p6.2 ID3决策树 自信息 信息熵 ...

  4. 吃瓜教程task05 第6章 支持向量机

    第6章 支持向量机 2022/6/2 雾切凉宫 至6.5节/视频P9 文章目录 第6章 支持向量机 6.1 间隔与支持向量 p8 支持向量机 超平面 几何间隔 支持向量机 6.2 对偶问题 凸优化问题 ...

  5. 吃瓜教程task04 第5章 神经网络

    第5章 神经网络 2022/5/28 雾切凉宫 至5.3节/视频P7 文章目录 第5章 神经网络 5.1 神经元模型 p7 神经网络 p7.1 M-P神经元 5.2 感知机与多层网络 p7.2 感知机 ...

  6. 吃瓜教程task01 第2章 模型评估与选择

    第二章 模型评估与选择 2022/5/15 雾切凉宫 至2.3.3节 2.1 经验误差与过拟合 中文名 英文名 意义 训练误差/经验误差 training error/empirical error ...

  7. 吃瓜教程task01 第1章 绪论

    第一章 绪论 2022/5/15 雾切凉宫 1.2 基本术语 中文名 英文名 意义 数据集 data set 一组记录的集合 示例/样本/特征向量 instance/sample/feature ve ...

  8. 【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

    [吃瓜教程]<机器学习公式详解>西瓜书与南瓜书公式推导 2021年7月11日 第0章-导学 深度学习:狭义地来说,就是具有较多层的神经网络. 整个学习过程; 先看西瓜书,在看 Datawh ...

  9. 【组队学习】【35期】吃瓜教程——西瓜书+南瓜书

    吃瓜教程--西瓜书+南瓜书 航路开辟者:谢文睿.秦州 领航员:凌亮 航海士:谢文睿.秦州 基本信息 开源内容:https://github.com/datawhalechina/pumpkin-boo ...

最新文章

  1. 在ThinkPad W500 A98上升级Windows 7以及安装硬件驱动和相关程序(2/2)
  2. 窗口最小化之后没有图标
  3. jquery lt选择器与gt选择器
  4. floyd算法和动态规划
  5. 159个故事串起三千年大历史!这套“儿童版史记”太无敌了!
  6. yolov4论文_Alexey 大神接棒,YOLOv4 重磅来袭!快来一睹论文真容吧!| 原力计划...
  7. 实现深拷贝的几种方法
  8. Tail Recursion尾递归
  9. Symbian手记【三】 —— Symbian的描述符
  10. 给你出道题---N个数字的静态决策区分问题
  11. Recast源码解析(二):NavMesh导航网格生成原理(上)
  12. bing搜索崩溃无法访问?别慌,我来教你各大搜索引擎的选择
  13. Linux下自动化运维工具ansible
  14. 160个CrackMe 077 firework2
  15. 快速学习-处理响应数据
  16. RK3326 8.1 otg和host切换
  17. 开始甲骨文培训了,第一天说了一下上课学习规矩及计算机基础
  18. C#-属性和方法的Fody的使用(AOP)
  19. 高精度直线度测量仪设计问题
  20. iOS应用之微信支付集成-直接前端集成

热门文章

  1. ES6快速入门(三)类与模块
  2. 破解爆款网文的问题,三步教你绘制大厂标准状态图(第一篇)
  3. 分布式系统构建多地互联新型指挥中心解决方案|AVMEDIA
  4. 【翻译】Yii2 第2章 用Yii2创建自定义应用(第1部分)
  5. Flink CDC 系列(7)—— 从 MySQL 到 ElasticSearch
  6. POSTGRESQL 从越来越多的ORACLE DBA 考取 PG 证书, 回顾2019- 2022
  7. 手把手教你从零开始搭建Amazon Advertising-API开发环境(二)之获取SP广告数据
  8. js判断是否为微信浏览器(vue、react)
  9. Latex如何在表格下方显示注脚
  10. winform的子窗体关闭刷新主窗体绑定数据以及刷新的总结