• 模式识别概述

    • 1模式识别
    • 2模式识别的几个步骤
    • 3三个任务
    • 4多项式拟合
  • 概率论
    • 1基本概念
    • 2 概率密度
    • 3 期望与协方差以离散变量为例
    • 4 贝叶斯公式
    • 5高斯分布
    • 6 最大似然估计与最大后验概率估计

模式识别概述

1、模式识别

使用算法自动发现数据中的规律,并利用这些规律实现回归、分类等任务。例如手写数字识别(MINIST数据)

2、模式识别的几个步骤

  • 特征工程(数据准备):
    ①一般同一个算法需要的输入数据都是一致的
    ②有助于提高计算速度、收敛速度(如归一化)

  • 模型(算法)设计:线性回归、支持向量机(SVM)、神经网络

  • 训练与验证:
    1) 将数据按比例(η=0.8\eta=0.8)将数据分为训练集与测试集;
    2) 训练阶段,不断调整参数,以期模型能正确判断
    3) 验证:通过验证模型在新的样本上的正确性一测试其泛化能力;如果训练阶段表现非常好、验证阶段表现太差则成为过拟合。(对过去了如指掌,对未来一无所知。 —Luke)

3、三个任务

  • 监督学习:从银行卡号识别别所属银行、对应卡产品,再比如手写数字识别、画出图片中的卡边界(Fig.2)

  • 非监督学习:鸡尾酒会问题(使用独立成分分析)

  • 增强学习:通过反馈评分的方式训练机器人行走、搬东西、玩游戏等

这三个任务所处理的场景各不相同,但其中的一些基本概念、思想是一致的。

4、多项式拟合

  • 数据形式(x, y)

  • 模型(算法):多项式拟合

  • 参数学习:最小化损失函数

  • 模式选择:选择合适的M,确定模型

    trick: 使用均方根对比不同size的数据下模型的损失函数

  • 如果把数据增加,对于M=9的模式

    可以看到,当数据增加时,原本过拟合的模型也可以拟合的比较好,也就是说数据量越大越有利于复杂的模型拟合数据,一般认为数据量应该是参数量的5~10倍。后面将看到,参数数量并不是最合适的表示模型复杂度的参数。

  • 实际情况是数据量不多,模型复杂容易过拟合。防止过拟合:正则化、贝叶斯方法

    岭回归:

    使用正则化以后,对于合适的正则化,复杂的模型也可以较好的拟合数据,并不会出现过拟合。而当正则化项过大时,也会出现欠拟合的情况。

概率论

模式识别中的一个关键概念:不确定性。造成不确定性的因素是噪声及有限的数据。结合决策理论,即便有用的信息不完整或者模糊不清,也可以做出相对最优的预测。

1、基本概念

  • 联合概率:p(X=xi,Y=yj)=nijNp(X=x_{i},Y=y_{j})=\frac{n_{ij}}{N}
  • 边缘概率:p(X=xi)=∑2j=1p(X=xi,Y=yj)p(X=x_{i})=\sum_{j=1}^{2}p(X=x_{i},Y=y_{j})
  • 条件概率:p(Y=yj|X=xi)=nijnip(Y=y_j|X=x_i)=\frac{n_{ij}}{n_i}

边缘概率的另一种表示:p(X=xi)=niNp(X=x_i)=\frac{n_i}{N}
所以得到:

p(X=xi,Y=yj)=nijN=nijni·niN=p(Y=yj|X=xi)p(X=xi)

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N} =\frac{n_{ij}}{n_i}·\frac{n_i}{N} =p(Y=y_j|X=x_i)p(X=x_i)
独立变量:如果两个变量的联合概率可以分解为边缘概率的乘积,那么这两个变量独立。 P(a,b)=p(a)p(b)P(a,b) = p(a)p(b)

思考: 上面图中的X,Y是否独立?

上面这幅图表示两幅图的颜色直方图分布,其中考虑了周期性。各个颜色值所对应的概率分布通过简单的数据统计与总数值相除得出。

p(h)=nh∑255i=0ni

p(h)=\frac{n_h}{\sum_{i=0}^{255}n_i}

2、 概率密度

对于连续变量,概率一般表示为概率密度p(x)p(x),

已知概率密度为p(x)p(x), 则x在区间(a,b)范围内的概率为p(x∈(a,b))=∫bap(x)dxp(x\in(a,b))=\int_a^bp(x)dx

概率密度的性质:

p(x)≥0

p(x) \ge 0

∫∞−∞p(x)dx=1

\int_{-\infty}^{\infty}p(x)dx = 1

累积概率函数(cdf):

P(x)=∫x−∞p(x)dx

P(x)=\int_{-\infty}^{x}p(x)dx

连续变量的边缘概率分布与联合概率分布:

3、 期望与协方差(以离散变量为例)

期望:E[f]=∑xp(x)f(x)E[f]=\sum_{x}p(x)f(x)
​ E[f]=1N∑f(xn)E[f]=\frac{1}{N}\sum f(x_n)

方差:var[f]=E[(f(x)−E[f(x)])2]var[f]=E[(f(x)-E[f(x)])^2]
​ var[f]=E[f2]−E[f]2var[f]=E[f^2]-E[f]^2

协方差: cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]cov[x,y]=E_{x,y}[\{x-E[x]\}\{y-E[y]\}]

4、 贝叶斯公式

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

p(x,y)=p(x|y)p(y)=p(y|x)p(x)

⟹p(y|x)=p(x|y)p(y)p(x)

\Longrightarrow p(y|x)=\frac{p(x|y)p(y)}{p(x)}

考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?

>P(癌症|阳性)=P(阳性|癌症)P(癌症)P(阳性)>

> P(癌症|阳性) = \frac{P(阳性|癌症)P(癌症)}{P(阳性)} >
P(阳性|癌症)=0.98,P(癌症)=0.008,P(阳性)=0.008∗0.98+0.992∗0.03P(阳性|癌症)=0.98,P(癌症)=0.008,P(阳性)=0.008*0.98+0.992*0.03P(癌症|阳性)=20.85%P(癌症|阳性)=20.85\%

贝叶斯理论的其他应用:

先验概率:是指根据以往经验和分析得到的概率
后验概率:指在得到“结果”的信息后重新修正的概率

5、高斯分布

中心极限定律:大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(采样次数趋向无穷大的时候,就越接近正态分布)。

比如随机间隔时间,从样本无限大样本T中以100个为基数求平均间隔时间,最后会发现平均间隔时间服从正态分布。

或者掷骰子,每个样本以10次出现的点数求平均值,当样本趋向于无穷时,平均值的分布为正态分布。

6、 最大似然估计与最大后验概率估计

最大似然估计:模型已定,参数未知

考虑前面的多项式拟合:给定参数ω,β\omega,\beta后, 对于数据点x的取值t,相对于理论值y(x,ω)y(x,\omega)应该服从以理论值为重心的高斯分布。

☆从上式进行预测时不再是点到点的形式,而是给出t的概率分布形式。

所以:对于全体数据,xx=(x1,x2,…,xn)T,tt=(t1,t2,…,tn)T\pmb{x} = (x_1,x_2,…,x_n)^T,\pmb{t}=(t_1,t_2,…,t_n)^T, 整体存在的概率(因各数据点相互独立,所以用乘法法则),也就是似然函数

思考:为何此处相互独立,而前面x,y不独立。

上面的似然函数不好直接求解,一般转化为对数似然函数:

上式对w求导,得:

最大后验估计:在先验分布的前提下获得的参数估计
对于所求的w,假设预先知道其分布形式为p(w)p(w), 则:

p(w|x,t,β)=p(t|x,w,β)p(x,β)p(w)p(x,w,β)∝p(t|x,w,β)p(w)

p(w|x,t,\beta)=\frac{p(t|x,w,\beta)p(x,\beta)p(w)}{p(x,w,\beta)}\propto p(t|x,w,\beta)p(w)
即:最大后验估计正比于最大似然估计与先验估计的乘积。

《PRML》第一章 读书笔记.1相关推荐

  1. 《Go语言圣经》第一章 - 读书笔记

    <Go语言圣经>第一章 - 读书笔记 第一章 Go语言入门 01 Hello World 02 命令行参数 练习 练习1.1 练习1.2: 练习1.3: 03 查找重复的行 例子运行 du ...

  2. 《自控力》 【美】凯利·麦格尼格尔 第一章读书笔记

    题记:在CSDN潜水已经快两年了,看了很多给力的博客,学到了很多收获了很多,当时就觉得写博客是件好事,即帮到了别人也成长了自己,所以也有写点博客的想法.可快两年过去了,自己的博客除了草啥都没有,一直都 ...

  3. 第三章 地势坤,君子以厚德载物 ——《箴言》第一章读书笔记之三

    梁先生在说完"入门最基本的方法就是从C语言入手"时,意犹未尽地又再次给我们描绘了神奇的"高手的境界": "事实上,到达高手的境界以后,不管什么语言不语 ...

  4. 《从Paxos到Zookeeper:分布式一致性原理与实践》第一章读书笔记

    第一章主要介绍了计算机系统从集中式向分布式系统演变过程中面临的挑战,并简要介绍了ACID.CAP和BASE等经典分布式理论,主要包含以下内容: 集中式的特点 分布式的特点 分布式环境的各种问题 ACI ...

  5. Computer Systems A Programmer's Perspective(深入理解计算机系统)第一章读书笔记

    第一章    计算机系统漫游 1.1信息就是位+上下文 源程序实际上就是一个由0和1组成的位(又称比特位)序列,这些位被组织成8个一组,称为字节.每个字节都表示程序中某个文本字符. 系统中的所有信息都 ...

  6. python基础读后感_《python基础教程 》第一章 读书笔记

    python是一个简单强大的直译语言,它同样提供交互式编译环境,学起来还算有趣,在学习的过程中,同样体会了动态语言的直接与强大. 第一章 基础知识 一 运行python 在ubuntu终端输入 pyt ...

  7. PRML第九章读书笔记——Mixture Models and EM K均值/K中心点、高斯混合奇异性、EM观点下的高斯混合/K-means/混合伯努利分布/贝叶斯线性回归、推广EM算法

    目录 9.1 K-means Clustering P429 K中心点算法K-medoids 9.2 Mixtures of Gaussians P433 高斯混合的奇异性 9.3 An Altern ...

  8. CSAPP第一章读书笔记

    本章从简单的hello,world程序讲起,讲解了系统为了执行该程序时,系统发生了什么以及为什么会这样 #include <stdio.h>int main(){printf(" ...

  9. 被讨厌的勇气:第一章读书笔记

    本笔记为岸见一郎先生的著作<被讨厌的勇气>部分文字的摘抄. 引言 人可以改变.世界极其简单.人人能获得幸福. 人并不是住在客观的世界,而是住在自己营造的主观世界里.你所看到的世界不同于我所 ...

  10. 《Topology Without Tears》第一章读书笔记,笑着学拓扑(欸嘿嘿,嘿嘿,学你妈!

    淦,写狗日的论文涉及到了流形优化,流形优化有涉及到了拓扑,只能从零开始学拓扑了...这是一个非常痛苦的过程... 在网上找来找去,发现了<无泪的拓扑>大家都说好.结果我一看,好家伙,尽管这 ...

最新文章

  1. pandas怎么选取dataframe中几列
  2. 关于因为该列没有包含在聚合函数或 GROUP BY 子句中
  3. Buffer和Cache的区别
  4. 机器学习笔记(九)聚类
  5. java 对象序列化 数组_序列化-将任何对象转换为j中的字节数组
  6. javascript 进度条的几种方法
  7. putty连接ubuntu虚拟机缓慢问题的解决
  8. mysql错误Table ‘./mysql/proc’ is marked as crashed and should be repaired
  9. 黑苹果使用Hackintool注入声卡驱动
  10. 雷石服务器不显示加密狗,ESXi服务器不识别USB加密狗怎么办
  11. JAVA:代码实现zip压缩
  12. 【宝藏系列】如何解决word选中文字按backspace无法删除的问题
  13. 计算机管理中误删用户,win10管理员账户删除了怎么解决?
  14. windows下用cmd卸载程序
  15. c语言坐标画折线,如何用C语言画折线图
  16. python输出箭头代码_OS X和代码在Python中的“向上箭头”历史记录.InteractiveConsole...
  17. 印象笔记 for Mac(Evernote mac)
  18. 项目中常用的Util方法
  19. matplotlib 画图刻度尺控制
  20. UE4人物移动时的摄像机抖动

热门文章

  1. 3.24虎牙直播一面
  2. 实训任务04 MapReduce编程入门
  3. 三层交换机动态路由配置
  4. Spring Boot 接入支付宝,实战来了
  5. 基于word2vec的word相似度
  6. 关于MyEclipse的servers和WTPservers
  7. 组合按键的软件设计(c语言)
  8. 温度传感器的一些比较
  9. Unexpected Error: Quitting
  10. 虚拟化bug定位神器之一 【gdbcoredump】--libvirtd hang 住