贝叶斯分类器原理

  • 简介
    • 一、逆概率推理与贝叶斯公式
      • 1、确定性推理与概率推理
      • 2、贝叶斯公式
    • 二、贝叶斯分类的原理
    • 三、概率估计
      • 1、先验概率的估计
      • 2、类条件概率的估计
    • 四、贝叶斯分类的错误率
    • 五、常用贝叶斯分类器
      • 1、最小错误率贝叶斯分类器
      • 2、最小风险贝叶斯分类器
      • 3、朴素贝叶斯分类器
    • 结语
    • 参考

简介

贝叶斯分类器作为模式识别经典算法之一,有着极其重要的地位和用途,对贝叶斯定理进行近似求解。

一、逆概率推理与贝叶斯公式

1、确定性推理与概率推理

2、贝叶斯公式

贝叶斯公式就是解决逆概率推理问题。从已知结果出发,判断某类情况是导致结果发生的原因的概率。贝叶斯公式:

表示结果A在条件Bi下分别产生的概率之和。

二、贝叶斯分类的原理

解决不确定统计分类的问题。已知每个类别的样本取得不同特征向量的概率,实现依据某个待识别样本的特征向量计算该样本属于每一个类别的概率。此时对应关系如下:

贝叶斯分类 贝叶斯公式
每类样本的整体出现概率 先验概率P(wi)
每个类中样本取得某个具体特征向量的概率 类条件概率P(x,wi)
要计算的样本取得某一个具体特征向量时属于每一类的概率 后验概率P(wi,x)


分类决策规则:根据计算得到的后验概率对样本进行分类

如上所述,贝叶斯分类是从结果出发找原因,因此在训练过程中先验概率和类条件概率必须已知
当先验概率未知时,可以令其概率相等,或按某一类属性在样本集中的出现频率作为先验概率,再用新获得的信息对先验概率进行修正;
当类条件概率未知时,往往需要从数据统计中估计。
因为贝叶斯分类是概率分类,因此分类决策存在错误率

三、概率估计

1、先验概率的估计

将先验概率看作常量
(1)若样本为随机抽样的样本,可以使用某一类属性在样本集中的出现频率作为先验概率:P(wi)=ni/N
(2)将所有类别看作均匀分布:P(wi)=1/c
将先验概率看作概率分布:P(wi)=∫ P(wi|x)
任意设定先验概率初值,在已知类条件概率的情况下,计算训练集中属于某一类的所有样本的后验概率,再将其数学期望用于更新后验概率。

2、类条件概率的估计

(1)参数估计:假定具有某种特定的分布形式,如正态分布、二项分布…再用已经具有类型标签的训练集对概率分布的参数进行估计
(2)非参数估计:在不知道或布加迪分布形式的基础上,直接用样本集中的信息,估计样本的概率分布情况。这种情况下得到的概率通常是一个数值模型
在类条件概率的估计中,通常使用参数估计,概率模型的训练过程就是参数估计过程。频率主义学派认为参数虽然未知,但是客观性存在的固定值,因此可以通过最优化似然函数等来确定参数值。贝叶斯学派认为参数是未观察到的随机变量,其本身也可有分部,因此假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
最常用的方法就是频率主义学派的极大似然估计法和贝叶斯学派的贝叶斯估计
(1)极大似然估计:通常是对数似然估计。(略)
(2)贝叶斯估计:
①待估计参数是Θi的先验概率分布为P(Θi);
②该类样本集xi的联合概率密度分布P(xi|Θi)是Θi的函数;
③求取Θi的后验概率P(Θi|xi);
④Θi的估计值为后验概率下的数学期望Θi=∫ Θi P(Θi|xi)
不同的类条件概率估计方法产生不同的类条件概率,导致不同的判别函数,也就产生不同的分类决策边界。

四、贝叶斯分类的错误率

分类器的错误率:分类错误概率的数学期望
例:最小错误分类器的错误率:即将样本划分到后验概率大的那一类,但样本本身不属于那一类的概率。(最小错误贝叶斯分类器见后文,常见贝叶斯分类器)
贝叶斯分类的错误率(两类)等于属于第一类w1的样本错误分类到w2的错误率加上属于第二类w2的样本错误分类到w1的概率。

五、常用贝叶斯分类器

1、最小错误率贝叶斯分类器

分类决策规则:将样本划分到后验概率大的一类中去。

若P(wi|x)=maxP(wj|x),则x∈wi
有最大后验概率:P(error|x)=ΣP(wj|x)-maxP(wj|x),因此最大后验概率等价于最小错误率
=>若P(x|wi)P(wi)=max[P(x|wj)P(wj)] ,则x∈wi
分类决策边界为使错误率最小的点

注意的是,最小错误率贝叶斯分类器是线性分类器,但分类决策边界不一定是线性的,分界点为后验概率相同的点。

2、最小风险贝叶斯分类器

决策:将待识别的样本x归类到wi中
损失λij:把真实属于wj的样本x,错误分类到wi类的损失
条件风险R(αi|x) = E[λij] = ∑λijP(wj|x)
分类决策规则:若 R(αk|x) = min R(αi|x),则x∈wk

3、朴素贝叶斯分类器

朴素贝叶斯分类器解决的是类条件概率未知的情况。
类条件概率的估计可以根据某类样本在各个维度上的特征值来估计概率分布情况,该概率分布为各个维度上的联合概率分布
朴素贝叶斯分类器就是假设各个维度完全独立地对分类结果产生影响
此时的一维概率密度估计:P(x|wi)=∏P(xk|wi)

然而,实际工程实践中,样本特征往往无法满足独立条件,一般可以采用特征分组的方法,适当考虑一部分属性间的相互依赖信息,每组包含少量相关特征,保证各组之间相互独立,从而不需要进行完全联合概率计算,又不至于忽略掉比较强的属性依赖。基于这种思想,产生了另一种分类器,即半朴素贝叶斯分类器

结语

贝叶斯分类器在模式识别领域有着极其广泛的应用,特别是在信息检索领域。
朴素贝叶斯分类器假定所有属性之间完全独立,虽然在实际应用中,假设很难成立,但应用上,朴素贝叶斯分类器又通常具有很好的性能。

参考

学习时参考北京理工大学《人工智能之模式识别》公开课
书本参考:《机器学习》周志华

贝叶斯分类器原理——学习笔记相关推荐

  1. Golang底层原理学习笔记(一)

    LCY~~Golang底层原理学习笔记 1 源码调试 go源代码地址:GitHub - golang/go: The Go programming language 1.1 源码编译 现在的go语言大 ...

  2. ArcGIS模型构建器案例学习笔记-字段处理模型集

    ArcGIS模型构建器案例学习笔记-字段处理模型集 联系方式:谢老师,135-4855-4328,xiexiaokui@qq.com 由四个子模型组成 子模型1:判断字段是否存在 方法:python工 ...

  3. MOOC人工智能原理学习笔记1

    人工智能原理学习笔记1 The Foundations of AI: Philosophy Mathematics Economics Neuroscience Psychology Computer ...

  4. 自控原理学习笔记-反馈控制系统的动态模型(4)-频率特性函数Nyquist图及Bode图

    自控原理学习笔记 自控原理学习笔记专栏 文章目录 1.频率特性函数 1.1 图形表示方法: 1.2 零极点位置和暂态增益图 1.2.1 复轨迹曲线 1.2.3 例子 1.3 计算系统响应 2.开环频率 ...

  5. 自控原理学习笔记-系统稳定性分析(2)-环路分析及Nyquist-Bode判据

    自控原理学习笔记 自控原理学习笔记专栏 文章目录 3. 环路分析 3.1环路分析基本思想: 3.2 稳定程度的性能指标(相对稳定) 3.3 环路整形 4.Nyquist判据 4.1 与幅角原理关系 4 ...

  6. [编译原理学习笔记2-2] 程序语言的语法描述

    [编译原理学习笔记2-2] 程序语言的语法描述 文章目录 [编译原理学习笔记2-2] 程序语言的语法描述 [2.3.1] 上下文无关文法 [2.3.2] 语法分析树与二义性 [2.3.3] 形式语言鸟 ...

  7. 自控原理学习笔记-反馈控制系统的动态模型(1)

    自控原理学习笔记 1.导论 2.反馈控制系统的动态模型(1) 3.反馈控制系统的动态模型(2) 3.反馈控制系统的动态模型(3) 4.反馈控制系统的动态模型(4) 5.反馈控制系统的动态模型(5) 文 ...

  8. Spring5底层原理 学习笔记(二)AOP篇

    文章目录 AOP实现之ajc编译器 AOP实现之agent类加载 AOP实现之动态代理 jdk动态代理 演示 模拟实现动态代理 动态生成代理类需要使用到asm的api,这里就不展开了 Jdk对于反射调 ...

  9. 编译原理学习笔记20——符号表

    编译原理学习笔记20--符号表 20.1 符号表的组织与操作 20.2 符号表的内容 20.3 利用符号表分析名字的作用域 20.1 符号表的组织与操作 符号表 符号表的作用与组织 符号表的整理和查找 ...

最新文章

  1. 改变libreoffice的writer背景颜色
  2. 前端学习(1757):前端调试值之网络条件与user-Agent的设置
  3. [轉]Flash/Flex监听浏览器的关闭事件
  4. jupyter notebook和python有什么区别_Jupyter Notebook 有哪些奇技淫巧?
  5. 解决Oracle错误ORA-15061一例
  6. 最优化方法(最速下降、牛顿法、高斯牛顿法、LM算法)
  7. 用Python 计算t分布的置信区间
  8. failed to get reply to handshake packet
  9. Flink 实时计算 - 进阶篇(如何自定义 Data Source 与 Data Sink)
  10. 使用Postman调试API遇到“400 Bad Request”问题
  11. java实习报告范文
  12. js毫秒转换年月日时分秒
  13. 新iPhone 12泄漏
  14. 以太坊概述和以太坊账户(一)
  15. sqlite3+mmicu微信全文搜索fts编译过程
  16. 金山毒霸6 、金山网镖6 增强版 发布在即!!!
  17. C++ vector 容器的全排列算法 next_permutation
  18. JAVA中XML读写
  19. 用户流失,该怎么分析?
  20. 计算机毕业设计——基于HTML品优购项目的设计与实现(7页)

热门文章

  1. iPhone是不是微型计算机,就算iPhone只有32GB也不怕!让这款充电座来解救各种“小苹果”...
  2. android设置背景图片不填充整个_Android应用开发之android解决背景图片平铺拉伸问题...
  3. CSS如何实现背景图片(background-image)平铺,只有一张图?
  4. CentOS7 linux查看端口号的
  5. const setfill setw
  6. 面试重点-vue原理
  7. java 后端接收JSON数组转换为 String类型存入数据库
  8. 热烈祝贺惠州学院翰墨缘书法协会第十三届书法作品展圆满成功!
  9. 基于java的五子棋游戏
  10. 使用easyexcel操作Excel