贝叶斯定理

由来

古典概率学派认为概率是客观存在的,而贝叶斯学派认为概率是一个人对于一件事的信念强度,概率是主观的。

定义

贝叶斯定理

换一种更便于理解的公式陈列方式:
P(类别∣特征)=P(特征∣类别)P(特征)P(特征)P(类别|特征) = \frac{P(特征|类别)P(特征)}{P(特征)} P(类别∣特征)=P(特征)P(特征∣类别)P(特征)​

朴素贝叶斯

P(H∣X)=P(X∣H)P(H)P(X)P(X∣H)=P(X1∣H)P(X2∣H)...P(Xn∣H)=P(X1∣H)P(X1)P(X2∣H)P(X2)...P(Xn∣H)P(Xn)P(H|X)= \frac{P(X|H)P(H)}{P(X)}\\ P(X|H)=P(X_1|H)P(X_2|H)...P(X_n|H)=\frac{P(X_1|H)}{P(X_1)}\frac{P(X_2|H)}{P(X_2)}...\frac{P(X_n|H)}{P(X_n)} P(H∣X)=P(X)P(X∣H)P(H)​P(X∣H)=P(X1​∣H)P(X2​∣H)...P(Xn​∣H)=P(X1​)P(X1​∣H)​P(X2​)P(X2​∣H)​...P(Xn​)P(Xn​∣H)​

eg.

⭐成立前提:各假设特征之间相互独立

朴素贝叶斯实际问题应用:

现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?

这是一个典型的分类问题,转为数学问题就是比较下面两者的概率,谁的概率大,我就能给出嫁或者不嫁的答案!

  • p(嫁|(不帅、性格不好、身高矮、不上进))

  • p(不嫁|(不帅、性格不好、身高矮、不上进))

“朴素”一词的由来

朴素贝叶斯的特点是,这个模型做了一个较强的假设,而牺牲了分类的准确率。
这个假设就是假设各个特征之间相互独立。如果没有这个假设的话,统计将变成不可能。

假如我们没有假设特征之间相互独立,那么我们统计的时候,就需要在整个特征空间中去找,比如统计p(不帅、性格不好、身高矮、不上进|嫁),我们就需要在嫁的条件下,去找四种特征全满足分别是不帅,性格不好,身高矮,不上进的人的个数。这样的话,由于数据的稀疏性,很容易统计到0的情况。 这样是不合适的。


贝叶斯分类的三种模型

多项式模型

文本进行分词处理后,模型将重复出现的词语视为多次出现

“代开发票,增值税发票,正规发票”,分词后向量为{代开,发票,增值税,发票,正规,发票}

伯努利模型

文本进行分词处理后,模型将重复出现的词语视为只出现一次

“代开发票,增值税发票,正规发票”,分词后向量为{代开,发票,增值税,正规}

高斯模型

用途:用于计算连续性变量的取值概率

将人的身高这一连续变量转换为离散型的值,一般处理方式是将连续型身高变量分为三个种类:

  • 160cm以下,对应向量:(1,0,0)
  • 160cm-175cm,对应向量:(0,1,0)
  • 175以上,,对应向量:(0,0,1)

不过这些处理方法都不够细腻,而高斯模型就可以完美解决这个问题。

使用方法: 当使用高斯模型时,我们会假定特征属于高斯分布(即正态分布),然后基于训练样本计算特征均值和标准差,这样就可以得到该特征下的每一个属性值的先验概率。

概率密度函数:由于连续型随机变量在每一点的概率是0,概率密度函数度量的是每一点的相对概率大小。

高斯模型的问题求解举例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BFWo02my-1622689124236)(C:\Users\cc\AppData\Roaming\Typora\typora-user-images\image-20210519161545766.png)]


词袋模型

用一个字典存储一段文本,字典中不记录该文本中单词的顺序,只记录单词出现的频率

TF-IDF

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

其主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF:词频

一般使用归一化,防止出现词频偏向文本长度长的文件。记录了某单词在一个文件中出现的频率

IDF 逆向文件频率

某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力
IDF=log⁡(语料库的文档总数包含该词的文档数+1)+1的原因:防止分母为0IDF = \log(\frac{语料库的文档总数}{包含该词的文档数+1})\\ +1的原因:防止分母为0 IDF=log(包含该词的文档数+1语料库的文档总数​)+1的原因:防止分母为0


参考:

  • https://blog.csdn.net/asialee_bird/article/details/81486700
  • https://blog.csdn.net/cindy407/article/details/93533080
  • https://blog.csdn.net/ac540101928/article/details/103941495
  • https://zhuanlan.zhihu.com/p/158771382

机器学习——贝叶斯定理相关推荐

  1. 贝叶斯机器学习:经典模型与代码实现!

    Datawhale干货 Author:louwill,贝叶斯机器学习 贝叶斯定理是概率模型中最著名的理论之一,在机器学习中也有着广泛的应用.基于贝叶斯理论常用的机器学习概率模型包括朴素贝叶斯和贝叶斯网 ...

  2. ML Mastery 博客文章翻译(二)20220116 更新

    Machine Learning Mastery 计算机视觉教程 通道在前和通道在后图像格式的温和介绍 深度学习在计算机视觉中的 9 个应用 为 CNN 准备和扩充图像数据的最佳实践 8 本计算机视觉 ...

  3. 淘宝App出那么大bug,是怎么做Code Review的?一位阿里技术专家,说出了真相!...

    点击"技术领导力"关注∆  每天早上8:30推送 作者简介:孤尽,阿里技术专家,曾出版畅销书<阿里巴巴Java开发手册>.<码出高效>,擅长JAVA编程.工 ...

  4. 机器学习中的数学基础--随机变量与概率分布,伯努利分布和泊松分布,贝叶斯定理

    机器学习中的数学基础--第四天 随机变量与概率分布 伯努利分布和泊松分布 贝叶斯定理 随机变量与概率分布 均匀分布:每个事件的概率是一样的,例如骰子的六面,每一面的概率都是1/6 随机变量: 1.离散 ...

  5. 机器学习之条件概率,联合概率,贝叶斯定理详解

    文章目录 前言 边缘概率 联合概率 定义 分析 条件概率 定义 问条件概率能举个例子吗 问条件概率在图中表示的是哪一块呢? 条件概率习题: 全概率 定义 推导 全概率习题 贝叶斯公式 定义 推导 贝叶 ...

  6. 机器学习基础:从贝叶斯定理到概率分布

    福利!免费寄送图书!! 长按.扫描下面二维码,关注公众号[摸鱼吧算法工程师]后,后台回复:送书活动.即可参与免费寄送图书<贝叶斯算法与机器学习>活动,活动截止日期为 2022-12-05 ...

  7. python如何计算概率事件_「条件概率公式」scikit-learn机器学习(五)--条件概率,全概率和贝叶斯定理及python实现 - seo实验室...

    条件概率公式 在理解贝叶斯之前需要先了解一下条件概率和全概率,这样才能更好地理解贝叶斯定理 一丶条件概率 条件概率定义:已知事件A发生的条件下,另一个事件B发生的概率成为条件概率,即为P(B|A) 如 ...

  8. 机器学习之贝叶斯(贝叶斯定理、贝叶斯网络、朴素贝叶斯)

    一.概率知识点复习 (1)条件概率 就是事件A在另外一个事件B已经发生条件下的发生概率.条件概率表示为P(A|B),读作"在B条件下A的概率". (2)联合概率 可以简单的理解为事 ...

  9. 机器学习之贝叶斯定理

    贝叶斯定理 ​ 贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理.其中P(A|B)是在B发生的情况下A发生的可能性. ​ 贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(170 ...

最新文章

  1. Codeforces Round #632 (Div. 2) C和D和F
  2. SourceTree的基本使用
  3. 13.跨进程读写内存
  4. SpringContextUtil
  5. java 枚举常量_java中的枚举类和常量类区别在哪儿?
  6. easy and hard things
  7. SAP Commerce Cloud SmartEdit 学习笔记
  8. java 鼠标拖动矩形_java – 用鼠标拖动创建矩形,而不是绘制
  9. 苹果宣布取消AirPower 因技术难题无法攻克
  10. C语言 — 编程规范
  11. Android之内容提供者ContentProvider的总结
  12. 信息收集-目录扫描(7kbscan御剑版)下载及使用
  13. html5客户端页面,iphoneX 适配客户端H5页面的方法教程
  14. 计算机考研,这样选学校才是正解
  15. HTML5CSS3笔记:CSS3选择器、字体和颜色模式
  16. 如何把直播嵌入微信公众账号
  17. JavaScript数据类型 - Undefined类型
  18. 【图片】图片处理,图片压缩相关知识分享
  19. matlab excel 单元居中,用matlab如何识别excel里的单元格是否为合并单元格|excel表格怎么调整行高和列宽...
  20. VirtualBox靶机启动失败:end Kernel panic - not syncing: Attempted to kill the idle task

热门文章

  1. 我也要做一个无愧于人民的人
  2. 数据可视化之不婚主义,34%的不婚人群把婚姻和恋爱分为两件事
  3. vant 时间选择控件只显示年份,解决只能返回1970年
  4. FEC功能是什么?有哪些配置注意事项
  5. Typora 常用快捷键 mac系统
  6. 记Oracle DG Gap解决方案
  7. 不要因为一时的孤独而去接受一段不属于自己的爱情,也不要因为一段不属于自己的爱情而孤独一生
  8. 项目管理之强矩阵弱矩阵
  9. 无线投屏软件有什么, 电脑端怎么同步手机画面?
  10. Zigbee 计量插座