朴素贝叶斯(NB)

[学生党学习笔记,如有错误谢谢各位大佬指出]
所用书籍:《统计学习方法》-李航

一、概述

  朴素贝叶斯模型首先基于特征条件独立假设,学习输入的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
  同时这也表明了朴素贝叶斯是一种生成式模型,是基于概率进行学习并分类的。
  关于生成式模型与判别式模型,大家可以点链接看看这篇文章[戳这里]

  相对于其它分类算法,朴素贝叶斯分类依赖于贝叶斯概率定理来预测未知数据集的类别,它的速度是非常快的。
  贝叶斯定理实际上就是计算”条件概率”的公式。
条件概率:
P(A∣B)=P(B∣A)∗P(A)P(B)P(A|B)=\frac{P(B|A)*P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)∗P(A)​
在朴素贝叶斯分类器中,上式分别表示:

  • P(A|B)是给定预测变量(B,属性)的类(A,target)的后验概率。【即在看到新数据后,我们要计算的该假设的概率】
  • P(A)是类的先验概率。【即在得到新数据前某一假设的概率】
  • P(B|A)是预测器给定类的概率的可能性。【该假设下得到这一数据的概率,称为似然度】
  • P(B)是预测器的先验概率。【在任何假设下得到这一数据的概率,称为标准化常量】

  朴素贝叶斯分类器假设类中特定特征和其它特征的存在无关,因为前提条件便是基于特征独立的。这也是这个算法被称为“朴素”的原因。

二、贝叶斯算法数学原理

  这部分我建议大家去看李航老师的《统计学习方法》,我觉得写得很清楚,我这里就不过多赘述(也可能是我懒得打那些复杂的推导公式,我个人习惯在例子中搞明白)。

  这里直接上例题(例子来源于上书):

  例:由下表中的训练数据学习一个NB分类器并确定x=(2,S)Tx=(2,S)^Tx=(2,S)T的类标记y,表中x(1)x^{(1)}x(1),x(2)x^{(2)}x(2)为特征,取值的集合分别为A1A_1A1​={1,2,3},A2A_2A2​={S,M,L},Y为类标记,Y∈\in∈C={1,-1}.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x(1)x^{(1)}x(1) 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
x(2)x^{(2)}x(2) S M M S S S M M L L L M M L L
YYY -1 -1 1 1 -1 -1 -1 1 1 1 1 1 1 1 -1

  首先我们分析目标变量(Target)Y:
P(Y=1)=915,P(Y=−1)=615P(Y=1)=\frac{9}{15},P(Y=-1)=\frac{6}{15}P(Y=1)=159​,P(Y=−1)=156​
  再看各特征的条件概率:
P(x(1)=1∣Y=1)=29,P(x(1)=2∣Y=1)=39,P(x(1)=3∣Y=1)=49P(x^{(1)}=1|Y=1)=\frac{2}{9},P(x^{(1)}=2|Y=1)=\frac{3}{9},P(x^{(1)}=3|Y=1)=\frac{4}{9}P(x(1)=1∣Y=1)=92​,P(x(1)=2∣Y=1)=93​,P(x(1)=3∣Y=1)=94​
P(x(2)=S∣Y=1)=19,P(x(2)=M∣Y=1)=49,P(x(2)=L∣Y=1)=49P(x^{(2)}=S|Y=1)=\frac{1}{9},P(x^{(2)}=M|Y=1)=\frac{4}{9},P(x^{(2)}=L|Y=1)=\frac{4}{9}P(x(2)=S∣Y=1)=91​,P(x(2)=M∣Y=1)=94​,P(x(2)=L∣Y=1)=94​
P(x(1)=1∣Y=−1)=36,P(x(1)=2∣Y=−1)=26,P(x(1)=3∣Y=−1)=16P(x^{(1)}=1|Y=-1)=\frac{3}{6},P(x^{(1)}=2|Y=-1)=\frac{2}{6},P(x^{(1)}=3|Y=-1)=\frac{1}{6}P(x(1)=1∣Y=−1)=63​,P(x(1)=2∣Y=−1)=62​,P(x(1)=3∣Y=−1)=61​
P(x(2)=S∣Y=−1)=36,P(x(2)=M∣Y=−1)=26,P(x(2)=L∣Y=−1)=16P(x^{(2)}=S|Y=-1)=\frac{3}{6},P(x^{(2)}=M|Y=-1)=\frac{2}{6},P(x^{(2)}=L|Y=-1)=\frac{1}{6}P(x(2)=S∣Y=−1)=63​,P(x(2)=M∣Y=−1)=62​,P(x(2)=L∣Y=−1)=61​
  再对于给定的x=(2,S)Tx=(2,S)^Tx=(2,S)T:
P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=915∗39∗19=145P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{9}{15}*\frac{3}{9}*\frac{1}{9}=\frac{1}{45}P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=159​∗93​∗91​=451​
P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=615∗26∗36=115P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{6}{15}*\frac{2}{6}*\frac{3}{6}=\frac{1}{15}P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=156​∗62​∗63​=151​
  从这里便可以得出结果,下式概率大于上式,所以预测y=-1。

贝叶斯估计(使用拉普拉斯平滑)

  如果我们要估计的概率值有为0的情况,这时会影响到后验概率的计算,使模型产生偏差,这时我们便需要进行贝叶斯估计,条件概率的贝叶斯估计式如下:
Pλ=Σi=1NI(yi=ck)+λN+KλP_{\lambda}=\frac{\Sigma_{i=1}^N{I(y_i=c_k)}+\lambda}{N+K\lambda}Pλ​=N+KλΣi=1N​I(yi​=ck​)+λ​
Pλ(X(j)=aji∣Y=ck)=Σi=1NI(xi(j)=aij,yi=ck)+λΣi=1NI(yi=ck)+SiλP_{\lambda}(X^{(j)}=a_{ji}|Y=c_k)=\frac{\Sigma_{i=1}^N{I(x_i^{(j)}=a_{ij},y_i=c_k)}+\lambda}{\Sigma_{i=1}^N{I(y_i=c_k)}+S_i\lambda}Pλ​(X(j)=aji​∣Y=ck​)=Σi=1N​I(yi​=ck​)+Si​λΣi=1N​I(xi(j)​=aij​,yi​=ck​)+λ​
  则同样以例题形式,数据同上表,按照拉普拉斯平滑估计概率,即取λ=1\lambda=1λ=1。
  公式推导我就不多说了,贝叶斯参数估计的公式其实就是在条件概率公式的分子加一个λ\lambdaλ,分母加一个KλK\lambdaKλ或SiλS_{i}\lambdaSi​λ,其中K为y的种类,SiS_iSi​为某特征的种类,本题中y=1或-1,所以K=2,x(1)x^{(1)}x(1)有1,2,3这三种,即S1S_1S1​=3。
  接下来我们来进行计算,同样先计算目标函数y:

P(Y=1)=9+115+2∗1=1017,P(Y=−1)=6+115+2∗1=717P(Y=1)=\frac{9+1}{15+2*1}=\frac{10}{17},P(Y=-1)=\frac{6+1}{15+2*1}=\frac{7}{17}P(Y=1)=15+2∗19+1​=1710​,P(Y=−1)=15+2∗16+1​=177​
  再看各特征的条件概率:
P(x(1)=1∣Y=1)=2+19+3=312P(x^{(1)}=1|Y=1)=\frac{2+1}{9+3}=\frac{3}{12}P(x(1)=1∣Y=1)=9+32+1​=123​
  这里分母为什么加3呢,因为这是特征x(1)x^{(1)}x(1)有1,2,3这三种,即S1S_1S1​=3,同理x(2)x^{(2)}x(2)也有S,M,L三种,因此下面的S2S_2S2​=3.
  计算结果如下:
P(x(1)=2∣Y=1)=412,P(x(1)=3∣Y=1)=512P(x^{(1)}=2|Y=1)=\frac{4}{12},P(x^{(1)}=3|Y=1)=\frac{5}{12}P(x(1)=2∣Y=1)=124​,P(x(1)=3∣Y=1)=125​
P(x(2)=S∣Y=1)=212,P(x(2)=M∣Y=1)=512,P(x(2)=L∣Y=1)=512P(x^{(2)}=S|Y=1)=\frac{2}{12},P(x^{(2)}=M|Y=1)=\frac{5}{12},P(x^{(2)}=L|Y=1)=\frac{5}{12}P(x(2)=S∣Y=1)=122​,P(x(2)=M∣Y=1)=125​,P(x(2)=L∣Y=1)=125​
P(x(1)=1∣Y=−1)=49,P(x(1)=2∣Y=−1)=39,P(x(1)=3∣Y=−1)=29P(x^{(1)}=1|Y=-1)=\frac{4}{9},P(x^{(1)}=2|Y=-1)=\frac{3}{9},P(x^{(1)}=3|Y=-1)=\frac{2}{9}P(x(1)=1∣Y=−1)=94​,P(x(1)=2∣Y=−1)=93​,P(x(1)=3∣Y=−1)=92​
P(x(2)=S∣Y=−1)=49,P(x(2)=M∣Y=−1)=39,P(x(2)=L∣Y=−1)=29P(x^{(2)}=S|Y=-1)=\frac{4}{9},P(x^{(2)}=M|Y=-1)=\frac{3}{9},P(x^{(2)}=L|Y=-1)=\frac{2}{9}P(x(2)=S∣Y=−1)=94​,P(x(2)=M∣Y=−1)=93​,P(x(2)=L∣Y=−1)=92​
  再对于给定的x=(2,S)Tx=(2,S)^Tx=(2,S)T:
P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=1017∗412∗212=5153=0.0327P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{10}{17}*\frac{4}{12}*\frac{2}{12}=\frac{5}{153}=0.0327P(Y=1)P(X(1)=2∣Y=1)P(X(2)=S∣Y=1)=1710​∗124​∗122​=1535​=0.0327
P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=717∗39∗49=28459=0.0610P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{7}{17}*\frac{3}{9}*\frac{4}{9}=\frac{28}{459}=0.0610P(Y=−1)P(X(1)=2∣Y=−1)P(X(2)=S∣Y=−1)=177​∗93​∗94​=45928​=0.0610
因此,预测y=-1。

三、朴素贝叶斯分类器的优缺点

优点:

  • 预测测试数据集的类别是容易且快速的,它在多分类预测中也表现良好。
  • 当独立性假设成立时,朴素贝叶斯分类器与逻辑回归等其他模型相比表现更好,而且需要更少的训练数据。
  • 与数值变量相比,该模型在分类输入变量的情况下表现更好。
  • 对缺失数据不敏感,所以常用于文本分类。

缺点:

  • 如果出现“零概率”时,模型不能进行预测。因此我们需要使用平滑技术。最简单的平滑技术之一是拉普拉斯评估。
  • 另一方面,朴素贝叶斯(Bayes)也被称为不好的估计器,所以来自predict_proba的概率输出不应该被过于重视。
  • 对训练数据的依赖性很强,如果训练数据误差较大,那么预测出来的效果就会不佳。
  • 朴素贝叶斯的另一个局限是独立预测因子的假设。在现实生活中,我们得到一组完全独立的预测变量几乎是不可能的。
    注:我们知道朴素贝叶斯模型中的输入变量都是条件独立的,这是该模型的基本前提,但如果输入变量之间存在概率依存关系,那这时模型就变成了贝叶斯网络。

四、朴素贝叶斯算法的应用

  实时预测:该模型速度很快。 因此,它可以用于实时预测。

  多分类器:由贝叶斯公式可知,这种算法也是一个多分类器。因此我们可以预测多个目标变量类别的概率。

  文本分类/垃圾邮件过滤/情感分析:该模型被广泛用于垃圾邮件过滤识别和情感分析。可以用于文本分类,成功率很高。

  推荐系统:朴素贝叶斯分类器和协作过滤一起构建推荐系统,该系统使用机器学习和数据挖掘技术来过滤看不见的信息并预测用户是否喜欢给定的资源。

五、朴素贝叶斯的分类

sklearn库中有三种类型的朴素贝叶斯模型:

  高斯(Gaussian):它用于分类,它假设特征遵循正态分布,意思就是对连续型数据进行处理。

  多项式(Multinomial):用于离散计数。计算数据的条件概率(使用拉普拉斯估计器进行平滑的一个模型)。

  伯努利(Bernoulli):取值特征是布尔型,即ture或false,在进行文档分类时,就是一个单词有没有在一个文档中出现过。

六、朴素贝叶斯的调优

以下是提高Naive Bayes模型功能的一些建议:

  • 如果连续性特征不具有正态分布,则应采用变换或不同的方法将其转换为正态分布。
  • 如果测试数据集具有零频率问题,则应用平滑技术“拉普拉斯修正”来预测测试数据集的类别。
  • 删除相关特征,因为高度相关的特征在模型中被投票两次,并且可能导致过度膨胀的重要性。
  • 朴素贝叶斯是根据训练集进行分类,分类出来的结果基本上就是确定了的。所以是没有超参数可以调整的,只能通过alpha = 1来平滑,alpha值并不算超参数;或者使用fit_prior = [True | False]来学习- 类别先验概率。个人觉得用朴素贝叶斯模型的话要把重点放在数据的预处理和特征选择上。
  • 最后,一些常用的分类器组合技术是没有效果的,如集合,装袋和提高。因为它们的目的是减少变化。而朴素贝叶斯没有任何变化可以最小化。

七、python实现代码

直接在下一篇博客中,写之前kaggle竞赛的项目,项目中会用到NB,实现的话用sklearn是很简单的。稍微写一下核心(没有前后文,单独运行肯定是不行的)

from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
model = GaussianNB()
# 用训练数据拟合
model.fit(X_train,y_train)
# 预测
predict_train = model.predict(X_train)
trainaccuracy = accuracy_score(y_train,predict_train)
print('accuracy_score on train dataset : ', trainaccuracy)

用sklearn库基本上这些机器学习代码就这么多,我只能说开发sklearn的是神。

学习笔记-贝叶斯分类器及其python实现相关推荐

  1. 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-03-基于Python的LeNet之LR

    原地址可以查看更多信息 本文主要参考于:Classifying MNIST digits using Logistic Regression  python源代码(GitHub下载 CSDN免费下载) ...

  2. 深度学习(DL)与卷积神经网络(CNN)学习笔记随笔-04-基于Python的LeNet之MLP

    原文地址可以查看更多信息 本文主要参考于:Multilayer Perceptron  python源代码(github下载 CSDN免费下载) 本文主要介绍含有单隐层的MLP的建模及实现.建议在阅读 ...

  3. 学习笔记1:更改python下载源

    学习笔记1:更改python下载源,让安装速度更快! 1.常用的国内镜像源 清华镜像源 https://pypi.tuna.tsinghua.edu.cn/simple 中科大镜像源 https:// ...

  4. ROS学习笔记(二)——python、C++编译器以及ROS的安装

    ROS学习笔记(二)--python.C++编译器以及ROS的安装 文章目录 ROS学习笔记(二)--python.C++编译器以及ROS的安装 一.编译器的安装 二.ROS的安装 三.验证: 本文主 ...

  5. Polyworks脚本开发学习笔记(十五)-用Python连接Polyworks的COM组件

    Polyworks脚本开发学习笔记(十五)-用Python连接Polyworks的COM组件 用Polyworks脚本开发,没有高级语言的支持,功能难免单一,一些比较复杂的交互实现不了,界面和报告也很 ...

  6. python学习笔记(一)Python 简单介绍

    Python学习笔记(一)Python 简单介绍 Python介绍 Python简介 Python应用领域 Python是解释型的语⾔ 编译和解释的区别是什么? 编译型vs解释型 编译型 解释型 Py ...

  7. Python学习笔记(二)——Python基本图形绘制

    Python学习笔记(二)--Python基本图形绘制 文章目录 Python学习笔记(二)--Python基本图形绘制 不同编程语言的初心和适用对象 Python蟒蛇绘制 五星红旗绘制 这次笔记主要 ...

  8. 贝叶斯公式/朴素贝叶斯分类器及python自实现

    本文从贝叶斯与频率概率的对比入手理解贝叶斯决策的思维方式.通过两个实例理解贝叶斯的思想与流程,然后梳理了朴素贝叶斯分类器的算法流程,最后从零开始实现了朴素分类器的算法. 文章目录 1.起源.提出与贝叶 ...

  9. 机器学习(十一)-Naïve Bayes Classifier朴素贝叶斯分类器及Python实现

    原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...

最新文章

  1. oracle 取系统当前年份_oracle查询以当前年份为准的近些年数据
  2. monkey如何获取app包名
  3. “GAN之父”:当初为了深度学习买GPU,现在后悔没多挖点比特币
  4. 学了指针没学动态内存一切都白搭!C语言基础教程之内存管理
  5. 《算法入门经典大赛——培训指南》第二章考试
  6. Java并发编程—schedule方法和scheduleAtFixedRate方法的区别
  7. 汇编学习笔记(4)-伪指令(MASM)
  8. float取整数部分_python的除法问题 取整取余/向上向下取整/四舍五入
  9. THREE.js 环境贴图 360度浏览
  10. 计算机考试打字软件,书记员考试必备!打字练习软件及电脑练习打字快速提高方法?...
  11. 新手怎样利用博客推广
  12. 计算机监控系统在地铁中的应用有哪些,电力监控系统(PSCADA)在地铁中应用.doc
  13. ios VM snapshot invalid and could not be inferred from settings
  14. 深度分析红米note9和华为nova8哪个好-红米note9和华为nova8区别
  15. 点云地面滤波--渐进式形态学滤波
  16. 【收藏】Mimics Lnnovation Suite之导出功能
  17. canvas图片画圆角
  18. 大数据平台接入API数据
  19. 千分号‰打不出来 怎么打
  20. JavaEE框架类——监听器(观察者模式)和Servlet技术的监听器session沌化与活化技术

热门文章

  1. jQuery(六)元素属性操作和jQuery循环
  2. 卖萌型选手——前缀和、二分
  3. 用Python获取免费代理IP
  4. win10系统"打开或关闭系统图标"网络开关灰色的问题解决
  5. 使用Java播放MP3或Wav音频
  6. Newton型的Hermite差值(数值计算方法)
  7. 显示服务器错误404 not found,出现HTTP 错误 404.0 – Not Found 您要找的资源已被删除、已更名或暂时不可用...
  8. “我们无法设置移动热点” 解决方案
  9. 故乡风物——王爷山的打
  10. render_template