问题描述

使用sklearn中的乳腺癌数据集，将数据集以7:3的比例分别划分为训练集与测试集，以及对应的标签；
使用训练集数据训练基于高斯模型的朴素贝叶斯分类器；
对测试文档进行测试，得出分类评价指标：精确率、召回率与F1值，并计算测试集中分类错误的样本个数，以及输出错误分类样本的真实标签。

文章目录

问题描述
朴素贝叶斯分类器
分割数据集
高斯模型的朴素贝叶斯分类器
实验结果

朴素贝叶斯分类器

朴素贝叶斯分类器是对于特征维数较小而训练样本数比较多的分类问题而使用的分类器，其假设所有特征在类别已知的条件下相互独立。在构建分类器时，只需要逐个估计出每个类别的训练样本在每一维特征上的分布，就可以得到每个类别的条件概率密度，大大减少了需要估计参数的数量。也就是说，在给定样本的目标特征值的情况下观察到特征x1,x2,…,xn的联合概率等于每个单独的特征的概率的乘积，因此可以得到：

其中p(v)表示先验概率，p(xi|v)表示后验概率，因为我们已经假设各个特征独立，因此p(x1,x2,…,xn|v)可以表示为上式中乘积的形式

分割数据集

使用train_test_split函数进行分割数据集，通过查看pycharm里面这个函数的源码显示为Split arrays or matrices into random train and test subsets，也就是将数据集进行随机分割为训练集和测试集。这个函数有个test_size参数，这个是指test数据集占整个数据集的比列，在这里设置为0.3，shuffle这个参数用来表示是否进行随机分割打乱数据集的顺序，在这里我设置为了True。

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer['target'], test_size=0.3, shuffle=True)

X_train为训练集的数据, X_test为预测集的数据, y_train为训练集的标签, y_test为测试集的标签。

高斯模型的朴素贝叶斯分类器

scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。
如果如果样本特征的分大部分是多元离散值，使用MultinomialNB比较合适。
如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。
GaussianNB假设特征的先验概率为正态分布

在这个实验中使用GaussianNB（）函数创建基于高斯模型的朴素贝叶斯分类器

# 创建一个基于高斯模型的朴素贝叶斯分类器
naive = GaussianNB()                            # 创建分类模型
naive.fit(X_train, y_train)                     # 进行训练
y_predict = naive.predict(X_test)               # 进行预测

实验结果

在这个实验中，错误分类的个数为8个，然后通过错误分类的个数除以总的测试集的个数，算出模型的准确率为0.953，这个结果和accuracy_score函数输出的结果一致，然后这个模型的recall值为0.95，F1-score也是0.95，可以看出来这个基于高斯模型的朴素贝叶斯分类器性能较好。

基于贝叶斯分类器进行sklearn乳腺癌数据集的分类相关推荐

基于朴素贝叶斯的乳腺癌数据集分类
目录 1. 作者介绍 2. 朴素贝叶斯算法 2.1 贝叶斯算法 2.2 朴素贝叶斯算法 3. Sklearn中的朴素贝叶斯算法 3.1 高斯朴素贝叶斯算法 3.2 多项式朴素贝叶斯算法 3.3 伯努利 ...
基于贝叶斯分类器的手写字判别
项目介绍: 使用贝叶斯分类器进行手写字体判别,数据为mnist.pkl.gz,下载地址https://pan.baidu.com/s/1I9GRg-wLEDvt-JmZ2_Os4A 数据分为训练数据, ...
朴素贝叶斯分类器简介及C++实现(性别分类)
贝叶斯分类器是一种基于贝叶斯定理的简单概率分类器. 在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器.朴素贝叶斯是文本分类的一种热门(基准)方法 ...
基于贝叶斯分类器的社区UGC反垃圾模型
业务背景背景:某金融APP的有料社区中,存在潜在用户发布垃圾信息(敏感.广告)等信息,需要构建一个文本分类模型进行相应拦截. 业务特点:广告占主要部分,含有微信.借贷.基金.股票等,敏感占次要. 我 ...
代码实践：基于LSTM网络的DEAP情感数据集情感分类
2023/4/5 -4/17 脑机接口学习内容一览: 这一篇文章主要对DEAP数据集转化为python可以处理的格式,并且进一步使用LSTM网络进行分类工作. 一.数据集分析详情见于官网:DEAPd ...
基于朴素贝叶斯分类器的西瓜数据集 2.0 预测分类_第十章：利用Python实现朴素贝叶斯模型
免责声明:本文是通过网络收集并结合自身学习等途径合法获取,仅作为学习交流使用,其版权归出版社或者原创作者所有,并不对涉及的版权问题负责.若原创作者或者出版社认为侵权,请联系及时联系,我将立即删除文章, ...
基于朴素贝叶斯分类器的钞票真伪识别模型
基于朴素贝叶斯分类器的钞票真伪识别模型内容本实验通过实现钞票真伪判别案例来展开学习朴素贝叶斯分类器的原理及应用. 本实验的主要技能点: 1. 朴素贝叶斯分类器模型的构建 2. 模型的评估与预测 3 ...
贝叶斯分类器原理——学习笔记
贝叶斯分类器原理简介一.逆概率推理与贝叶斯公式 1.确定性推理与概率推理 2.贝叶斯公式二.贝叶斯分类的原理三.概率估计 1.先验概率的估计 2.类条件概率的估计四.贝叶斯分类的错误率五. ...
基于朴素贝叶斯分类器的西瓜数据集 2.0 预测分类_机器学习之朴素贝叶斯
1.贝叶斯原理朴素贝叶斯分类(Naive Bayesian,NB)源于贝叶斯理论,是一类基于概率的分类器,其基本思想:假设样本属性之间相互独立,对于给定的待分类项,求解在此项出现的情况下其他各个类别 ...

基于贝叶斯分类器进行sklearn乳腺癌数据集的分类