一、何为贝叶斯

贝叶斯基本公式:P(A|B)=P(B|A)*P(A)/P(B)
假设事件 B={一封邮件}，事件A={这封邮件是垃圾邮件}，P(A|B)表示这封邮件是垃圾邮件的概率。可想而知，我们无法直接求得这个概率，此时借助贝叶斯就可以对该事件进行一次逆推

P(A|B)称为后验概率(posterior),这是我们需要结合先验概率和证据计算之后才能知道的。
P(B|A)称为似然(likelihood),在事件A发生的情况下，事件B(或evidence)的概率有多大
P(A)称为先验概率(prior), 事件A发生的概率有多大
P(B)称为证据(evidence)，即无论事件如何，事件B(或evidence)的可能性有多大

二、项目实战-垃圾分类

1. 导包

import random
import numpy as np
import re

2. 代码示例

def textParse(input_text):'''读取文本数据，进行正则切分，将切分后的单词进行小写化:param input_text: 邮件文本:return: 切分后的单词列表'''list_world = re.split(r'\W+', input_text)return [world.lower() for world in list_world if len(world) > 2]def createVocabList(doclist):'''创建语料库:param doclist: 传入单词列表:return: 返回无重复的语料库'''vocablist = set()for doc in doclist:vocablist = vocablist | set(doc)return list(vocablist)def setOfWordVec(vocablist, inputSet):'''文本向量化:param vocablist: 语料库:param inputSet: 单篇邮件的单词列表:return: 统计单词出现次数的向量'''returnVec = [0] * len(vocablist)for word in inputSet:if word in vocablist:returnVec[vocablist.index(word)] += 1return returnVecdef trainNB(trainMat, trainClass):'''训练模型:param trainMat: 训练集单词矩阵:param trainClass: 训练集对应类别(1代表垃圾邮件，0代表正常邮件):return: 垃圾邮件似然概率，正常文件似然概率，垃圾文件先验概率'''numTrainDocs = len(trainMat)numberWorld = len(trainMat[0])p1 = sum(trainClass) / numTrainDocsp0Num = np.ones((numberWorld))  # 拉普拉斯平滑p1Num = np.ones((numberWorld))p0Demo = 2  # 一般情况下分为几类就写几p1Demo = 2for i in range(numTrainDocs):if trainClass[i] == 1:p1Num += trainMat[i]p1Demo += sum(trainMat[i])else:p0Num += trainMat[i]p0Demo += sum(trainMat[i])p1Vec = np.log(p1Num / p1Demo)p0Vec = np.log(p0Num / p0Demo)return p1Vec, p0Vec, p1def classifyNB(wordVec, p1Vec, p0Vec, p1):'''贝叶斯计算，分类:param wordVec: 测试集文本向量:param p1Vec: 垃圾邮件似然概率:param p0Vec: 正常邮件似然概率:param p1: 垃圾邮件先验概率:return: 分类结果'''p1 = np.log(p1) + sum(wordVec * p1Vec)p0 = np.log(1 - p1) + sum(wordVec * p0Vec)if p1 > p0:return 1else:return 0def spam():'''主函数:return:'''doclist = []classlist = []for i in range(1, 26):wordlist = textParse(open("data/ham/{0}.txt".format(i), 'r').read())doclist.append(wordlist)classlist.append(1)  # 垃圾邮件标签wordlist = textParse(open("data/spam/{0}.txt".format(i), 'r').read())doclist.append(wordlist)classlist.append(0)  # 正常邮件标签vocablist = createVocabList(doclist)  # 创建语料表trainset = list(range(50))testset = []for i in range(10):randIndex = int(random.uniform(0, len(trainset)))testset.append(trainset[randIndex])del trainset[randIndex]trainMat = []trainClass = []for docIndex in trainset:trainMat.append(setOfWordVec(vocablist, doclist[docIndex]))trainClass.append(classlist[docIndex])p1Vec, p0Vec, p1 = trainNB(np.array(trainMat), np.array(trainClass))errorCount = 0for docIndex in testset:wordVec = setOfWordVec(vocablist, doclist[docIndex])p = classifyNB(np.array(wordVec), p1Vec, p0Vec, p1)if p != classlist[docIndex]:errorCount += 1return errorCount

3. 测试代码

if __name__ == "__main__":errorCount = 0for i in range(10):print(f"第{i+1}轮分类错误：{spam()}个...")

4.测试结果

注意：需要数据请私聊作者！！！

机器学习贝叶斯-垃圾邮件识别相关推荐

Python实现基于朴素贝叶斯的垃圾邮件分类标签： python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读评论(1) 收藏举报分类：机器学习（19）听说
Python实现基于朴素贝叶斯的垃圾邮件分类标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读评论(1) 收藏举报分类: 机器学习(19) 听说朴 ...
朴素贝叶斯-垃圾邮件（中文的）处理
#coding=utf-8 from sklearn.naive_bayes import MultinomialNB,GaussianNB import numpy as np import jie ...
朴素贝叶斯——垃圾邮件过滤
文章目录利用朴素贝叶斯进行文档分类 1.获取数据集 2.切分文本 3.构建词表和分类 4.构建分类器 5.测试算法利用朴素贝叶斯进行垃圾邮件过滤 1.导入数据集 2.垃圾邮件预测总结利用朴素贝 ...
贝叶斯垃圾邮件分类问题中联合概率的推导
主旨讨论贝叶斯垃圾邮件分类问题中联合概率的计算问题.通过借鉴现有的资料,整理出一种数学上等价,同时基于本科概率论课程较容易理解的计算公式. 背景知识 2002年Paul Graham提出了一种利用贝 ...
python实现朴素贝叶斯垃圾邮件分类
查看通俗易懂的贝叶斯垃圾邮件分类原理请点击此处下载邮件数据请点击此处 import os import re import string import math import numpy as ...
机器学习实战4（1）：朴素贝叶斯:垃圾邮件的识别
一.朴素贝叶斯基础知识预备数学知识: A. 无约束条件的优化 1.求极值问题人工智能中最核心的数学环节是求出一个目标函数(object function)的最小值/最大值.求出一个函数最小是/最大 ...
机器学习-朴素贝叶斯-垃圾邮件
一:朴素贝叶斯算法概述 1:朴素贝叶斯(Naïve Bayes, NB)算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法.朴素:特征条件独立:贝叶斯:基于贝叶斯定理.属于监督学习的生成模型,实现 ...
机器学习之贝叶斯垃圾邮件分类
代码来源于:https://www.cnblogs.com/huangyc/p/10327209.html ,本人只是简介学习 1. 贝叶斯.py import numpy as np from w ...
文本处理之贝叶斯垃圾邮件分类
本文所讲解的是如何通过Python将文本读取,并且将每一个文本生成对应的词向量并返回. 文章的背景是将50封邮件(包含25封正常邮件,25封垃圾邮件)通过贝叶斯算法对其进行分类. 主要分为如下几个部分 ...

机器学习贝叶斯-垃圾邮件识别

文章目录

一、何为贝叶斯

二、项目实战-垃圾分类

1. 导包

2. 代码示例

3. 测试代码

4.测试结果

机器学习贝叶斯-垃圾邮件识别相关推荐

最新文章

热门文章