我需要能够处理数据集,应用我的分类算法(我选择了3个朴素的bayes版本),打印精度得分到终端,并执行5到10倍交叉验证,找出有多少电子邮件是垃圾邮件。

正如你所看到的,我已经完成了一些任务,但是没有进行交叉验证,也没有发现有多少电子邮件是垃圾邮件。import numpy as np

import pandas as pd

import sklearn

from sklearn.naive_bayes import BernoulliNB

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

from sklearn.model_selection import train_test_split

from sklearn import metrics

from sklearn.metrics import accuracy_score

# Read data

dataset = pd.read_csv('dataset.csv').values

# What shuffle does? How it helps?

np.random.shuffle(dataset)

X = dataset[ : , :48 ]

Y = dataset[ : , -1 ]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = .33, random_state = 17)

# Bernoulli Naive Bayes

BernNB = BernoulliNB(binarize = True)

BernNB.fit(X_train, Y_train)

y_expect = Y_test

y_pred = BernNB.predict(X_test)

print ("Bernoulli Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Multinomial Naive Bayes

MultiNB = MultinomialNB()

MultiNB.fit(X_train, Y_train)

y_pred = MultiNB.predict(X_test)

print ("Multinomial Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Gaussian Naive Bayes

GausNB = GaussianNB()

GausNB.fit(X_train, Y_train)

y_pred = GausNB.predict(X_test)

print ("Gaussian Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Bernoulli ALTERED Naive Bayes

BernNB = BernoulliNB(binarize = 0.1)

BernNB.fit(X_train, Y_train)

y_expect = Y_test

y_pred = BernNB.predict(X_test)

print ("Bernoulli 'Altered' Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

我已经研究了交叉验证,认为我现在可以应用这个,但它发现有多少电子邮件是垃圾邮件,我不明白???我有不同的navie bayes版本的准确性,但我如何才能真正找到垃圾邮件的数量?最后一列是1或0,它定义了它是否是垃圾邮件?所以我不知道该怎么做

python垃圾邮件过滤_垃圾邮件过滤器Python newbi相关推荐

  1. python训练opencb分类器_垃圾邮件分类.ipynb

    { "cells": [ { "cell_type": "markdown", "metadata": {}, &quo ...

  2. U-Mail反垃圾邮件网关过滤Locky勒索邮件

    近期,不少朋友圈有朋友发布相关的邮件提醒,说有关于Locky病毒勒索邮件的.看来这个病毒影响不小啊!下面就说说怎么来防止Locky勒索病毒的侵扰. 什么是Locky勒索病毒 Locky勒索病毒主要以邮 ...

  3. java邮件抄送_抄送邮件的抄送功能的研发

    通用各大网易系,腾讯QQ系,新浪系,阿里系等主流邮箱:同时也适用于企业开发的企业邮箱,进行收件和发件. 通用各大网易系,腾讯QQ系,新浪系,阿里系等主流邮箱:同时也适用于企业开发的企业邮箱,进行收件和 ...

  4. python控制语句第一章_【原创】Python第一章

    Python总是从第一行代码开始逐步执行,而C是从main函数开始执行. 在Python中,一切东西都是对象. 在Python中,没有C的花括号,不能任意排版,属于同一个语句块的语句需要使用相同的对齐 ...

  5. 高考python必考题目_假如高考考python编程,这些题目你会几个呢?

    Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...

  6. python派森编程软件_《派森》(Python)

    Python是一种面向对象.直译式计算机程序设计语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非 ...

  7. python 书籍 办公 自动化_你们都用Python实现了哪些办公自动化?

    这可能是很多非IT职场人士面临的困惑,想把python用到工作中,却不知如何下手?python在自动化办公领域越来越受欢迎,批量处理简直是加班族的福音. 自动化办公无非是excel.ppt.word. ...

  8. python批量处理 办公_你们都用Python实现了哪些办公自动化?

    这可能是很多非IT职场人士面临的困惑,想把python用到工作中,却不知如何下手?python在自动化办公领域越来越受欢迎,批量处理简直是加班族的福音. 自动化办公无非是excel.ppt.word. ...

  9. 我的python学习笔记全集_记录我的Python学习笔记

    不想再像以前那样,什么都从头开始学习语法.总结语法,这样反而会过分纠结于语法,耽误了开发,毕竟语言的主要属性是工具,次要的属性是语言本身. 所以还是先熟练使用语言去进行开发,等足够熟悉了,再去研究语言 ...

最新文章

  1. 拖放(Drag和Drop)--html5
  2. 【python图像处理】】python绘制散点图
  3. Spring Thread Pool 线程池的应用
  4. vagrant系列教程(四):vagrant搭建redis与redis的监控程序redis-stat(转)
  5. 大学生动漫网页设计模板 机动战士高达静态网页制作成品下载 HTML漫画网页作业带JS轮播图
  6. 入门 | 关于神经网络:你需要知道这些
  7. DM642 视频采集基本架构
  8. Java权限管理系统之代码实现(二)
  9. html 一键转发微信朋友圈,微信公众号H5,分享朋友,分享朋友圈处理
  10. 微信小程序设置字体无效_UI设计微信小程序用了苹方字体,前端却说做不了怎么办?...
  11. greenplum如何删除segment节点
  12. 金融学习之十——远期利率和远期利率协议
  13. java超级计算器,jdk自带类
  14. 拓嘉辰丰:拼多多差异化运营,做特色店铺
  15. 同源策略、跨域以及跨域的三种解决方案详解
  16. 个性化茅台之中国酒韵·十大花鸟
  17. 小米官网是不是用php开发的,小米官网抢手机排队功能,后台语言是什么
  18. 2020年第三方铁塔数据大汇总,全年新增超4900座
  19. 专升本第六讲 (世界的“小伙伴儿”都认识了)
  20. Android自动化框架对比

热门文章

  1. BigPipe和微前端
  2. 432_全O(1)的数据结构
  3. CSS ID选择器与类选择器的区别
  4. 江苏五年制专转本应该复习几轮
  5. C# DEV TextEdit 设置文本框只能输入数字(整数)
  6. IT企业文化の东方通信
  7. python初体验 ——>>> 模拟体育竞技
  8. 猜数游戏。预设一个0~9之间的整数。
  9. 【原创】Oracle CEO 埃里森 耶鲁演讲 (网易博客搬迁至此)
  10. Z世代下的鞋服数字化转型该如何推进?-容易网