python垃圾邮件过滤_垃圾邮件过滤器Python newbi
我需要能够处理数据集,应用我的分类算法(我选择了3个朴素的bayes版本),打印精度得分到终端,并执行5到10倍交叉验证,找出有多少电子邮件是垃圾邮件。
正如你所看到的,我已经完成了一些任务,但是没有进行交叉验证,也没有发现有多少电子邮件是垃圾邮件。import numpy as np
import pandas as pd
import sklearn
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import accuracy_score
# Read data
dataset = pd.read_csv('dataset.csv').values
# What shuffle does? How it helps?
np.random.shuffle(dataset)
X = dataset[ : , :48 ]
Y = dataset[ : , -1 ]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = .33, random_state = 17)
# Bernoulli Naive Bayes
BernNB = BernoulliNB(binarize = True)
BernNB.fit(X_train, Y_train)
y_expect = Y_test
y_pred = BernNB.predict(X_test)
print ("Bernoulli Accuracy Score: ")
print (accuracy_score(y_expect, y_pred))
# Multinomial Naive Bayes
MultiNB = MultinomialNB()
MultiNB.fit(X_train, Y_train)
y_pred = MultiNB.predict(X_test)
print ("Multinomial Accuracy Score: ")
print (accuracy_score(y_expect, y_pred))
# Gaussian Naive Bayes
GausNB = GaussianNB()
GausNB.fit(X_train, Y_train)
y_pred = GausNB.predict(X_test)
print ("Gaussian Accuracy Score: ")
print (accuracy_score(y_expect, y_pred))
# Bernoulli ALTERED Naive Bayes
BernNB = BernoulliNB(binarize = 0.1)
BernNB.fit(X_train, Y_train)
y_expect = Y_test
y_pred = BernNB.predict(X_test)
print ("Bernoulli 'Altered' Accuracy Score: ")
print (accuracy_score(y_expect, y_pred))
我已经研究了交叉验证,认为我现在可以应用这个,但它发现有多少电子邮件是垃圾邮件,我不明白???我有不同的navie bayes版本的准确性,但我如何才能真正找到垃圾邮件的数量?最后一列是1或0,它定义了它是否是垃圾邮件?所以我不知道该怎么做
python垃圾邮件过滤_垃圾邮件过滤器Python newbi相关推荐
- python训练opencb分类器_垃圾邮件分类.ipynb
{ "cells": [ { "cell_type": "markdown", "metadata": {}, &quo ...
- U-Mail反垃圾邮件网关过滤Locky勒索邮件
近期,不少朋友圈有朋友发布相关的邮件提醒,说有关于Locky病毒勒索邮件的.看来这个病毒影响不小啊!下面就说说怎么来防止Locky勒索病毒的侵扰. 什么是Locky勒索病毒 Locky勒索病毒主要以邮 ...
- java邮件抄送_抄送邮件的抄送功能的研发
通用各大网易系,腾讯QQ系,新浪系,阿里系等主流邮箱:同时也适用于企业开发的企业邮箱,进行收件和发件. 通用各大网易系,腾讯QQ系,新浪系,阿里系等主流邮箱:同时也适用于企业开发的企业邮箱,进行收件和 ...
- python控制语句第一章_【原创】Python第一章
Python总是从第一行代码开始逐步执行,而C是从main函数开始执行. 在Python中,一切东西都是对象. 在Python中,没有C的花括号,不能任意排版,属于同一个语句块的语句需要使用相同的对齐 ...
- 高考python必考题目_假如高考考python编程,这些题目你会几个呢?
Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...
- python派森编程软件_《派森》(Python)
Python是一种面向对象.直译式计算机程序设计语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非 ...
- python 书籍 办公 自动化_你们都用Python实现了哪些办公自动化?
这可能是很多非IT职场人士面临的困惑,想把python用到工作中,却不知如何下手?python在自动化办公领域越来越受欢迎,批量处理简直是加班族的福音. 自动化办公无非是excel.ppt.word. ...
- python批量处理 办公_你们都用Python实现了哪些办公自动化?
这可能是很多非IT职场人士面临的困惑,想把python用到工作中,却不知如何下手?python在自动化办公领域越来越受欢迎,批量处理简直是加班族的福音. 自动化办公无非是excel.ppt.word. ...
- 我的python学习笔记全集_记录我的Python学习笔记
不想再像以前那样,什么都从头开始学习语法.总结语法,这样反而会过分纠结于语法,耽误了开发,毕竟语言的主要属性是工具,次要的属性是语言本身. 所以还是先熟练使用语言去进行开发,等足够熟悉了,再去研究语言 ...
最新文章
- 拖放(Drag和Drop)--html5
- 【python图像处理】】python绘制散点图
- Spring Thread Pool 线程池的应用
- vagrant系列教程(四):vagrant搭建redis与redis的监控程序redis-stat(转)
- 大学生动漫网页设计模板 机动战士高达静态网页制作成品下载 HTML漫画网页作业带JS轮播图
- 入门 | 关于神经网络:你需要知道这些
- DM642 视频采集基本架构
- Java权限管理系统之代码实现(二)
- html 一键转发微信朋友圈,微信公众号H5,分享朋友,分享朋友圈处理
- 微信小程序设置字体无效_UI设计微信小程序用了苹方字体,前端却说做不了怎么办?...
- greenplum如何删除segment节点
- 金融学习之十——远期利率和远期利率协议
- java超级计算器,jdk自带类
- 拓嘉辰丰:拼多多差异化运营,做特色店铺
- 同源策略、跨域以及跨域的三种解决方案详解
- 个性化茅台之中国酒韵·十大花鸟
- 小米官网是不是用php开发的,小米官网抢手机排队功能,后台语言是什么
- 2020年第三方铁塔数据大汇总,全年新增超4900座
- 专升本第六讲 (世界的“小伙伴儿”都认识了)
- Android自动化框架对比