1. 准备数据：从文本中构建词向量

1.1 词表到向量的转换函数

2. 训练算法：从词向量计算概率

3. 测试算法：根据现实情况修改分类器

3.1 朴素贝叶斯分类函数

4. 准备数据：文档词袋模型

1. 准备数据：从文本中构建词向量

1.1 词表到向量的转换函数

def loaddataset():  # 创建一些实验样本postinglist = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]classvec = [0, 1, 0, 1, 0, 1]  # 1代表侮辱性文字，0代表正常言论return postinglist, classvec# postinglist：进行词条切分后的文档集合#  classvec：类别标签的集合def createvocablist(dataset):  # 会创建一个包含在所有文档中出现的不重复词的列表vocabset = set([])  # 创建一个空集for document in dataset:vocabset = vocabset | set(document)  # 创建两个集合的并集return list(vocabset)def setofwords2vec(vocablist, inputset):# 输入参数为词汇表及某个文档returnvec = [0] * len(vocablist)  # 创建一个和词汇表等长的向量，并将其元素都设为0for word in inputset:  # 遍历文档中的所有单词if word in vocablist:returnvec[vocablist.index(word)] = 1# 如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1else:print("the word: %s is not in my Vocabulary!" % word)return returnvec# 输出的是文档向量，向量的每一元素为1或0# 分别表示词汇表中的单词在输入文档中是否出现

查看函数执行效果：

listOposts, listclasses = loaddataset()
myvocablist = createvocablist(listOposts)
print(myvocablist)

输出结果：

查看setofwords2vec（）的运行结果：

print(setofwords2vec(myvocablist, listOposts[0]))
print(setofwords2vec(myvocablist, listOposts[3]))

输出结果：

2. 训练算法：从词向量计算概率

import numpy as np
def trainnb0(trainmatrix,traincategory):# trainmatrix: 文档矩阵；# traincategory：由每篇文档类别标签所构成的向量numtraindocs = len(trainmatrix)numwords = len(trainmatrix[0])pabusive = sum(traincategory)/float(numtraindocs)"下两行初始化分子变量和分母变量"p0num = np.zeros(numwords); p1num = np.zeros(numwords)p0denom = 0.0; p1denom = 0.0for i in range(numtraindocs):if traincategory[i] == 1:p1num += trainmatrix[i]p1denom += sum(trainmatrix[i])else:p0num += trainmatrix[i]p0denom += sum(trainmatrix[i])p1vect = p1num/p1denomp0vect = p0num/p0denomreturn p0vect,p1vect,pabusive

从预先加载值中调入数据：

listOposts, listclasses = loaddataset()

构建一个包含所有词的列表myvocablist：

myvocablist = createvocablist(listOposts)

for循环使用词向量来填充trainmat列表：

trainmat = []
for postindoc in listOposts:trainmat.append(setofwords2vec(myvocablist, postindoc))

下面给出属于侮辱性文档的概率以及两个类别的概率向量：

p0v, p1v, pab = trainnb0(trainmat, listclasses)
print("pab:", pab)
print("属于侮辱性文档的概率：\n", p0v)
print("属于侮辱性文档的概率：\n", p1v)

输出结果：

3. 测试算法：根据现实情况修改分类器

修改后的trainb0（）函数：

def trainnb0(trainmatrix, traincategory):# trainmatrix: 文档矩阵；# traincategory：由每篇文档类别标签所构成的向量numtraindocs = len(trainmatrix)numwords = len(trainmatrix[0])pabusive = sum(traincategory)/float(numtraindocs)"下两行初始化分子变量和分母变量"p0num = np.ones(numwords); p1num = np.ones(numwords)p0denom = 2.0; p1denom = 2.0for i in range(numtraindocs):if traincategory[i] == 1:p1num += trainmatrix[i]p1denom += sum(trainmatrix[i])else:p0num += trainmatrix[i]p0denom += sum(trainmatrix[i])p1vect = np.log(p1num/p1denom)p0vect = np.log(p0num/p0denom)return p0vect,p1vect,pabusive

3.1 朴素贝叶斯分类函数

def classifynb(vec2classify, p0vec, p1vec, pclass1):p1 = sum(vec2classify * p1vec) + np.log(pclass1)  # element-wise multp0 = sum(vec2classify * p0vec) + np.log(1.0 - pclass1)if p1 > p0:return 1else:return 0def testingnb():listOposts, listclasses = loaddataset()myvocablist = createvocablist(listOposts)trainmat = []for postindoc in listOposts:trainmat.append(setofwords2vec(myvocablist, postindoc))p0v, p1v, pab = trainnb0(np.array(trainmat), np.array(listclasses))testentry = ['love', 'my', 'dalmation']thisdoc = np.array(setofwords2vec(myvocablist, testentry))print(testentry, 'classified as: ', classifynb(thisdoc, p0v, p1v, pab))testentry = ['stupid', 'garbage']thisdoc = np.array(setofwords2vec(myvocablist, testentry))print(testentry, 'classified as: ', classifynb(thisdoc, p0v, p1v, pab))

查看分类器输出结果：

testingnb()

输出结果：

4. 准备数据：文档词袋模型

def bagofwords2Vecmn(vocablist, inputset):returnVec = [0] * len(vocablist)for word in inputset:if word in vocablist:returnVec[vocablist.index(word)] += 1return returnVec

机器学习实战——4.5 使用Python进行文本分类相关推荐

《机器学习实战》chapter04 使用Python进行文本分类
一.使用朴素贝叶斯过滤垃圾邮件使用朴素贝叶斯计算每一封邮件是垃圾邮件的概率p1和非垃圾邮件的概率p0,如果p1 > p0,则是垃圾邮件,否则不是. 首先,我们先介绍一个例子: 对于任意一条评论 ...
【阿旭机器学习实战】【33】中文文本分类之情感分析--朴素贝叶斯、KNN、逻辑回归
[阿旭机器学习实战]系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流. 目录 1.查看原始数据结构 2.导入数据并进行数据处理 2.1 提取数据与标签 2.2 过滤停用词 ...
《机器学习实战》读书笔记(第一部分：分类)
参考<机器学习实战> 一.KNN 原理: 步骤: 数据处理归一化(x-min)/(max-min) 计算已知类别数据集中的点与当前点之间的距离选取与当前点距离最小的k个点确定k个点所在 ...
python文本分类_教你用python做文本分类
什么是文本分类一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个.通俗点说,就是拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育.文本分类是一个监督学习的过程,常见的应用就是 ...
【TensorFlow】Keras机器学习基础知识-使用TF.Hub进行文本分类
此笔记本(notebook)使用评论文本将影评分为积极(positive)或消极(nagetive)两类.这是一个二元(binary)或者二分类问题,一种重要且应用广泛的机器学习问题. 本教程演示了使 ...
NLP入门实践总结：教你用Python实现文本分类（附代码）
分类问题是NLP(Natural Language Processing,自然语言处理)领域的经典常见任务,而随着预训练模型的发展,预训练时代下的文本分类算法逐步成为了我们从事NLP相关工作的必备技能 ...
【代码实战】基于pytorch实现中文文本分类任务
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货来自 | 知乎地址 | https://zhuanlan.zhihu.com/p/73176 ...
TensorFlow 2官方教程 . Keras机器学习基础知识 . 使用TF Hub进行文本分类
写在前面此篇博客转载自tensorflow官方教程中文翻译版: https://www.tensorflow.org/tutorials/keras/text_classification_with ...
python 中文文本分类
写这篇博文用了很多时间和精力,如果这篇博文对你有帮助,希望您可以打赏给博主相国大人.哪怕只捐1毛钱,也是一种心意.通过这样的方式,也可以培养整个行业的知识产权意识.我可以和您建立更多的联系,并且在相关 ...

机器学习实战——4.5 使用Python进行文本分类

1. 准备数据：从文本中构建词向量

1.1 词表到向量的转换函数

2. 训练算法：从词向量计算概率

3. 测试算法：根据现实情况修改分类器

3.1 朴素贝叶斯分类函数

4. 准备数据：文档词袋模型

机器学习实战——4.5 使用Python进行文本分类相关推荐

最新文章

热门文章

机器学习实战——4.5 使用Python进行文本分类

1. 准备数据：从文本中构建词向量

1.1 词表到向量的转换函数

2. 训练算法：从词向量计算概率

3. 测试算法：根据现实情况修改分类器

3.1 朴素贝叶斯分类函数

4. 准备数据： 文档词袋模型

机器学习实战——4.5 使用Python进行文本分类相关推荐

最新文章

热门文章

4. 准备数据：文档词袋模型