实现思路

主要思路

提取文本，将文本分成若干词组，将不需要的词组删除，遍历词组统计词组出现的次数。

具体步骤

首先将文本读取并保存为字符串；
使用jieba库的lcut函数将字符串分开返回词组列表；
遍历词组列表计算词组出现次数将，词组及次数添加到字典中（同时需要考虑人物多称的情况）
需要考虑jieba库会分开的是所有词语，而不是具体的人物名称，因此需要考虑将不需要的词组排除；
将字典的键和值保存为列表，并按次数排序，最后输出。

代码实现

import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","如何","主公","军士","左右","军马","引兵","次日","大喜","天下","东吴","于是","今日","不敢","魏兵","陛下","一人","都督","人马","不知","汉中"}#此字典用于放需要排除的非人物词语
txt = open("三国演义.txt","r",encoding='utf-8').read();
words = jieba.lcut(txt) #使用jieba库对文本进行精确分词，返回列表类型
counts = {} #使用字典保存各人物的出场次数
for word in words:if len(word) == 1:#词长度为1的情况直接下一个词continueelif word == "诸葛亮" or word == "孔明曰":#修改文本中出现的人物名字，一个人物可能有多个别称rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1#将rword添加到字典中，如果不存在字典中则返回0，如果存在则在原值加1
for word in excludes:#遍历需要排除词语的字典，将其在word中删除del(counts[word])
items = list(counts.items())#将字典的元素和对应的值，转换为存放元组的列表，以便排序
items.sort(key = lambda x:x[1],reverse=True)#按照列表中元组的第二个元素（即次数）排序
for i in range(10):#输出场次数最多的前十名人物word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

运行结果

【Python】 -- 使用jieba库实现对《三国演义》人物出场次数统计相关推荐

红楼梦人物出场次数统计
这个也是学习过程中的一个成果吧,希望大家能批评指正. 红楼梦人物出场次数统计.亮点在于,考虑了人物的别称,以及有较为丰富的排除词库.如凤姐的称谓就有许多,凤辣子,凤姐,王熙凤等等,还有黛玉,有林黛玉, ...
python三国演义人物统计分析_python统计三国演义人物出场次数
[Python] 纯文本查看复制代码import jieba excludes = {"将军", "却说", "荆州", "二人 ...
Python词频统计——《红楼梦》人物出场次数统计
代码实现 import jieba as j names = ['贾母', '贾珍', '贾蓉', '贾赦', '贾政', '袭人', '王熙凤', '紫鹃', '翠缕', '香菱','豆官', '薛 ...
Python零基础入门习题（六）红楼梦人物出场次数统计
前言 Python语言简单易用,可读性强.在了解基础语法后,你就可以来尝试解决以下的题目.放心,本系列的文章都对新手非常友好. 一.生日悖论生日悖论是指在不少于 23 个人中至少有两人生日相同的概率 ...
三国演义人物出场顺序统计(文本词频统计)
1.使用jieba库对中文文本进行分词 2.使用字典表达词频 (与hamlet案例相似) import jieba txt = open("threekingdoms.txt", ...
词频统计——三国人物出场次数统计
#三国演义人物的升级版 #1.给出排除词库 #CalThreeKingdomsV1.py # import jieba # txt = open("threekingdoms.txt&quo ...
红楼梦人物出场统计python_Python程序设计习题3——红楼梦人物出场次数统计
统计<红楼梦>中前20位出场最多的人物使用Python编写程序,统计书籍<红楼梦>中前20位出场次数最多的人物 #红楼梦人物出场统计 import jieba txt=ope ...
Ubuntu的中文是哪种字体？python的词云分析和三国演义人物出场统计
Ubuntu的默认中文是哪种呢? fc-list :lang=zh 用这个命令查看出来 NotoSerifCJK-Bold.ttc 为什么要知道这个呢? 来看一块python3代码 import ji ...
【jieba库】使用jieba库对《三国演义》全篇进行分词处理，统计《三国演义》中各个人物的出场次数，打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡
程序解决问题描述如下: 使用jieba库,该语句可以分割中文语句中的词汇.同时掌握对txt文档的读写操作,对其中出现的高频词汇进行了统计.建立一个排除词库,用于排除程序对一些无意义的词的计数,使得最终 ...

【Python】 -- 使用jieba库实现对《三国演义》人物出场次数统计

什么是jieba库

jieba库解析

实现思路

主要思路

具体步骤

代码实现

运行结果

【Python】 -- 使用jieba库实现对《三国演义》人物出场次数统计相关推荐

最新文章

热门文章