直入主题,我们需要用到jieba库的一些函数,这个python库是国内大神编写的。

我们需要用到文件的一部分内容,这里我们还需要两个txt文本

1.水浒传部分文本(也可以是全部文本)

2.水浒传内所有完整的姓名(除称号外)

文本在网上可以找得到,我直接上代码了

import jieba
txt=open("AllManAreBrothers.txt","rb").read()
txt_name=open("heros_name.txt","rb").read()
words=jieba.lcut(txt)
words_name=jieba.lcut(txt_name)
counts={}
for word in words:if len(word)==1:continueif word not in words_name:continuecounts[word]=counts.get(word,0)+1
sorted(counts.items(), key=lambda x:x[0], reverse=True)
for i in range(10):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))
  1. import jieba声明jieba库
  2. 这里第一个文本名是部分水壶的文本,第二个文本名是姓名的文本
  3. 用两个变量去承接两个jieba库的函数,这个 jieba.lcut() 是取出文本中的词语,并以列表的形式返回
  4. 我们用for循环遍历水浒文本中的内容,如果word的长度为一,说明是符号,如果word不存在与姓名文本说明不是完整姓名,那么都跳过本次循环,我们将符合条件的word存入counts中,coounts是一个空字典,前面已经声明
  5. items函数返回可字典中可遍历的 元组数组也就是元组组成的数组
  6. sorted(counts.items(), key=lambda x:x[0], reverse=True)是一个排序功能,它根据字典的值进行键值排序 reverse=True是从大到小排序。lambda需要自己去了解,不好详解,
  7. 这里的print里面的东西{0}和{1}是位置<是左对齐10是数字宽度,同理>是右对齐这些需要自己去深挖

统计水浒传完整姓名前十位:jieba库应用,python编程相关推荐

  1. python编程狮app题库_‎Python编程狮-零基础学Python im App Store

    Python编程狮是W3Cschool编程狮旗下专门为零基础Python编程爱好者打造的一款入门工具App,致力于帮助初学者入门,轻松迈入编程世界.学Python,从这里开始! [零基础也能学]初学者 ...

  2. python编程狮app题库_‎Python编程狮-零基础学Python App Storessa

    Python编程狮是W3Cschool编程狮旗下专门为零基础Python编程爱好者打造的一款入门工具App,致力于帮助初学者入门,轻松迈入编程世界.学Python,从这里开始! [零基础也能学]初学者 ...

  3. python jieba库_python中jieba库的介绍和应用

    jieba库作为python中的第三方库,在平时是非常实用的,例如一些网站就是利用jieba库的中文分词搜索关键词进行工作. 一.安装环境 window + python 二.安装方式 在电脑命令符( ...

  4. Python jieba库简介和使用

    今天继续给大家介绍Python相关知识,本文主要内容是Python jieba库简介和使用. 一.jieba库概述 jieba库是Python的一个第三方库,该库常用于中文分词.所谓分词,就是给定一段 ...

  5. 【jieba库】使用jieba库对《三国演义》全篇进行分词处理,统计《三国演义》中各个人物的出场次数,打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡

    程序解决问题描述如下: 使用jieba库,该语句可以分割中文语句中的词汇.同时掌握对txt文档的读写操作,对其中出现的高频词汇进行了统计.建立一个排除词库,用于排除程序对一些无意义的词的计数,使得最终 ...

  6. Python—— 组合数据类型(模块5: jieba库的使用)(实例:基本统计值计算文本词频统计)

    前言 本篇主要介绍组合数据类型,以基本统计值计算为例,介绍函数使用和各种类型定义.以文本词频统计为例,介绍Jieba库的使用. (从本篇开始,出现的一些库中函数介绍以及部分简单代码都将以图片形式呈现) ...

  7. Python_note6 组合数据类型+jieba库+文本词频统计

    集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...

  8. python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...

    模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中 ...

  9. python 小说词频统计,jieba库实例

    以<我的微信连三界>这本小说为例,进行字符统计 对中文.英文.标点符号.数字等分别统计, 统计结果暂时储存在字典 countchr 中 用jieba库的分词功能将文本中所有可能的词(和字符 ...

最新文章

  1. Could not get unknown property ‘compileSdkVersion‘ for project
  2. Could not open a connection to your authentication agent
  3. VirtualBox 安装Centos 之访问虚拟机里面的服务受阻解决方案
  4. HDU 2065 红色病毒问题(生成函数)
  5. OUR D3.JS 数据可视化专题站(转)
  6. Linux下进行Web服务器压力(并发)测试工具http_load、webbench、ab、Siege、autobench简单使用教程(转)...
  7. 如何在 ASP.NET Core 中使用 URL Rewriting 中间件
  8. Flutter中富文件标签的解决方案
  9. Java对MongoDb的CURD操作
  10. 券商结算VS托管行结算
  11. 字节跳动技术团队年度 TOP10 技术干货,陪你度过不平凡的 2020
  12. 『互联网架构』软件架构-软件环境的持续发布管理(上)
  13. android app申请内存大小,Android中App可分配内存的大小
  14. combo box使用
  15. LTspice - 基础操作2
  16. python计算差商_Python实现牛顿插值法(差商表)
  17. NURBSglunurbssurface
  18. Matlab实现拉格朗日插值函数
  19. vue 关于父组件同时多次调用子组件而产生的 this取值 的bug问题
  20. android app 清理缓存图片,支付宝APP怎么清理缓存 支付宝安卓版缓存清理方法

热门文章

  1. 【C#】Summary注释
  2. python修改csv文件中列的数据类型_pandas读取CSV文件时查看修改各列的数据类型格式...
  3. 菜鸟学Struts——I18N对国际化的支持
  4. gitlab 页面添加不带密码的sshkey后,git clone git@xxx.com:xx.git 仍提示需要输入密码的问题解决
  5. 输入一行字符,将其中的大写字母转换成小写字母,其中的小写字母转换成大写字母C++--tolower、isalpha等函数的使用
  6. 字词句段篇章语言训练人教版上册r_小学语文字词句段篇章教学
  7. [CVE-2022-30190]MICROSOFT OFFICE MSDT代码执行漏洞
  8. 工业用微型计算机02241答案,2001年10月工业用微型计算机真题及答案
  9. pandas fillna(0)
  10. Tik Tok登顶第一,出海公会卫冕第一