统计水浒传完整姓名前十位:jieba库应用,python编程
直入主题,我们需要用到jieba库的一些函数,这个python库是国内大神编写的。
我们需要用到文件的一部分内容,这里我们还需要两个txt文本
1.水浒传部分文本(也可以是全部文本)
2.水浒传内所有完整的姓名(除称号外)
文本在网上可以找得到,我直接上代码了
import jieba
txt=open("AllManAreBrothers.txt","rb").read()
txt_name=open("heros_name.txt","rb").read()
words=jieba.lcut(txt)
words_name=jieba.lcut(txt_name)
counts={}
for word in words:if len(word)==1:continueif word not in words_name:continuecounts[word]=counts.get(word,0)+1
sorted(counts.items(), key=lambda x:x[0], reverse=True)
for i in range(10):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))
- import jieba声明jieba库
- 这里第一个文本名是部分水壶的文本,第二个文本名是姓名的文本
- 用两个变量去承接两个jieba库的函数,这个 jieba.lcut() 是取出文本中的词语,并以列表的形式返回
- 我们用for循环遍历水浒文本中的内容,如果word的长度为一,说明是符号,如果word不存在与姓名文本说明不是完整姓名,那么都跳过本次循环,我们将符合条件的word存入counts中,coounts是一个空字典,前面已经声明
- items函数返回可字典中可遍历的 元组数组也就是元组组成的数组
- sorted(counts.items(), key=lambda x:x[0], reverse=True)是一个排序功能,它根据字典的值进行键值排序 reverse=True是从大到小排序。lambda需要自己去了解,不好详解,
- 这里的print里面的东西{0}和{1}是位置<是左对齐10是数字宽度,同理>是右对齐这些需要自己去深挖
统计水浒传完整姓名前十位:jieba库应用,python编程相关推荐
- python编程狮app题库_Python编程狮-零基础学Python im App Store
Python编程狮是W3Cschool编程狮旗下专门为零基础Python编程爱好者打造的一款入门工具App,致力于帮助初学者入门,轻松迈入编程世界.学Python,从这里开始! [零基础也能学]初学者 ...
- python编程狮app题库_Python编程狮-零基础学Python App Storessa
Python编程狮是W3Cschool编程狮旗下专门为零基础Python编程爱好者打造的一款入门工具App,致力于帮助初学者入门,轻松迈入编程世界.学Python,从这里开始! [零基础也能学]初学者 ...
- python jieba库_python中jieba库的介绍和应用
jieba库作为python中的第三方库,在平时是非常实用的,例如一些网站就是利用jieba库的中文分词搜索关键词进行工作. 一.安装环境 window + python 二.安装方式 在电脑命令符( ...
- Python jieba库简介和使用
今天继续给大家介绍Python相关知识,本文主要内容是Python jieba库简介和使用. 一.jieba库概述 jieba库是Python的一个第三方库,该库常用于中文分词.所谓分词,就是给定一段 ...
- 【jieba库】使用jieba库对《三国演义》全篇进行分词处理,统计《三国演义》中各个人物的出场次数,打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡
程序解决问题描述如下: 使用jieba库,该语句可以分割中文语句中的词汇.同时掌握对txt文档的读写操作,对其中出现的高频词汇进行了统计.建立一个排除词库,用于排除程序对一些无意义的词的计数,使得最终 ...
- Python—— 组合数据类型(模块5: jieba库的使用)(实例:基本统计值计算文本词频统计)
前言 本篇主要介绍组合数据类型,以基本统计值计算为例,介绍函数使用和各种类型定义.以文本词频统计为例,介绍Jieba库的使用. (从本篇开始,出现的一些库中函数介绍以及部分简单代码都将以图片形式呈现) ...
- Python_note6 组合数据类型+jieba库+文本词频统计
集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...
- python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...
模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中 ...
- python 小说词频统计,jieba库实例
以<我的微信连三界>这本小说为例,进行字符统计 对中文.英文.标点符号.数字等分别统计, 统计结果暂时储存在字典 countchr 中 用jieba库的分词功能将文本中所有可能的词(和字符 ...
最新文章
- Could not get unknown property ‘compileSdkVersion‘ for project
- Could not open a connection to your authentication agent
- VirtualBox 安装Centos 之访问虚拟机里面的服务受阻解决方案
- HDU 2065 红色病毒问题(生成函数)
- OUR D3.JS 数据可视化专题站(转)
- Linux下进行Web服务器压力(并发)测试工具http_load、webbench、ab、Siege、autobench简单使用教程(转)...
- 如何在 ASP.NET Core 中使用 URL Rewriting 中间件
- Flutter中富文件标签的解决方案
- Java对MongoDb的CURD操作
- 券商结算VS托管行结算
- 字节跳动技术团队年度 TOP10 技术干货,陪你度过不平凡的 2020
- 『互联网架构』软件架构-软件环境的持续发布管理(上)
- android app申请内存大小,Android中App可分配内存的大小
- combo box使用
- LTspice - 基础操作2
- python计算差商_Python实现牛顿插值法(差商表)
- NURBSglunurbssurface
- Matlab实现拉格朗日插值函数
- vue 关于父组件同时多次调用子组件而产生的 this取值 的bug问题
- android app 清理缓存图片,支付宝APP怎么清理缓存 支付宝安卓版缓存清理方法
热门文章
- 【C#】Summary注释
- python修改csv文件中列的数据类型_pandas读取CSV文件时查看修改各列的数据类型格式...
- 菜鸟学Struts——I18N对国际化的支持
- gitlab 页面添加不带密码的sshkey后,git clone git@xxx.com:xx.git 仍提示需要输入密码的问题解决
- 输入一行字符,将其中的大写字母转换成小写字母,其中的小写字母转换成大写字母C++--tolower、isalpha等函数的使用
- 字词句段篇章语言训练人教版上册r_小学语文字词句段篇章教学
- [CVE-2022-30190]MICROSOFT OFFICE MSDT代码执行漏洞
- 工业用微型计算机02241答案,2001年10月工业用微型计算机真题及答案
- pandas fillna(0)
- Tik Tok登顶第一,出海公会卫冕第一