1.jieba库的在安装:jieba是python计算生态中非常优秀的中文分词第三方库,因此我们需要进行额外的安装来得到并使用jieba库,windows环境下,我们使用win + R键,然后在对话框中输入cmd打开命令行,如下图所示,在命令行中我们输入pip install jieba来进行jieba库的安装。成功安装之后我们可以看到下面的提示,显示您已经成功安装jieba库。


2.jieba库的原理:jieba的分词是依靠中文词库来进行计算,计算的内容是汉字之间关联成一个词语的概率,他将概率较大的就认为是一个词语;除了它自带的分词之外,用户也可以向jieba添加自定义的词语。
3.jieba库的三种模式:精确模式,搜索引擎模式、全模式
&&&精确模式就是将文本精确地切分成若干个中文单词,且这些单词可以经过组合,精确地还原为文本,其中不存在冗余单词。正是因为精确模式的特性,他也因此成为最常用的jieba模式。
&&&全模式:他会将一段中文文本中所有可能的词语都扫描出来,因此我们可以想见,如果一段文本可以被切分成不同的模式,那么我们切分出来的结果就会有很多的冗余。
&&&搜索引擎模式:他可以将我们精确模式所切分出来的长一些的词语再一次进行精确的切分,进而适合搜索引擎对短词语的搜索。
3.常用函数:jiaba.lcut(s)函数是精确模式,jieba.lcut(s, cut_all = true)形成了全模式


通过上图我们不难发现,全模式下的jieba的分词结果确实是出现了冗余。
我们利用精准模式的函数来对一个中文小说(武林外传)进行词频分析,小说的来源我们可以直接在网上进行搜索,将你想要的小说的.txt版或者压缩包进行下载即可,然后进行词频分析,具体的代码实现如下:

import jieba
txt = open("F:all.txt", "r", encoding = 'utf - 8').read()
excludes = {'湘玉', '什么', '老白', '没有', '掌柜的''}
words = jieba.lcut(txt)
counts = {}     #创建一个字典,对文本中的汉字进行分词,通过字典接受
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1
for word in excludes:del counts[word]
items = list(counts.items())        #将字典转换为列表
items.sort(key = lambda x:x[1], reverse = True)    #将列表中的分词进行排序(这里的True中的T必须大写,否则会报错)
for i in range(5):     #打印输出前五位单词word, count = items[i]print("{0:<10}出场了{1:>5}次".format(word, count))

需要注意的两点是:第一个是代码中的True的首字母必须是大写,否则会报错;第二个是由于我们所下载的剧本的不同可能会导致我们的分析结果有些差异,但是我们主要是掌握这个方法,只要我们掌握了方法,那么结果还会很重要吗?
对于文本来讲,我们有中文文本,同时也就会有英文文本,这二者的分析方法大同小异,但是英文文本要求我们对标点符号进行一定的处理,下面直接给出代码贴图,图片出处为中国大学MOOC嵩天老师的python课程

该文本对英文名著哈姆雷特进行了分析,读者可以和武林外传的词频分析进行对比阅读,发现二者的异同

python入门day12(jieba库下载及其使用)相关推荐

  1. python jieba库下载_Python中jieba库安装步骤及失败原因解析

    Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...

  2. python jieba库不存在_Python入门:jieba库的使用

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做 ...

  3. python怎么安装jieba库-python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...

  4. python怎么安装jieba库这个模块 No module named ‘jieba‘ python3.7

    报错提示:No module named 'jieba' 首先点击桌面左下角的开始图标,然后选择运行--cmd(也可以win+R唤出运行菜单) 1. anaconda安装库 可以使用conda ins ...

  5. Python初学13——jieba库简介与使用

    目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...

  6. python编程入门课 视频-Python入门到精通视频教程下载[21课程全]

    Python入门到精通视频教程 初级共21节课 python编程入门,针对0基础就python语言基础语法的各个点逐步讲解,由浅入深,通俗易懂,层层深入.提取码: python编程入门,针对0基础就p ...

  7. python基础教程视频下载-Python入门到精通视频教程下载[21课程全]

    Python入门到精通视频教程 初级共21节课 python编程入门,针对0基础就python语言基础语法的各个点逐步讲解,由浅入深,通俗易懂,层层深入.提取码: python编程入门,针对0基础就p ...

  8. 【Python】 -- 使用jieba库实现对《三国演义》人物出场次数统计

    需要借助一个中文词频分析工具--jieba库. 什么是jieba库 jieba是Python中一个重要的第三方中文分词函数库 通过指令pip install jieba 安装 使用: >> ...

  9. 如何在Python上用jieba库分析TXT文件的词频

    准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...

最新文章

  1. Arm 十年重磅发布 v9 架构,不受 EAR 约束,未来将覆盖 3000 亿颗芯片
  2. JAVA企业级应用TOMCAT实战
  3. 特斯拉撞了警车:辅助系统Autopilot全程开启,连撞两车还没自动停下
  4. c++/cli之我见
  5. 两大数学家是如何撕破脸的|数学界的主义的之争
  6. python3 for sum_Python for循环和“sum13”方法
  7. BUAA_OO_Unit1总结
  8. python多图合并成一张图_将现有的图形合并成一个图形PYTHON的pdf格式
  9. linux pm2 权限,pm2 部署 node的三种方法示例
  10. thymeltesys-基于Spring Boot Oauth2的扫码登录框架
  11. 警告解决办法:class xxxx has virtual method but non-virtual destructor
  12. 计算机网络:网络拓扑分类
  13. 电脑键盘上各个键的作用
  14. 魔百和CM311-1a_YST代工_安卓9.0_S905L3A_卡刷固件包
  15. win7网上邻居无计算机一栏,Win7在网上邻居上看不到别的电脑怎么办?-电脑自学网...
  16. 30岁张一鸣创业成功秘密武器,OKR“失控”管理法
  17. 3DMAX和MAYA的区别
  18. codevs5172 装病的聚聚 (最短路spfa的延伸应用)(对三角不等式的深入理解)--by lethalboy
  19. 高德地图API获取当前位置对应的周边信息
  20. NuGet命令的用法

热门文章

  1. 优化开机关机速度(图解)_陕南赤子_新浪博客
  2. 【华为OD机试B卷,GO题解独家】最佳植树距离、种树
  3. jasperreports6.12.2 could not load the following font解决方法
  4. Logical Import Mode
  5. JS中的 call( ) 方法
  6. 虚拟独享服务器,独享虚拟服务器
  7. 偏光太阳镜测试图片软件,偏光太阳镜测试图片
  8. linux默认编译多核,[转载]【原创】Linux下安装单机多核并行lammps(附meam包)
  9. 详细讲解int、float与double的区别
  10. 2022-2028年全球及中国旋转门行业发展现状调研及投资前景分析