jieba库概述

由于中文文本中的单词不是通过空格或者标点符号分割,中文及类似语言存在一个重要的“分词”问题。
jieba是python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。jieba库需要通过pip指令安装。

:\>pip install jieba

jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行对比,通过图结构和动态规划找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。

jieba库支持三种分词模式

  1. 精确模式。将句子精确地切开,适合文本分析。
  2. 全模式。把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
  3. 搜索引擎模式,在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

英文文本不存在分词问题,对于中文分词来说,jieba库只需要一行代码即可。

>>> import jieba
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\明扬\AppData\Local\Temp\jieba.cache
Loading model cost 1.277 seconds.
Prefix dict has been built succesfully.
['阿姆斯特朗', '回旋加速', '阿姆斯特朗', '炮']
>>>

jieba库常用分词函数

函数 描述
jieba.lcut(s) 精确模式,返回一个列表类型
jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型
jieba.add_word(w) 向分词词典中增加新词w

jieba.lcut(s,cut_all=True) 用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性最大。

>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮",cut_all=True)
['阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '回旋', '回旋加速', '加速', '阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '炮']
>>>

jieba.lcut_for_search(s) 返回搜索引擎模式,该模式首先执行精确模式,然后再对其中长词进一步切割获得最终结果

>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '炮']

相比精确模式,存在一定冗余。
**jieba.add_word()**用于向jieba词库增加新的单词。

>>> jieba.add_word("阿姆斯特朗炮")
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆斯特朗', '回旋加速', '阿姆斯特朗炮']
>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗炮']

增加新单词后,当遇到该词语时将不再被分词。

jieba库与中文分词相关推荐

  1. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

  2. python的jieba库第一次中文分词记录

    python的jieba库第一次中文分词记录 记录一下最基本的jieba分词程序 1.通过cut import jiebaseg = jieba.cut("这是一段中文字符", c ...

  3. python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

    python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...

  4. python读写txt文件,并用jieba库进行中文分词

    在虎扑上随便找了一段文字,粘贴到word.txt文件中,然后对这段文字进行处理. 其中用到的matplotlib库,主要是用来绘图:jieba库,对文字进行分词:wordcloud库,构建词云. 一. ...

  5. jieba,为中文分词而生的Python库

    jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...

  6. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  7. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  8. NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...

  9. ​​​​​​​NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录 输出结果 设计思路 相关资料 1.关于代码 2.关于数据集 关于留言 1.留言内容的注意事项 2.如 ...

最新文章

  1. 「SAP技术」SAP MM 不能向被分配了工厂代码的供应商采购服务?
  2. 21世纪科技生态面临第三次全球标准
  3. jQuery,data()方法学习
  4. WannaCry警示:学会检测和减轻云端恶意内容
  5. 开发类似vs的黑色风格_传闻:2020年《使命召唤》将是《黑色行动》重启作品
  6. jquery-模态框的显示与消失操作
  7. 高等组合学笔记(十三):组合反演,反演公式
  8. 在 Chrome 调试 Javascript
  9. 网页版电脑桌面远程操控_我真的再也不买电暖器了 - 电暖器智能版
  10. 手机游戏行业洗牌在即 成本增长小团队出局
  11. [android] init进程 .rc文件中service、action的parsing
  12. 数据结构c语言版算法知识点,2020考研计算机《数据结构(C语言版)》复习笔记(3)...
  13. html5 简单实例源代码
  14. 中国本地化汽车“软件战争”打响
  15. Rhythmbox 下中文的音乐文件显示成乱码解决办法
  16. php获取银行logo,PHP实现根据银行卡号判断银行
  17. C语言fgetc和fputc函数用法讲解
  18. Cobalt Strike 域内渗透
  19. win10本地组策略功能说明
  20. zip、rar压缩文件密码破解——使用ARCHPR Professional Edition

热门文章

  1. python做上位机读usb数据_使用python实现win10系统和arduino usb串口通信
  2. -bash: !: event not found
  3. 使用Parallels Desktop centos7设置静态ip
  4. 一次C10K场景下的线上Dubbo问题排查及优化转
  5. 部署Guns V4.0
  6. C | 网络编程 | socket
  7. 用Firefox和Chrome模拟手机浏览器
  8. 音乐web网站搭建思路
  9. 计量经济学之回归分析学习笔记(均值回归、分位数回归、岭回归、Lasso回归、ENet回归)——基于R(一)
  10. Permission Denial: requires android.permission.INTERACT_ACROSS_USERS_FULL