jieba库概述

由于中文文本中的单词不是通过空格或者标点符号分割，中文及类似语言存在一个重要的“分词”问题。
jieba是python中一个重要的第三方中文分词函数库，能够将一段中文文本分割成中文词语的序列。jieba库需要通过pip指令安装。

:\>pip install jieba

jieba库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行对比，通过图结构和动态规划找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能。

jieba库支持三种分词模式

精确模式。将句子精确地切开，适合文本分析。
全模式。把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。
搜索引擎模式，在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

英文文本不存在分词问题，对于中文分词来说，jieba库只需要一行代码即可。

>>> import jieba
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\明扬\AppData\Local\Temp\jieba.cache
Loading model cost 1.277 seconds.
Prefix dict has been built succesfully.
['阿姆斯特朗', '回旋加速', '阿姆斯特朗', '炮']
>>>

jieba库常用分词函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型
jieba.add_word(w)	向分词词典中增加新词w

jieba.lcut(s,cut_all=True) 用于全模式，即将字符串所有分词可能均列出来，返回结果是列表类型，冗余性最大。

>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮",cut_all=True)
['阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '回旋', '回旋加速', '加速', '阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '炮']
>>>

jieba.lcut_for_search(s) 返回搜索引擎模式，该模式首先执行精确模式，然后再对其中长词进一步切割获得最终结果

>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '炮']

相比精确模式，存在一定冗余。
**jieba.add_word()**用于向jieba词库增加新的单词。

>>> jieba.add_word("阿姆斯特朗炮")
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆斯特朗', '回旋加速', '阿姆斯特朗炮']
>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗炮']

增加新单词后，当遇到该词语时将不再被分词。

jieba库与中文分词相关推荐

与自定义词典分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
python的jieba库第一次中文分词记录
python的jieba库第一次中文分词记录记录一下最基本的jieba分词程序 1.通过cut import jiebaseg = jieba.cut("这是一段中文字符", c ...
python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...
python读写txt文件，并用jieba库进行中文分词
在虎扑上随便找了一段文字,粘贴到word.txt文件中,然后对这段文字进行处理. 其中用到的matplotlib库,主要是用来绘图:jieba库,对文字进行分词:wordcloud库,构建词云. 一. ...
jieba，为中文分词而生的Python库
jieba,为中文分词而生的Python库中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码目录全部代码相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
NLP之TEA：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码目录全部代码相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...
NLP之TEA：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录输出结果设计思路相关资料 1.关于代码 2.关于数据集关于留言 1.留言内容的注意事项 2.如 ...

jieba库与中文分词

jieba库概述

jieba库支持三种分词模式

jieba库常用分词函数

jieba库与中文分词相关推荐

最新文章

热门文章