jieba库与中文分词
jieba库概述
由于中文文本中的单词不是通过空格或者标点符号分割,中文及类似语言存在一个重要的“分词”问题。
jieba是python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。jieba库需要通过pip指令安装。
:\>pip install jieba
jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行对比,通过图结构和动态规划找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
jieba库支持三种分词模式
- 精确模式。将句子精确地切开,适合文本分析。
- 全模式。把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
- 搜索引擎模式,在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
英文文本不存在分词问题,对于中文分词来说,jieba库只需要一行代码即可。
>>> import jieba
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\明扬\AppData\Local\Temp\jieba.cache
Loading model cost 1.277 seconds.
Prefix dict has been built succesfully.
['阿姆斯特朗', '回旋加速', '阿姆斯特朗', '炮']
>>>
jieba库常用分词函数
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回一个列表类型 |
jieba.lcut(s,cut_all=True) | 全模式,返回一个列表类型 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型 |
jieba.add_word(w) | 向分词词典中增加新词w |
jieba.lcut(s,cut_all=True) 用于全模式,即将字符串所有分词可能均列出来,返回结果是列表类型,冗余性最大。
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮",cut_all=True)
['阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '回旋', '回旋加速', '加速', '阿姆', '阿姆斯', '阿姆斯特', '阿姆斯特朗', '斯特', '斯特朗', '炮']
>>>
jieba.lcut_for_search(s) 返回搜索引擎模式,该模式首先执行精确模式,然后再对其中长词进一步切割获得最终结果
>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '炮']
相比精确模式,存在一定冗余。
**jieba.add_word()**用于向jieba词库增加新的单词。
>>> jieba.add_word("阿姆斯特朗炮")
>>> jieba.lcut("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆斯特朗', '回旋加速', '阿姆斯特朗炮']
>>> jieba.lcut_for_search("阿姆斯特朗回旋加速阿姆斯特朗炮")
['阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗', '回旋', '加速', '回旋加速', '阿姆', '斯特', '阿姆斯', '斯特朗', '阿姆斯特朗炮']
增加新单词后,当遇到该词语时将不再被分词。
jieba库与中文分词相关推荐
- 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...
jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...
- python的jieba库第一次中文分词记录
python的jieba库第一次中文分词记录 记录一下最基本的jieba分词程序 1.通过cut import jiebaseg = jieba.cut("这是一段中文字符", c ...
- python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...
- python读写txt文件,并用jieba库进行中文分词
在虎扑上随便找了一段文字,粘贴到word.txt文件中,然后对这段文字进行处理. 其中用到的matplotlib库,主要是用来绘图:jieba库,对文字进行分词:wordcloud库,构建词云. 一. ...
- jieba,为中文分词而生的Python库
jieba,为中文分词而生的Python库 中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语.成语.单个文字. 中文分词是很多应用技术的前置技术,如搜索引擎.机器翻译.词性标注.相 ...
- NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...
- 基于python中jieba包的中文分词中详细使用
基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...
- NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...
- NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录 输出结果 设计思路 相关资料 1.关于代码 2.关于数据集 关于留言 1.留言内容的注意事项 2.如 ...
最新文章
- 「SAP技术」SAP MM 不能向被分配了工厂代码的供应商采购服务?
- 21世纪科技生态面临第三次全球标准
- jQuery,data()方法学习
- WannaCry警示:学会检测和减轻云端恶意内容
- 开发类似vs的黑色风格_传闻:2020年《使命召唤》将是《黑色行动》重启作品
- jquery-模态框的显示与消失操作
- 高等组合学笔记(十三):组合反演,反演公式
- 在 Chrome 调试 Javascript
- 网页版电脑桌面远程操控_我真的再也不买电暖器了 - 电暖器智能版
- 手机游戏行业洗牌在即 成本增长小团队出局
- [android] init进程 .rc文件中service、action的parsing
- 数据结构c语言版算法知识点,2020考研计算机《数据结构(C语言版)》复习笔记(3)...
- html5 简单实例源代码
- 中国本地化汽车“软件战争”打响
- Rhythmbox 下中文的音乐文件显示成乱码解决办法
- php获取银行logo,PHP实现根据银行卡号判断银行
- C语言fgetc和fputc函数用法讲解
- Cobalt Strike 域内渗透
- win10本地组策略功能说明
- zip、rar压缩文件密码破解——使用ARCHPR Professional Edition
热门文章
- python做上位机读usb数据_使用python实现win10系统和arduino usb串口通信
- -bash: !: event not found
- 使用Parallels Desktop centos7设置静态ip
- 一次C10K场景下的线上Dubbo问题排查及优化转
- 部署Guns V4.0
- C | 网络编程 | socket
- 用Firefox和Chrome模拟手机浏览器
- 音乐web网站搭建思路
- 计量经济学之回归分析学习笔记(均值回归、分位数回归、岭回归、Lasso回归、ENet回归)——基于R(一)
- Permission Denial: requires android.permission.INTERACT_ACROSS_USERS_FULL