jieba库是什么

jieba库中文分词第三方库,中文文本需要通过分词获得单个的词语。

jieba库的原理:利用中文字库,确定汉字之间的关联概率,汉字件概率大的组成词组,形成分词结果,还可以添加自定义的词组。

jieba库的使用

jieba库分词有3种

1.精确模式:一段文本精确地切分成若干个中文单词,若干个中文单词经过组合,精确还原原先地文本,不存在冗余单词。

2.全模式:一段文本种所有可能出现地词语都扫描出来,一段文本从不同地角度切分成不同地词语,分词后地信息组合会有冗余,不在是原来的文本。

3.搜索引擎模式:精确模式基础上,对发现长的词语,再次切分,进而合适搜索殷勤对短词语的索引和搜索,会有冗余。

jieba库常用函数类型:输入什么类型(字符串,列表)输出类型:字符串,列表、

精确模式

import jieba
s='当我开始爱自己的时候,不会在为别人的眼光而怯懦,或者产生自我怀疑的时候,将会是我成为新的自己。'
ls=jieba.lcut(s)
print(ls)
结果
['当', '我', '开始', '爱', '自己', '的', '时候', ',', '将会', '是', '我', '成为', '新', '的', '自己', '。']

注意:精确模式,返回一个列表类型的分词结果

全模式

import jieba
s='我家里有个人很酷。'
ls=jieba.lcut(s,cut_all=True)
print(ls)
结果: ['我家', '家里', '有', '个人', '很酷', '。']

注意:全模式,返回一个列表类型的分词结果,存在冗余。

搜索引擎模式:首先按照精确模式进行分词

import jieba
s='中华人民共和国是伟大的。'
s1=jieba.lcut_for_search("中华人民共和国是伟大的。")
print(s1)
结果:['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的', '。']

注意:首先按照精确模式进行分词,分出来有“中华人民共和国”这个词,搜索引擎模式觉得它太长,又对改词进行了切词。返回类型列表类型,存在冗余。

添加

jieba.add_word(s)

python --jieba 分词相关推荐

  1. Python jieba分词如何添加自定义词和去除不需要长尾词

    Python jieba分词如何添加自定义词和去除不需要长尾词 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!

  2. pythonjieba分词_$好玩的分词——python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

  3. python jieba分词_从零开始学自然语言处理(八)—— jieba 黑科技

    小编喜欢用 jieba 分词,是因为它操作简单,速度快,而且可以添加自定义词,从而让 jieba 分出你想要分出的词,特别适用于特定场景的中文分词任务. 然鹅,万事都有两面性,jieba 分词这么好用 ...

  4. python jieba分词及中文词频统计

    这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...

  5. python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

  6. python jieba分词的使用

    jieba分词的使用 一.简单分词 使用 jieba.cut(), jieba.lcut() 完成,后者返回 list 的结果,有三种分词模式:精确模式.全模式.搜索引擎模式. jieba.cut(s ...

  7. python jieba分词教程_Python jieba 分词

    环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 代码 # -*- coding: utf-8 -*- import jieba ...

  8. python jieba 分词进阶

    https://www.cnblogs.com/jiayongji/p/7119072.html 文本准备 到网上随便一搜"三体全集",就很容易下载到三体三部曲的全集文本(txt文 ...

  9. python jieba分词的tmp_dir报错问题

    跑代码报错: PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpnrj1wcjg' -> '/tmp/jieba.cach ...

最新文章

  1. 用 GStreamer 简化 Linux 多媒体开发
  2. python培训学校-培训Python学校哪家好?推荐老男孩IT培训机构
  3. LeetCode Maximum Depth of Binary Tree
  4. java解析string_java读取文件内容为string字符串的方法
  5. java ppt转图片 内存溢出_Java虚拟机内存及内存溢出异常
  6. Atitit.执行cli cmd的原理与调试
  7. 云南计算机专业笔试题库,2010云南省全国计算机等级考试二级笔试试卷VB考试题库...
  8. 9.7英寸 IPS 屏平板 选购
  9. python学习笔记之其它
  10. 微信公众号排版学习之图片篇
  11. 微信小程序 渲染层网络错误_渲染层网络层错误 微信小程序开发 - 云计算资讯 - 服务器之家...
  12. Linux文件编辑命令vi详细说明
  13. 观影坪-纪录片之《穹顶之下》
  14. java实现按比例缩放图片技巧
  15. Golang内存分析工具gctrace和pprof实战
  16. 【C/C++】C++代码质量检核工具-cppcheck
  17. C#,JAVA人民币小写转大写
  18. 【GEE笔记2】数据整合Reducer/遍历循环.map
  19. 事件营销让面包圈有关注 但产品好才是真的好
  20. bpsk传输系统实验matlab,通信原理实验4 BPSK系统仿真matlab程序

热门文章

  1. eclipse优化:自动补全
  2. RK3568平台开发系列讲解(内核篇)内核Oops日志分析
  3. 胜为蓝牙适配器驱动_胜为UDC-324A/B/C/D/E蓝牙适配器驱动
  4. 【Android实现点击回到顶部】
  5. Python中pywifi模块的基本用法
  6. 【考生说】持之以恒才是胜利的推动器、一周时间通过C认证的同学怎么说
  7. 计算机考研复试面试题二
  8. N5N4 日语动词的11种变形
  9. The Matrix(黑客帝国)
  10. Android Audio代码分析8 - AudioHardwareALSA::openOutputStream函数