目录

  • 三种分词模式
  • 自定义词典使用
  • 停用词词典的使用
  • 补充知识
    • 1.中文语料库:
    • 2.中文分词技术
      • 2.1 规则分词
      • 2.2 统计分词

三种分词模式

  • 精确模式:试图将句子最精确地切分开,适合文本分析。
  • 全模式:把句子中所有可以成词的词都扫描出来,速度非常快,但是不能解决歧义问题。
  • 搜索引擎模式 :在精确模式的基础上,对长词再次进行切分,以提高召回率,适合搜索引擎分词。

自定义词典使用

当某些特定的词在jieba的词典中没有并且需要准确切分出来时,这是就需要在切分过程中引入自定义词典。自定义词典以TXT文件形式输入,每个词占据一行。然后再Python中读取即可。
示例:user_dict.txt的内容为 :自媒体大学

jieba.load_userdict('user_dict.txt')
jieba.lcut('我今天在自媒体大学吹了会儿风',cut_all=False) # 精确模式

停用词词典的使用

实际应用中,很多语气助词或者人称代词都不是我们所关心的,在最终的结果中希望能够将其过滤掉,这时就需要建立停用词词典。
可以从网络上找到很多权威的中文停用词词典,在此基础上,可以再增加一些自定义的停用词,建立自己的停用词词典。

同样,用上面的案例,假如我们不希望分词结果中存在:‘我’、‘在’、‘了’。实现示例:

import jieba
stop_words = ['我','在','了']result = [k for k in jieba.lcut('我今天在自媒体大学吹了会儿风',cut_all=False) if k not in stop_words]
print('引入停用词词典后结果:',result)

补充知识

1.中文语料库:

  • 中文维基百科数据(https://dumps.wikimedia.org/zhwiki/): 维基百科提供了开放的词条文本整合下载,可以找到你需要的指定时间、指定语言、指定类型、指定内容的维基百科数据。
  • 搜狗新闻语料库(http://download.labs.sogou.com/resource/ca.php) :来自若干新闻站点2012年6月~7月期间国内、国际、体育、社会、娱乐等18个频道的新闻数据,提供URL和正文信息。
  • IMDB情感分析语料库(https://www.kaggle.com/tmdb/tmdb-movie-metadata) :互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDb的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。

2.中文分词技术

  • 规则分词:主要是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理;
  • 统计分词:能够较好应对新词发现等特殊场景,但太过于依赖语料的质量
  • 混合分词(规则+统计):实践中的常用方式。

2.1 规则分词

一种机械的分词方法。主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。根据匹配切分方式的不同,主要分为三种方法:

  • 正向最大匹配法
  • 逆向最大匹配法:汉语中的偏正结构较多,若从后向前匹配,可以适当提高精确度。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。
  • 双向最大匹配法:有研究表明,中文中90.0%左右的句子,正向和逆向最大匹配法完全重合且正确;只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个正确的;只有不到1.0%的句子,两种方法切分重合却是错的或者切分不同且都不对。

2.2 统计分词

主要思想:把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。

统计分词方法不需要耗费人力维护词典,能较好地处理歧义和未登录词,是目前分词中非常主流的方法。但其分词的效果很依赖训练语料的质量,且计算量相较于机械分词要大得多。

  • 语言模型
  • HMM模型(隐马尔可夫模型)
  • CRF模型(条件随机场模型)

jieba分词三种分词模式、用户自定义词典、停用词词典的使用相关推荐

  1. hadoop离线阶段(第十三节)数据仓库、hive简介、hive安装和hive的三种交互模式

    目录 数据仓库 数据仓库的基本概念 数据仓库的主要特征 数据仓库与数据库区别 数据仓库分层架构 数据仓库元数据管理 Hive简介 什么是Hive Hive的特点 Hive架构 Hive与Hadoop的 ...

  2. 2021年大数据Hive(二):Hive的三种安装模式和MySQL搭配使用

    全网最详细的Hive文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 系列历史文章 前言 Hive的三种安装模式和MySQL搭配使用 一.Hive的安装方 ...

  3. sqlserver 三种恢复模式

    sql server数据库提供了三种恢复模式:完整,简单和大容量日志,这些模式决定了sql server如何使用事务日志,如何选择它要记录的操作,以及是否截断日志.截断事务日志是删除己执行事务并把该日 ...

  4. 开关电源三种控制模式:PWM/PFM/PSM

    1. PWM/PFM/PSM 三种控制模式的定义 通常来说﹐开关电源(DC-DC)有三种最常见的调制方式分别为: 脉冲宽度调制(PWM) 脉冲频率调制(PFM) 脉冲跨周期调制(PSM) 在功率集成电 ...

  5. IaaS, PaaS和SaaS是云计算的三种服务模式

    原文链接:https://zhidao.baidu.com/question/584394281.html IaaS, PaaS和SaaS是云计算的三种服务模式. SaaS:Software-as-a ...

  6. Factory-pattern 三种工厂模式

    解决问题 主要解决创建复杂对象的问题. 应用场景 当某一系列对象需要复杂的逻辑控制创建过程,过程创建过程比较复杂时,可以采用工厂模式. 工厂模式常见的有三种: 简单工厂模式: 又称之为静态工厂模式 工 ...

  7. VMware虚拟机三种网络模式(桥接、NAT、仅主机)的区别

    由于Linux目前很热门,越来越多的人在学习linux,但是买一台服务放家里来学习,实在是很浪费.那么如何解决这个问题?虚拟机软件是很好的选择,常用的虚拟机软件有vmware workstations ...

  8. spark sql 本地调试_Spark精华问答|Spark的三种运行模式有何区别?

    戳蓝字"CSDN云计算"关注我们哦! Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第 ...

  9. [ASP.NET 控件实作 Day31] TBContextMenu 控件三种不同模式的 Click 动作

    上一篇 整合 jQuery ContextMenu plugin 的右键选单控件 的文章中,我们实作了 TBContextMenu 控件:本文将以 TBContextMenu 控件为例,为选单项目加入 ...

最新文章

  1. 你知道R中的赋值符号箭头和等号的区别吗?
  2. Alluxio及其典型应用场景
  3. 从零开始学 Web 之 BOM(四)client系列
  4. superset可视化-word cloud
  5. 修改mysql用户的密码
  6. js IE和Firefox下event处理
  7. 卷组删除pv_CentOS下删除一个卷组(VG)
  8. FFmpeg的H.264解码器源代码简单分析:宏块解码(Decode)部分-帧内宏块(Intra)
  9. java实现幻方构造
  10. 新手如何玩转拼多多?需要注意什么?
  11. 【转载】com.mysql.jdbc.Driver 与 org.gjt.mm.mysql.Driver的区别
  12. JavaWeb全面知识总结之呕血三天精心整理
  13. mercury MW300R(mt7620n)GPIO研究
  14. Java教务管理系统
  15. [VB.NET]VB的vbFromUnicode、vbUnicode在vb.net中怎么使用
  16. 《中国制造2025》提出构建绿色制造体系,成为我国制造业新趋势
  17. 一文读懂MCU的技术原理、区别及发展历史
  18. LTE PDU SDU
  19. 读易[11]·业务平台在系统中的位置
  20. eclipse集成wtk,配置j2me

热门文章

  1. 商贸公司用什么软件可以提升企业管理效率呢?
  2. 哪种蓝牙耳机戴着最舒服?佩戴最舒服的真无线蓝牙耳机
  3. Android 模拟器 Genymotion 安装常见问题记录
  4. Excel做数据分析真的那么好吗?
  5. 网络三巨头:腾讯,阿里巴巴和百度
  6. Python+Django毕业设计郑州市智慧农贸市场管理系统(程序+LW+部署)
  7. Python——爬取小说网站的整本小说
  8. FileZilla在传输文件过程 中会出现:550 can't access file.
  9. 学习笔记_巴特沃斯型LPF设计_LC滤波
  10. 机器学习理论学习(1)——房价预测