MiNLP-Tokenizer

1. 工具介绍

MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具,基于深度学习序列标注模型实现,在公开测试集上取得了SOTA效果。其具备以下特点:

分词效果好:基于深度学习模型在大规模语料上进行训练,粗、细粒度在SIGHAN 2005 PKU测试集上的F1分别达到95.7%和96.3%[注1]

轻量级模型:精简模型参数和结构,模型仅有20MB

词典可定制:灵活、方便的干预机制,根据用户词典对模型结果进行干预

多粒度切分:提供粗、细粒度两种分词规范,满足各种场景需要

调用更便捷:一键快速安装,API简单易用

注1:我们结合公司应用场景,制定了粗、细粒度分词规范,并按照规范对PKU测试集重新进行了标注(由于测试集版权限制,未包含在本项目中)。

2. 安装

pip全自动安装:

pip install minlp-tokenizer

适用环境:Python 3.5~3.7,TensorFlow>=1.15,<2

3. 使用API

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer(granularity='fine') # fine:细粒度,coarse:粗粒度,默认为细粒度

print(tokenizer.cut('今天天气怎么样?'))

4. 自定义用户词典

通过用户词典List添加:

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer(['word1', 'word2'], granularity='fine') #用户自定义干预词典传入

通过文件路径方式添加

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer('/path/to/your/lexicon/file', granularity='coarse') # 构造函数的参数为用户词典路径

5 体验感受

目前该工具处于开发阶段,可能之后的功能会逐步完善,比如词性标注、命名实体识别、依存句法分析,另外就是可能正如开发者所说模型比较轻量级,分词速度很快,长文本情况下还能保持精度,大家可以体验下

python tokenizer_中文分词工具 MiNLP-Tokenizer相关推荐

  1. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

  2. Python中文分词工具大合集:安装、使用和测试

    转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...

  3. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  4. python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...

  5. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  6. python 中文分词工具

    python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

  7. 『开发技术』Python中文分词工具SnowNLP教程

    介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...

  8. python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...

  9. python中文分词工具jieba_Python 流行的中文分词工具之一 jieba

    jieba分词是Python 里面几个比较流行的中文分词工具之一.为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读. 读代码之前,我有几个问题是这样的: 分词工具的实现都有哪几个步 ...

最新文章

  1. CADisplayLink 及定时器的使用
  2. python执行shell命令查看输出_python 运行 shell 命令并捕获输出_python_酷徒编程知识库...
  3. requestanimationframe_requestAnimationFrame详解以及无线页面优化
  4. nova7修屏逛校园2021-07-07
  5. 第四范式入选Forrester中国机器学习Now Tech™,成唯一AutoML专注类大型厂商
  6. YUV与像素值之间的关系
  7. android webviwe 头布局,Android布局问题,带有WebView下方的按钮
  8. 显示画面 大华摄像头_大华乐橙智能锁荣获2020房地产首选供应商前十强
  9. Luckysheet(在线表格) v2.1.12
  10. Properties类 解析xml文件问题
  11. 投资一个五星级酒店需要多钱?多长时间能回本?
  12. bzoj 1606 [Usaco2008 Dec]Hay For Sale 购买干草(01背包)
  13. Mimics:快捷键介绍
  14. NRF24L01入门总结
  15. 软件测试流程图Bug管理流程图
  16. 开源定时任务管理系统gocron解析,轻松做好定时任务调度处理
  17. shader拖尾_插件(一)武器拖尾效果
  18. DenseBox Unifying Landmark Localization with End to End Object Detection
  19. U盟用新浪微博第三方登录 文件不存在 c8998 解决办法
  20. 迷你图书管理器1.0 - 变量+数组

热门文章

  1. ESSENTIAL C++
  2. pagerank算法及希拉里邮件门 处理
  3. 罗马数字加法实现Roman Calculator
  4. DAST 黑盒漏洞扫描器 第五篇:漏洞扫描引擎与服务能力
  5. 游戏开发新手入门之DirectX入门
  6. [转]三种编程命名规则:驼峰命名法,帕斯卡命名法,匈牙利命名法
  7. 程序员杂记:奋战在青青网吧!
  8. 动画实例类接口:GetOwningActor-获得拥有者Actor
  9. 有点坎坷,却又有点感动。
  10. 使用python编写三个吃货吃馒头与一个伙夫生产馒头(线程与锁)