python tokenizer_中文分词工具 MiNLP-Tokenizer
MiNLP-Tokenizer
1. 工具介绍
MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具,基于深度学习序列标注模型实现,在公开测试集上取得了SOTA效果。其具备以下特点:
分词效果好:基于深度学习模型在大规模语料上进行训练,粗、细粒度在SIGHAN 2005 PKU测试集上的F1分别达到95.7%和96.3%[注1]
轻量级模型:精简模型参数和结构,模型仅有20MB
词典可定制:灵活、方便的干预机制,根据用户词典对模型结果进行干预
多粒度切分:提供粗、细粒度两种分词规范,满足各种场景需要
调用更便捷:一键快速安装,API简单易用
注1:我们结合公司应用场景,制定了粗、细粒度分词规范,并按照规范对PKU测试集重新进行了标注(由于测试集版权限制,未包含在本项目中)。
2. 安装
pip全自动安装:
pip install minlp-tokenizer
适用环境:Python 3.5~3.7,TensorFlow>=1.15,<2
3. 使用API
from minlptokenizer.tokenizer import MiNLPTokenizer
tokenizer = MiNLPTokenizer(granularity='fine') # fine:细粒度,coarse:粗粒度,默认为细粒度
print(tokenizer.cut('今天天气怎么样?'))
4. 自定义用户词典
通过用户词典List添加:
from minlptokenizer.tokenizer import MiNLPTokenizer
tokenizer = MiNLPTokenizer(['word1', 'word2'], granularity='fine') #用户自定义干预词典传入
通过文件路径方式添加
from minlptokenizer.tokenizer import MiNLPTokenizer
tokenizer = MiNLPTokenizer('/path/to/your/lexicon/file', granularity='coarse') # 构造函数的参数为用户词典路径
5 体验感受
目前该工具处于开发阶段,可能之后的功能会逐步完善,比如词性标注、命名实体识别、依存句法分析,另外就是可能正如开发者所说模型比较轻量级,分词速度很快,长文本情况下还能保持精度,大家可以体验下
python tokenizer_中文分词工具 MiNLP-Tokenizer相关推荐
- 资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
- Python中文分词工具大合集:安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
- python 分词工具训练_Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
- python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...
- jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
- python 中文分词工具
python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...
- 『开发技术』Python中文分词工具SnowNLP教程
介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...
- python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...
- python中文分词工具jieba_Python 流行的中文分词工具之一 jieba
jieba分词是Python 里面几个比较流行的中文分词工具之一.为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读. 读代码之前,我有几个问题是这样的: 分词工具的实现都有哪几个步 ...
最新文章
- CADisplayLink 及定时器的使用
- python执行shell命令查看输出_python 运行 shell 命令并捕获输出_python_酷徒编程知识库...
- requestanimationframe_requestAnimationFrame详解以及无线页面优化
- nova7修屏逛校园2021-07-07
- 第四范式入选Forrester中国机器学习Now Tech™,成唯一AutoML专注类大型厂商
- YUV与像素值之间的关系
- android webviwe 头布局,Android布局问题,带有WebView下方的按钮
- 显示画面 大华摄像头_大华乐橙智能锁荣获2020房地产首选供应商前十强
- Luckysheet(在线表格) v2.1.12
- Properties类 解析xml文件问题
- 投资一个五星级酒店需要多钱?多长时间能回本?
- bzoj 1606 [Usaco2008 Dec]Hay For Sale 购买干草(01背包)
- Mimics:快捷键介绍
- NRF24L01入门总结
- 软件测试流程图Bug管理流程图
- 开源定时任务管理系统gocron解析,轻松做好定时任务调度处理
- shader拖尾_插件(一)武器拖尾效果
- DenseBox Unifying Landmark Localization with End to End Object Detection
- U盟用新浪微博第三方登录 文件不存在 c8998 解决办法
- 迷你图书管理器1.0 - 变量+数组