python tokenizer_中文分词工具 MiNLP-Tokenizer

MiNLP-Tokenizer

1. 工具介绍

MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具，基于深度学习序列标注模型实现，在公开测试集上取得了SOTA效果。其具备以下特点：

分词效果好：基于深度学习模型在大规模语料上进行训练，粗、细粒度在SIGHAN 2005 PKU测试集上的F1分别达到95.7%和96.3%[注1]

轻量级模型：精简模型参数和结构，模型仅有20MB

词典可定制：灵活、方便的干预机制，根据用户词典对模型结果进行干预

多粒度切分：提供粗、细粒度两种分词规范，满足各种场景需要

调用更便捷：一键快速安装，API简单易用

注1：我们结合公司应用场景，制定了粗、细粒度分词规范，并按照规范对PKU测试集重新进行了标注(由于测试集版权限制，未包含在本项目中)。

2. 安装

pip全自动安装：

pip install minlp-tokenizer

适用环境：Python 3.5~3.7，TensorFlow>=1.15,<2

3. 使用API

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer(granularity='fine') # fine：细粒度，coarse：粗粒度，默认为细粒度

print(tokenizer.cut('今天天气怎么样？'))

4. 自定义用户词典

通过用户词典List添加：

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer(['word1', 'word2'], granularity='fine') #用户自定义干预词典传入

通过文件路径方式添加

from minlptokenizer.tokenizer import MiNLPTokenizer

tokenizer = MiNLPTokenizer('/path/to/your/lexicon/file', granularity='coarse') # 构造函数的参数为用户词典路径

5 体验感受

目前该工具处于开发阶段，可能之后的功能会逐步完善，比如词性标注、命名实体识别、依存句法分析，另外就是可能正如开发者所说模型比较轻量级，分词速度很快，长文本情况下还能保持精度，大家可以体验下

python tokenizer_中文分词工具 MiNLP-Tokenizer相关推荐

资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
Python中文分词工具大合集：安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
python 分词工具训练_Python中文分词工具大合集：安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
python100例分词-Python中文分词工具之结巴分词用法实例总结【经典案例】
本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...
jieba库 python2.7 安装_Python中文分词工具大合集：安装、使用和测试
这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...
python 中文分词工具
python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...
『开发技术』Python中文分词工具SnowNLP教程
介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...
python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...
python中文分词工具jieba_Python 流行的中文分词工具之一 jieba
jieba分词是Python 里面几个比较流行的中文分词工具之一.为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读. 读代码之前,我有几个问题是这样的: 分词工具的实现都有哪几个步 ...

python tokenizer_中文分词工具 MiNLP-Tokenizer

python tokenizer_中文分词工具 MiNLP-Tokenizer相关推荐

最新文章

热门文章