北大分词工具包 -- pkuseg

美图欣赏：

一.pkuseg介绍

一个多领域中文分词工具包
其简单易用，支持细分领域分词，有效提升了分词准确度。

pkuseg具有如下几个特点：

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型。在使用中，如果用户明确待分词的领域，可加载对应的模型进行分词。如果用户无法确定具体领域，推荐使用在混合领域上训练的通用模型。
更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。

pkuseg的github： https://github.com/lancopku/pkuseg-python

二.pkuseg的安装

pip install pkuseg

三.pkuseg代码实现

import pkuseg#1.通用领域
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('我爱北京天安门,我想买点大枸杞，菟丝子，大红袍')  # 进行分词
print("1.通用领域: ", text)# 2.特定领域
# seg_med = pkuseg.pkuseg(model_name='medicine') #自动下载细分
# text = seg_med.cut('我爱北京天安门,我想买点大枸杞，菟丝子，大红袍')  # 进行分词
# print("医药领域: ",text)# 3.分词
# https://github.com/lancopku/pkuseg-python/releases下载medicine，postag地址
seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱旅游')  # 进行分词和词性标注
print(text)# 4：对文件分词
# 对input.txt的文件分词输出到output.txt中
# nthread开20个进程def splitfile(infile, outfile):pkuseg.test('input.txt', 'output.txt', nthread=20)
# python main主函数
if __name__ == "__main__":splitfile("infile", "outfile")

                  ————保持饥饿，保持学习Jackson_MVP

北大分词工具包 -- pkuseg相关推荐

准确率创新高，北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
Python工具包-分词工具pkuseg
pkuseg使用简介最近社区推了一些文章介绍了北大开源的一个新的中文分词工具包pkuseg.它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词(jieba)误差率高达18.55%和 ...
北京大学开源分词工具pkuseg 初试与使用感受
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/meiqi0538/article/de ...
北大开源了 Python 中文分词工具包，准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型
车栗子发自凹非寺量子位报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...
pkuseg：一个多领域中文分词工具包
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录主要亮点编译和安装各类分词工具包的性能对比使用方式相关论文作者常见问题及解答主要亮点 pkuseg具有如下几个特点: ...
北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词
jieba分词 jieba是非常有名的Python中文分词组件 jieba分词的特点是:支持3种分词模式:精确模式.全模式.搜索引擎模式.支持繁体分词.支持自定义词典. 安装: pip install ...
实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量
一:jieba分词和pkuseg分词原代码文件链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...

北大分词工具包 -- pkuseg

北大分词工具包 -- pkuseg相关推荐

最新文章

热门文章