美图欣赏:

一.pkuseg介绍

一个多领域中文分词工具包
其简单易用,支持细分领域分词,有效提升了分词准确度

pkuseg具有如下几个特点

多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。
更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注

pkuseg的github: https://github.com/lancopku/pkuseg-python

二.pkuseg的安装

pip install pkuseg

三.pkuseg代码实现

import pkuseg#1.通用领域
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍')  # 进行分词
print("1.通用领域: ", text)# 2.特定领域
# seg_med = pkuseg.pkuseg(model_name='medicine') #自动下载细分
# text = seg_med.cut('我爱北京天安门,我想买点大枸杞,菟丝子,大红袍')  # 进行分词
# print("医药领域: ",text)# 3.分词
# https://github.com/lancopku/pkuseg-python/releases下载medicine,postag地址
seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱旅游')  # 进行分词和词性标注
print(text)# 4:对文件分词
# 对input.txt的文件分词输出到output.txt中
# nthread开20个进程def splitfile(infile, outfile):pkuseg.test('input.txt', 'output.txt', nthread=20)
# python main主函数
if __name__ == "__main__":splitfile("infile", "outfile")
                  ————保持饥饿,保持学习Jackson_MVP

北大分词工具包 -- pkuseg相关推荐

  1. 准确率创新高,北大开源中文分词工具包 pkuseg

    北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...

  2. Python工具包-分词工具pkuseg

    pkuseg使用 简介 最近社区推了一些文章介绍了北大开源的一个新的中文分词工具包pkuseg.它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词(jieba)误差率高达18.55%和 ...

  3. 北京大学开源分词工具pkuseg 初试与使用感受

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/meiqi0538/article/de ...

  4. 北大开源了 Python 中文分词工具包,准确度远超 Jieba

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...

  5. 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型

    车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...

  6. pkuseg:一个多领域中文分词工具包

    pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: ...

  7. 北大开源分词工具包: 准确率远超THULAC、jieba 分词

    pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...

  8. 如何在jieba分词中加自定义词典_Python实践129-jieba分词和pkuseg分词

    jieba分词 jieba是非常有名的Python中文分词组件 jieba分词的特点是:支持3种分词模式:精确模式.全模式.搜索引擎模式.支持繁体分词.支持自定义词典. 安装: pip install ...

  9. 实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

    一:jieba分词和pkuseg分词 原代码文件 链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...

最新文章

  1. 关于pytorch--embedding的问题
  2. iframe批量异步上传图片
  3. VisualSVN Server2.5服务器迁移
  4. android特效开发==纪念
  5. 经验总结:按需加载JS和css
  6. Hibernate基于JDBC的批量删除
  7. 查看程序占用内存_电脑扩展了内存 但还总是提示内存不足?
  8. SharedPreferences基础
  9. leetcode_438_Find All Anagrams in a String_哈希表_java实现
  10. 【word基础知识】word转pdf时出现空白页如何删除?
  11. 学web前端有什么计划?
  12. Python 获取 网卡 MAC 地址
  13. Cisco Packet Tracer路由器ip简单配置(网关)
  14. onBlur和onChange冲突解决方法
  15. Numpy计算三角函数
  16. python调用高德api_python 高德api接口
  17. windows num_workers
  18. 靶机渗透练习07-HackMyVm Area51 (Log4j2复现)
  19. 雨听 | 英语学习笔记(十七)~作文范文:大学生的书单
  20. 6JS库-前端框架(库)-jQuery选择器

热门文章

  1. 银河二号巨型计算机发明时间,天河二号完成模拟 揭示宇宙漫长演化进程
  2. 基于Arduino的SYN6288语音TTS模块汉字中文英文数字混合发音代码示例
  3. 树莓派raspberry pi 4b 安装windows10(含网盘镜像)
  4. ceph vstart调试client端代码
  5. 客快物流大数据项目(三十八):安装Azkaban-3.71.0
  6. 3D进阶之OSG:快捷键
  7. PolynomialFeatures 来构建特征
  8. 鸿蒙视频potato,鸿蒙OS 视频播放开发指导
  9. Android 如何更改状态栏颜色
  10. 2019牛客暑假多校7E:Find the median【线段树上二分】