清华分词工具包 -- THULAC
今天就不看美图欣赏了(haha),你们别上瘾了
清华THUNLP:
一.THULAC介绍
THULAC:一个高效的中文词法分析工具包
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
THULAC具有如下几个特点:
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
二.THULAC的安装
命令:
pip install thulac
三.代码实现
import codecsimport thulac#直接实现编码转换
def ReadFile(filePath,encoding="utf-8"):with codecs.open(filePath,"r",encoding) as f:return f.read()
def WriteFile(filePath,content,encoding="gbk"):with codecs.open(filePath,"w",encoding) as f:f.write(content)
def UTF8_to_GBK(src,dst):content = ReadFile(src,encoding="utf-8")WriteFile(dst,content,encoding="gbk")thu1 = thulac.thulac() #默认模式
text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词
print(text)# 我_r 爱_v 北京_ns 天安门_ns#2文件分词,支持gbk(必须要转换,否则报错)
thu1_f= thulac.thulac()
UTF8_to_GBK("input.txt","input2.txt")
UTF8_to_GBK("output.txt","output2.txt")
thu1_f.cut_f("input2.txt","output2.txt")
# thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注
# thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt
print("文件分词成功")
运行结果:
Model loaded succeed
我_r 爱_v 北京_ns 天安门_ns
Model loaded succeed
successfully cut file input2.txt!
文件分词成功Process finished with exit code 0
生成的output2.txt文件:
————保持饥饿,保持学习Jackson_MVP
清华分词工具包 -- THULAC相关推荐
- 北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
- 北大开源了 Python 中文分词工具包,准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
- 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型
车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...
- pkuseg:一个多领域中文分词工具包
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: ...
- 分词工具包比较jieba分词
1 分词工具包介绍 现有中文分词工具包有多种,包括ICTCLAD,MMSEG4J,IKAnalyser,JIEBA,THULAC,HanLP等等. 1.1 JIEBA JIEBA是PYTHON平台上比 ...
- 准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
- 北大分词工具包 -- pkuseg
美图欣赏: 一.pkuseg介绍 一个多领域中文分词工具包 其简单易用,支持细分领域分词,有效提升了分词准确度. pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时 ...
- 一卡顶四卡,清华推出工具包BMInf玩转百亿大模型
最近在工业界与学术界,最热门的方向莫过于预训练语言模型.而具有百亿乃至千亿参数的大规模预训练语言模型,更是业界与学术界发力的热点. 但现在大模型的应用却有着较高的门槛,排队申请或需要付费的API.较长 ...
- 千元显卡玩转百亿大模型,清华推出工具包BMInf让模型推理轻而易举
最近在工业界与学术界,最热门的方向莫过于预训练语言模型.而具有百亿乃至千亿参数的大规模预训练语言模型,更是业界与学术界发力的热点. 但现在大模型的应用却有着较高的门槛,排队申请或需要付费的API.较长 ...
最新文章
- 基于用户画像的实时异步化视频推荐系统
- 研究生第一篇学术论文常犯问题总结【喻海良箴言】
- 2019\Province_C_C++_B\试题A-组队
- 高考数学经典题(001)
- 业务专题篇:AB测试实验设计与评估
- cf1453B. Suffix Operations
- Python 代码注释
- Hibernate hql getHibernateTemplate()常用方法汇总
- Python分析5000+抖音大V,发现大家都喜欢这类视频
- 08-R包那么多,怎么才能快速找到自己需要的包呢?
- 【Java】application run failed Illegal mix of collations (latin1_swedish_ci,IMPLICIT) and
- 【干货】2021中国“企服企业”规模化获客体系建设指南.pdf(附下载链接)
- linux 8002端口,linux – 如何限制反向SSH调整端口?
- 日常工作中,个人总结的 - Git - 常用操作方法 (三)
- PADS 默认过孔太大,过孔提前设置
- 视频教程-教你编写人工智能程序教程(自学必看)-Python
- 单机:Oracle 19C 数据库一键安装
- 计算机毕业设计指导 教师 评语,毕业设计指导教师评语【集锦】
- c语言中常见的数学函数
- 零基础学摄影 || 人像摄影下相机参数设置
热门文章
- MS17_010永恒之蓝漏洞复现
- ecshop商城自定义URL链接SEO优化排名_ecshop商城自定义URL静态html
- 时间序列浊度neph画图 python pandas 折线图 大气科学 大气化学 论文作图
- mac苹果电脑如何把视频转成gif
- 【C语言初阶】初识C语言(上)
- 数据库安装(MySQL子库--MariaDB)
- 自组织(Self-organization),自组织临界性(Self-organized criticality)
- MathType中输入矩阵转置符号(向下丁字符号 Down tack,形状类似大写字母T)
- 计算机等级photoshop,全国计算机等级考试一级photoshop
- win7发现不了无线网络_XP及WIN7系统原因导致蓝牙耳机与蓝牙5.0适配器不能正常工作...