清华分词工具包 -- THULAC

今天就不看美图欣赏了(haha)，你们别上瘾了

清华THUNLP：

一.THULAC介绍

THULAC：一个高效的中文词法分析工具包

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。

THULAC具有如下几个特点：

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

二.THULAC的安装

命令：

pip install thulac

三.代码实现

import codecsimport thulac#直接实现编码转换
def ReadFile(filePath,encoding="utf-8"):with codecs.open(filePath,"r",encoding) as f:return f.read()
def WriteFile(filePath,content,encoding="gbk"):with codecs.open(filePath,"w",encoding) as f:f.write(content)
def UTF8_to_GBK(src,dst):content = ReadFile(src,encoding="utf-8")WriteFile(dst,content,encoding="gbk")thu1 = thulac.thulac()  #默认模式
text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
print(text)# 我_r 爱_v 北京_ns 天安门_ns#2文件分词,支持gbk(必须要转换，否则报错)
thu1_f= thulac.thulac()
UTF8_to_GBK("input.txt","input2.txt")
UTF8_to_GBK("output.txt","output2.txt")
thu1_f.cut_f("input2.txt","output2.txt")
# thu1 = thulac.thulac(seg_only=True)  #只进行分词，不进行词性标注
# thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词，输出到output.txt
print("文件分词成功")

运行结果：

Model loaded succeed
我_r 爱_v 北京_ns 天安门_ns
Model loaded succeed
successfully cut file input2.txt!
文件分词成功Process finished with exit code 0

生成的output2.txt文件：

              ————保持饥饿，保持学习Jackson_MVP

清华分词工具包 -- THULAC相关推荐

北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
北大开源了 Python 中文分词工具包，准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型
车栗子发自凹非寺量子位报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...
pkuseg：一个多领域中文分词工具包
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录主要亮点编译和安装各类分词工具包的性能对比使用方式相关论文作者常见问题及解答主要亮点 pkuseg具有如下几个特点: ...
分词工具包比较jieba分词
1 分词工具包介绍现有中文分词工具包有多种,包括ICTCLAD,MMSEG4J,IKAnalyser,JIEBA,THULAC,HanLP等等. 1.1 JIEBA JIEBA是PYTHON平台上比 ...
准确率创新高，北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
北大分词工具包 -- pkuseg
美图欣赏: 一.pkuseg介绍一个多领域中文分词工具包其简单易用,支持细分领域分词,有效提升了分词准确度. pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时 ...
一卡顶四卡，清华推出工具包BMInf玩转百亿大模型
最近在工业界与学术界,最热门的方向莫过于预训练语言模型.而具有百亿乃至千亿参数的大规模预训练语言模型,更是业界与学术界发力的热点. 但现在大模型的应用却有着较高的门槛,排队申请或需要付费的API.较长 ...
千元显卡玩转百亿大模型，清华推出工具包BMInf让模型推理轻而易举
最近在工业界与学术界,最热门的方向莫过于预训练语言模型.而具有百亿乃至千亿参数的大规模预训练语言模型,更是业界与学术界发力的热点. 但现在大模型的应用却有着较高的门槛,排队申请或需要付费的API.较长 ...

清华分词工具包 -- THULAC

清华分词工具包 -- THULAC相关推荐

最新文章

热门文章