【自然语言处理】opencc:中文繁体☞中文简体的转换
在看蚂蚁金服人工智能团队写的一篇关于中文的NLP的论文时,才知道有opencc
这么个库,可以将中文繁体转为中文简体,大大简化了处理过程。
如果用的pycharm
直接点开解释器,搜opencc
,然后install openCC
即可。也可以在Terminal
通过pip install opencc-python -i https: //pypi.doubanio.com/simple
。
举个栗子:
import opencccc = opencc.OpenCC()
print(cc.convert("「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫"))
「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库
可以看下转换效果非常好~
当然,openCC
是一个类类型,其构造函数还有个参数为config
,config
可取的值有四种,官方文档如下:
t2s - Traditional Chinese to Simplified Chinese
s2t - Simplified Chinese to Traditional Chinese
mix2t - Mixed to Traditional Chinese
mix2s - Mixed to Simplified Chinese
默认情况为t2s
,即繁☞简,s2t
简☞繁,mix2t
与繁体中文混合,mix2s
与简体中文混合。
import opencccc = opencc.OpenCC('s2t')
print(cc.convert("「开放中文转换」,是一个致力于中文简繁转换的项目,提供高质量词库和函数库"))
「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫
文本转换的栗子:
原文本:
import opencccc = opencc.OpenCC()
with open("train.txt", encoding='utf-8') as f:stringArr = [line.strip().split('\n') for line in f.readlines()]with open("convert.txt", mode='w', encoding='utf-8') as f:for s in stringArr:f.write(cc.convert(s[0]+'\n'))
转换后的文本:
【自然语言处理】opencc:中文繁体☞中文简体的转换相关推荐
- javascript 火星文,菊花体,繁体,简体文字转换
前言:之前在百度应用里面看到了这个过类似的工具,很想知道怎么实现的. 琢磨下,自己写了一个,效果如下. <!-------HTML CODE----------> <!DOCTYPE ...
- geartrax2020中文繁体转简体
1. 正常安装 2. 打开安装位置,找到geartrax2020→documents→languages→languagechi.gtxlng,右键记事本打开 3. 新建word文档,将记事本内所有内 ...
- 中文繁体和简体相互转换tranditional.txt文件
啊阿埃挨哎唉哀皚癌藹矮艾礙愛隘鞍氨安俺按暗岸胺案骯昂盎凹敖熬翱襖傲奧懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙壩霸罷爸白柏百擺佰敗拜稗斑班搬扳般頒板版扮拌伴瓣半辦絆邦幫梆榜膀綁棒磅蚌鎊傍謗苞胞包褒剝薄雹保堡飽寶 ...
- 中文繁体和简体相互转换simplified.txt文件
啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋靶把耙坝霸罢爸白柏百摆佰败拜稗斑班搬扳般颁板版扮拌伴瓣半办绊邦帮梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥薄雹保堡饱宝 ...
- Android 修改app的语言(主要讲繁体与简体的转换)
参考网址: (1).http://blog.csdn.net/liyuchong2537631/article/details/48292385 (2).http://www.jb51.net/art ...
- c++ 繁体中文与简体中文的转换
项目需要,要将繁体中文转换为简体中文,纠结了很久,各种iconv转换编码.wchar_t与char转换等等都尝试了,总结一下: 1.繁体中文为big5编码,简体中文如gbk.utf等.iconv.h提 ...
- 用opencc实现Wiki中文语料从繁体转换为简体
1,我遇见问题的描述 我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备 我到https://bintray.com/package/files/byv ...
- java utf8 简繁转换 类库_在Java中进行中文繁体简体转换,基于OpenCC(Open Chinese Convert)方案...
一.OpenCC介绍 OpenCC (Open Chinese Convert,开放中文转换) 是一个用于中文简繁转换的开源项目,支持词汇级别的转换.异体字转换和地区习惯用词转换(中国大陆.台湾.香港 ...
- linux 繁体中文转为简体,linux - 安装OpenCC(简体繁体转换)
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了.这时候就知道OpenCC的强大了.哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编 ...
最新文章
- FFT频谱泄露和加窗 (一)
- 关于数据存储的经典题
- 基于 Angular 的企业级 Web 应用服务器端渲染的推荐建构
- 解决jsp两种提交方式乱码 的方法
- Java 集合Collection常见知识点汇总~
- jquery.tablesorter
- python里的英文歌叫什么_一首英文歌名最后是onshould
- 【Redis】Redis学习(四) Redis Sentinel模式详解
- 土制状态机在工作流引擎中的应用
- SPSS数据分析全套教程(2)—— 变量处理
- WORD目录中一级标题和二级标题小圆点不同的原因
- LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)
- 百度AI市场热品试用 | 台面式双目活 体检测USB摄像头
- 改纸盒大小_【印刷技术】今天才知道,原来要这样制作小规格纸箱
- vba批量写入mysql临时表_提高从VBA字典向Access DB中插入多个数据的速度
- ICP备案和ICP许可证区别
- setoolkit克隆网站并抓取账号密码
- Linux df命令怎么使用
- 用python代码(turtle库)绘制好看的效果图
- SAP PI PO 接口配置主体传播 RSXMB_CONFIG_PP_NEW
热门文章
- boost:optional
- 清华大学计算机学院曹伦郗,四川文理第一名填报北大 来看看高分学霸们最后选了啥专业_四川在线...
- 旅游中常用的简单英语会话
- 台湾高新Cabot长兴电子Office 365培训
- 用JAVA实现名字缘分测试
- 北斗导航 | 北斗导航定位授时群(PNT研究院)
- aix内核是linux,linux和aix内核参数检查
- qt 3d迷宫游戏_Switch游戏 | 吃豆旅行走走停停
- Clojure 学习入门(6)—— 函数定义
- 即便是SQL Guy, 也无法逃离UML