python日语识别-编写简单的Python程序来判断文本的语种
1.问题的描述
用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。
2.程序的代码
以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:
import langid #引入langid模块
def translate(inputFile, outputFile):
fin = open(inputFile, "r") #以读的方式打开输入文件
fout = open(outputFile, "w") #以写的方式打开输出文件
for eachLine in fin: #依次读入每一行
line = eachLine.strip().decode("utf-8", "ignore") #去除每行的首位空格等,并统一转化成Unicode
lineTuple = langid.classify(line) #调用langid来对该行进行语言检测
if lineTuple[0] == "zh": #如果该行语言大部分为中文,则不进行任何处理
continue
outstr = line #如果该行语言为非中文,则准备输出
fout.write(outstr.strip().encode("utf-8") + " ") #输出非中文的行,从Unicode转化成utf-8输出
fin.close()
fout.close()
if __name__ == "__main__": #相当于main函数
translate("myInputFile.txt", "myOutputFile.txt")
以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。
3.注意
第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。
希望对大家有所帮助。
python日语识别-编写简单的Python程序来判断文本的语种相关推荐
- python判断语种_编写简单的Python程序来判断文本的语种
1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文.英文.日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的.Python中有个langid ...
- python识别ppt文件格式 ——(专栏:基于python编写简单office阅卷程序③)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python识别excel文件格式 ——(专栏:基于python编写简单office阅卷程序②)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python识别word文件格式 ——(专栏:基于python编写简单office阅卷程序①)
● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...
- python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...
每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...
- python socket编程 实现简单p2p聊天程序
转载自:https://www.cnblogs.com/wuxie1989/p/7204887.html python socket编程 实现简单p2p聊天程序 目标是写一个python的p2p聊天的 ...
- Python编程学习——运用python编写简单的计算器程序
简单计算器的程序实现 一.功能要求: 实现用户输入算式,其中包含加减乘除,括号以及空格的算式,并且优先计算最里的括号的算式,例如1+ 22*3 2-2 2*(2 3 1+34*33/4+55*(1 2 ...
- python网页服务器_python编写简单网页服务器
这篇文章主要介绍了关于python 编写简单网页服务器,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 IDE:Pycharm sever.py #!/bin/python #-*- c ...
- python输入输出拓展: 制作简单的exe程序(温度转换器)
制作简单的exe程序 为了防止代码被盗,需要对代码进行打包.这里,就需要制作exe程序. 准备工作: 1. 安装第三方模块 pyinstaller 2. . 阿里巴巴矢量图标库(www.iconfon ...
最新文章
- Bloom Filter 大规模数据处理利器
- c efcore.mysql_EF Core在mysql中调用存储过程
- leetcode算法题--寻找两个有序数组的中位数★★
- php swool协程,swoole如何实现协程
- ajax alert表单,jQuery AJAX Post alert()不被调用
- 高通写号工具_高通推出桌面平台新ARM处理器并认为我们的电脑性能没必要那么高...
- MyBatis在Oracle中插入数据并返回主键的问题解决
- codeforces D. Palindrome pairs 动态规划
- yb3防爆电机型号含义_【产品信息】防爆充电机
- Scratch3.0界面介绍
- 常用电脑端口作用大曝光
- 私人助手android,私人助手Pro专业版
- Android开发仿微信支付宝的支付密码布局
- uni-app 添加到“用其他应用打开”中、app加入系统分享列表、获取分享的文件
- win7原版镜像_告诉你Ghost系统和原版系统之间的区别,看完再装机也不晚
- 今天女朋友问我多线程是什么?送命题?
- 编译驱动程序报错BufferOverflowFastFailK.lib(loadcfg.obj) : error LNK2001: __guard_eh_cont_count
- PIPO管道通信范列(linux)
- 天天特惠系统秒杀优化方案
- matplotlib绘制电子鼻传感响应曲线