1.问题的描述

用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。

2.程序的代码

以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:

import langid #引入langid模块

def translate(inputFile, outputFile):

fin = open(inputFile, "r") #以读的方式打开输入文件

fout = open(outputFile, "w") #以写的方式打开输出文件

for eachLine in fin: #依次读入每一行

line = eachLine.strip().decode("utf-8", "ignore") #去除每行的首位空格等,并统一转化成Unicode

lineTuple = langid.classify(line) #调用langid来对该行进行语言检测

if lineTuple[0] == "zh": #如果该行语言大部分为中文,则不进行任何处理

continue

outstr = line #如果该行语言为非中文,则准备输出

fout.write(outstr.strip().encode("utf-8") + " ") #输出非中文的行,从Unicode转化成utf-8输出

fin.close()

fout.close()

if __name__ == "__main__": #相当于main函数

translate("myInputFile.txt", "myOutputFile.txt")

以上代码是用来处理一个文本,将不属于中文的行依次输出到一个新的文件。

3.注意

第9、10行代码,langid.classify(line)的输出结果是一个二元组,二元组的第一项表示该文本所属的语系,如:zh表示中文、en表示英语、等等;二元组的第二项表示该文本中属于第一项中语系的所占比例。

希望对大家有所帮助。

python日语识别-编写简单的Python程序来判断文本的语种相关推荐

  1. python判断语种_编写简单的Python程序来判断文本的语种

    1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文.英文.日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的.Python中有个langid ...

  2. python识别ppt文件格式 ——(专栏:基于python编写简单office阅卷程序③)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  3. python识别excel文件格式 ——(专栏:基于python编写简单office阅卷程序②)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  4. python识别word文件格式 ——(专栏:基于python编写简单office阅卷程序①)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  5. python做好的程序如何变成小程序-使用python编写简单的小程序编译成exe跑在win10上...

    每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以 ...

  6. python socket编程 实现简单p2p聊天程序

    转载自:https://www.cnblogs.com/wuxie1989/p/7204887.html python socket编程 实现简单p2p聊天程序 目标是写一个python的p2p聊天的 ...

  7. Python编程学习——运用python编写简单的计算器程序

    简单计算器的程序实现 一.功能要求: 实现用户输入算式,其中包含加减乘除,括号以及空格的算式,并且优先计算最里的括号的算式,例如1+ 22*3 2-2 2*(2 3 1+34*33/4+55*(1 2 ...

  8. python网页服务器_python编写简单网页服务器

    这篇文章主要介绍了关于python 编写简单网页服务器,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 IDE:Pycharm sever.py #!/bin/python #-*- c ...

  9. python输入输出拓展: 制作简单的exe程序(温度转换器)

    制作简单的exe程序 为了防止代码被盗,需要对代码进行打包.这里,就需要制作exe程序. 准备工作: 1. 安装第三方模块 pyinstaller 2. . 阿里巴巴矢量图标库(www.iconfon ...

最新文章

  1. Bloom Filter 大规模数据处理利器
  2. c efcore.mysql_EF Core在mysql中调用存储过程
  3. leetcode算法题--寻找两个有序数组的中位数★★
  4. php swool协程,swoole如何实现协程
  5. ajax alert表单,jQuery AJAX Post alert()不被调用
  6. 高通写号工具_高通推出桌面平台新ARM处理器并认为我们的电脑性能没必要那么高...
  7. MyBatis在Oracle中插入数据并返回主键的问题解决
  8. codeforces D. Palindrome pairs 动态规划
  9. yb3防爆电机型号含义_【产品信息】防爆充电机
  10. Scratch3.0界面介绍
  11. 常用电脑端口作用大曝光
  12. 私人助手android,私人助手Pro专业版
  13. Android开发仿微信支付宝的支付密码布局
  14. uni-app 添加到“用其他应用打开”中、app加入系统分享列表、获取分享的文件
  15. win7原版镜像_告诉你Ghost系统和原版系统之间的区别,看完再装机也不晚
  16. 今天女朋友问我多线程是什么?送命题?
  17. 编译驱动程序报错BufferOverflowFastFailK.lib(loadcfg.obj) : error LNK2001: __guard_eh_cont_count
  18. PIPO管道通信范列(linux)
  19. 天天特惠系统秒杀优化方案
  20. matplotlib绘制电子鼻传感响应曲线

热门文章

  1. python 面向对象和类
  2. 深入理解EMA和SMA
  3. STM32--RFID无线射频技术(RC522刷卡模块)
  4. 顺利完成网页版体温单
  5. 什么设备升级android9,三星设备安卓9.0升级路线图更新:共30款
  6. O365邮箱添加日历权限 (Exchange类似)
  7. dx12 龙书第二十章学习笔记 -- 阴影贴图
  8. Android usb-serial-for-android驱动库 实现(读卡器rs232串口转usb)插入开发板读取数据
  9. CarbonData简介
  10. c# 微光互联 TX200 -wf 二次开发