对于特定语言的检测并不是一个困难的问题:统计一段文字中有多少个字符落在某语言的基本语素集合(例如:中文中的声韵母)中,然后计算比例,就可以给出答案。

已经有ibm的icu在这方面做得很好,而且计算速度很快。但是对于少数民族的语言并未全部提供支持,譬如维文、柯尔克孜文。

因为icu复杂性较高,研究通透,再做二次开发需要一段时间。为了满足当前简单的需求,手写了一个简单的检测程序。原理同上,但是其中的代码有一部分或许对以后的

自己和正在阅读的你有一些参考价值。

//枚举类:lang的类型

public enum Lang {
WEI,HARZ,KERZ,Not_Wei
}

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.lang.reflect.Array;
import java.util.Arrays;

public class TestDetector {

//所有维文、柯尔克孜文的unicode字符集
static int[] HugeMap ={0x0626,0x0627,0x0628,0x062a,0x062c,0x062d,0x062e,0x062f
,0x0631,0x0632,0x0633,0x0634,0x0639,0x063a,0x0641,0x0642,0x0644,0x0645,0x0648,
0x0649,0x064a,0x0675,0x0676,0x0677,0x0678,0x067e,0x0686,0x0698,0x06ad,0x06af,
0x06be,0x06c5,0x06c6,0x06c7,0x06c8,0x06c9,0x06cb,0x06d0,0x06d5};

//维文独有的字符集
static int[] WeiMap = {0x0698,0x062e,0x063a};

// static int[] HazahMap = {0x0401,0x0402,0x0403,0x0404,0x0405,0x0406,0x0407,0x0408,0x0409,0x};

//柯尔克孜文独有的字符集
static int[] Kerzmap= {0x06c5,0x06c9,0x0649,0x0626};

private static Lang checkWei(String content) {
byte[] probuffer=null;
try {
//UTF-8 to Unicode
probuffer = utf2uni(content.getBytes("UTF-8"),content.getBytes("UTF-8").length);
} catch (UnsupportedEncodingException e) {

维文、哈萨克文、柯尔克孜文检测 (java实现把UTF-8转为unicode)相关推荐

  1. java 维文生成图片_维文、哈萨克文、柯尔克孜文检测 (java实现把UTF-8转为unicode)...

    对于特定语言的检测并不是一个困难的问题:统计一段文字中有多少个字符落在某语言的基本语素集合(例如:中文中的声韵母)中,然后计算比例,就可以给出答案. 已经有ibm的icu在这方面做得很好,而且计算速度 ...

  2. 斯柯达柯珞克显示服务器错误,斯柯达柯珞克原来还有四驱的版本,不信你看!...

    ▶有望推出四驱版本 ▶专利图已经曝光 ▶外观没有变化 斯柯达柯珞克大家应该不会特别陌生,虽然它在前两个月才正式上市,不过作为一款合资的紧凑型SUV来说,它的关注度还是不错的.销量上,4月份交出了266 ...

  3. 斯柯达支持Android auto吗,斯柯达在SUV的布局输了吗?看柯米克和柯珞克的现状就知道...

    众所周知,国内SUV汽车市场一直都比较火爆,很多车企都瞄准了这块市场发起猛攻,而很久没有出过头的斯柯达也看准了这块市场.先是推出了中期改款的科迪亚克,之后不到两个月又紧跟着上市了一款全新的紧凑型SUV ...

  4. 柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test)

    柯尔莫哥洛夫-斯米尔诺夫检验(Колмогоров-Смирнов检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同. 在进行cumulative probab ...

  5. 探岳android auto,“本是同根生”它俩谁最优 柯迪亚克 VS 探岳

    柯迪亚克 2019款 改款TSI330 7座两驱豪华优享版 国VI,官方指导价22.84万元,目前老司机真实成交价为19万左右. 探岳 2019款 330TSI 两驱豪华型 国VI,官方指导价21.8 ...

  6. 最大流问题与福特-富尔克森算法

    文章目录 最大流问题 福特-富尔克森算法 最大流最小割定理 最大流问题 在给定弧赋权的有向图D=(V, A)中有两个特殊的点,一个是源点s,一个是汇点t. 我们可以将弧e上的权值理解为管道的容量,这时 ...

  7. 柯珞克CSS发动机,柯珞克用的什么发动机

    斯柯达柯珞克是斯柯达全新设计的一款紧凑级多功能SUV,定位介于柯迪亚克和YETI之间.斯柯达柯珞克外形强健优雅.空间宽敞舒适.功能实用丰富,是一款兼具功能性和灵活性的家庭用车. 想了解"柯珞 ...

  8. 柯珞克CSS发动机,柯珞克发动机是EA211吗

    柯珞克使用的发动机是ea211系列产品,柯珞克是斯柯达旗下的一款紧凑型suv,这款车一共使用了两款发动机,一款是1.2升涡轮增压发动机,另一款是1.4升涡轮增压发动机.柯珞克的轴距为2688毫米,长宽 ...

  9. java 登录牵手_昔日宿敌 英特尔和Sun今在Java上牵手

    昔日宿敌 英特尔和Sun今在Java上牵手 作者: ZDNet China CNETNews.com.cn 2003-06-10 14:19:33 ZDNet China 6月10日报道 周一,Sun ...

最新文章

  1. ASP.NET 打开新窗口几种方法
  2. C++中struct的使用
  3. python笔记之面向对象
  4. 微信小程序之redirectTo、switchTab和navigateTo
  5. Radware为夏威夷电信公司全新的DDoS攻击缓解服务提供支持
  6. 中石油训练赛 - 位置(模拟+思维)
  7. TensorFlow2-神经网络基础
  8. 直播预告 |【数据挖掘主题报告】多样流量复杂场景中智能技术的研究与应用...
  9. (十八)深入浅出TCPIP之HTTP和HTTPS
  10. DLL导出函数名称改编的解决方法
  11. 机器学习算法-详细白板推导系列视频
  12. 当知识图谱遇上预训练语言模型 -- 留言送书
  13. 轻松决绝疑难杂症:nodejs使用http报错: Request path contains unescaped characters
  14. 【图像处理基础】基于matlab GUI图片浏览器【含Matlab源码 1015期】
  15. 最新版本Eclipse安装SVN插件Subclipse过程
  16. matlab中图例的字怎么改,如何在Matlab图形图例中设置自定义标记
  17. 2010年广州市公务员考试行测真题及答案解析
  18. DASCTF X GFCTF 2022十月挑战赛 WriteUp
  19. Kylin Error:Cannot start job scheduler due to lack of job lock
  20. 推荐一款团队协作软件---confluence

热门文章

  1. 应对IP被封--抓取西刺代理,并构建自己的代理池
  2. jsp的request用法
  3. uni-request的使用
  4. php正则电话号码验证,php正则手机号码验证
  5. php last-modified详解,SEO如何在PHP中添加自定义Last-Modified属性代码
  6. 【Pygame实战】代码版《舞动青春*炫舞》能否引领音舞游戏再一次爆发?“你还记得最浪漫的舞蹈游戏炫舞吗?”
  7. 使用 fs-extra 模块替代 fs
  8. export in “node_modules/pinia/node_modules/vue-demi/lib/index.mjs“ for import “hasInjectionContext“
  9. linux关闭终端提示音
  10. iOS黑魔法--Method Swizzling