在咱国内有很多有趣的文字,其中藏文属于有趣的文字里面特别有趣的一项,特别是对于做文本库的同学,大概都知道什么叫合写字吧。合写字的含义就是多个字符一起组成一个字。但是多个字符在内存中,本身就是多个字符对象,以往统计某个字符串的字数,咱简单判断只是拿字符串的字符数量进行获取。这个方法在藏文下肯定是不可行的,藏文的一个字由多个字符组成,因此需要本文介绍的特别的方法

先给大家来一个简单的藏文字 དིོེུ 这个字其实是由 ད + ུ + ི + ོ + ེ 这几个字符组成的

用 string.Length 获取到的 དིོེུ 这个字也是符合预期 5 个字符,当然这也是不符合预期的字数

这是关于语言文化方面的内容,自己写一定是不靠谱的。好在 .NET 里面提供的权威的获取方法,通过 StringInfo 类的辅助,可以获取可视效果下的字符串的字数

var info = new StringInfo("དིོེུ");
var realLength = info.LengthInTextElements; // realLength = 1

通过此即可获取正确的字符长度

额外的,如果想要枚举一个藏文句子的每个藏文的字。那肯定不能使用字符的遍历方式,否则输出就和汉字的遍历输出为偏旁一样了。遍历藏文,需要使用 StringInfo.GetTextElementEnumerator 方法,例子如下

var enumerator = StringInfo.GetTextElementEnumerator("ཀྲུང་ཧྭ་མི་དམངས་སྤྱི་མཐུན་རྒྱལ་ཁབ།");
while (enumerator.MoveNext())
{Console.WriteLine(enumerator.GetTextElement());
}

参阅:

  • 2019-11-10-看看藏文里面一共有多少个字吧 - huangtengxiao
  • 2019-11-10-使用StringInfo正确查找字符个数 - huangtengxiao

我搭建了自己的博客 https://blog.lindexi.com/ 欢迎大家访问,里面有很多新的博客。只有在我看到博客写成熟之后才会放在csdn或博客园,但是一旦发布了就不再更新

如果在博客看到有任何不懂的,欢迎交流,我搭建了 dotnet 职业技术学院 欢迎大家加入

如有不方便在博客评论的问题,可以加我 QQ 2844808902 交流


本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布,但务必保留文章署名林德熙(包含链接:http://blog.csdn.net/lindexi_gd ),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。如有任何疑问,请与我联系。

dotnet C# 如何正确获取藏文的字数相关推荐

  1. java获取wps文档字数

    1.说明 基于在线wps的字数统计功能,可以实现复杂的word文档的字数统计功能 2.代码 public static void main(String[] args) throws Exceptio ...

  2. PHP检测字数,PHP获取word文档字数的问题

    今天碰到一个需求,是校对论文按字数来计算价格,难点就在统计word文档的字数.一开始的想法是直接用一些第三方插件包例如phpword,然后发现文档和源码中并没有相对应的方法.后来我就用phpword提 ...

  3. 合字研究——看看藏文里面一共有多少个字吧

    还记得我C#使用StringInfo正确查找字符个数_C#,unicode_黄腾霄的博客-CSDN博客这篇博客么? 你们以为2个Unicode组成的emoji就是极限了么? 这篇文章会带你们体验下世界 ...

  4. PaddlePaddle实现手写藏文识别

    原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 前言 中央民族大学创业团队巨 ...

  5. 藏文文字检测识别存在的问题有哪些?

    藏文文字检测识别存在以下一些问题: 多样性:藏文有多种字体和书写风格,这会导致一些识别算法在处理不同的字体和书写风格时出现困难. 识别误差:由于藏文字母之间的形态相似,很容易发生识别错误.而且一些藏文 ...

  6. FastText词向量训练、使用及可视化操作【保姆级教程(包含藏文处理方法)】

    目录 一.前言 二.FastText词向量训练 2.1 数据输入格式 2.2词向量训练 三.词向量使用 一.前言 本文是word2vec词向量篇的姊妹篇.fasttext是静态词向量构建方法的一种,本 ...

  7. Word2Vec词向量训练、使用及可视化操作【保姆级教程(包含藏文处理方法)】

    目录 一.前言 二.Word2Vec词向量训练 2.1 数据输入格式 2.2词向量训练 三.词向量使用 四.词向量可视化 一.前言 word2vec是静态词向量构建方法的一种,本文将介绍word2ve ...

  8. 印刷体藏文文字识别技术研究

    藏文字因其结构的特殊性,在应用传统文字识别方法进行识别时正确识别率较低,识别效果较差.在深入分析以印刷体藏文文字特征的基础上,提出了一系列可以在 干扰情况下提高识别率的方法,包括局部自适应二值化算法. ...

  9. 计算机藏文论文,计算机论文:藏文陈述句复述生成之计算机研究.docx

    计算机论文:藏文陈述句复述生成之计算机研究 第一章 绪论1.1 复述概述从 80 年代开始,藏文信息处理的研究已经经历了 40 年左右,过去几十年里不断放射着奇光异彩,吸引着众多藏文语言学家.藏文自然 ...

最新文章

  1. UPDATE STATISTICS 有何妙用?
  2. Y1066 Ble Master Client 记录
  3. 远程升级stm32程序_STM32IAP远程升级带C#上位机
  4. 使用Github(创建仓库、仓库主页说明)
  5. 盘点Win10系统的实用“小设计”
  6. SWT外观:自定义FlatScrollBar颜色等
  7. CVE-2018-1000136:Electron nodeIntegration绕过漏洞
  8. hdu 1002 A+B problem II
  9. (转)pycharm快捷键
  10. 打印十字图-蓝桥杯历届试题
  11. java的tomcat_JAVA程序获取Tomcat的运行状态
  12. Excel文件对比工具
  13. 交换机日志删除_锐捷交换机记录日志到flash功能详解 | 19号系统
  14. 2022年全球市场凝胶渗透色谱系统总体规模、主要生产商、主要地区、产品和应用细分研究报告
  15. 小米手机计算机usb连接,小米5手机怎么连接电脑 USB调试方法教程
  16. 解决Mac电脑无法读写ntfs硬盘分区的方法以及磁盘读写的简单方法
  17. 颜色代码:网页颜色代码大全及色彩搭配教程
  18. 基于ElasticsearchRepository进行简单封装实现非空更新,saveOrUpdate[笔记]
  19. Centos 7 拨号上网
  20. 大衣哥谷传民纷争,若和合国际收购《火火的情怀》收购价格受关注

热门文章

  1. Lift Splat 没有Shoot LSS入门看这个就够了
  2. 胜利之日服务器文件,【2011】修改版DoD1.3 3266客户端(100%能刷出服务器) 更新...
  3. shell中日期相关操作
  4. js中的Date对象 及 将时间戳转换为yy-mm-dd hh:mm:ss格式的方法
  5. SimpleDateFormat--时间处理
  6. 【sonar集成jenkins实现静态代码扫描】
  7. 百趣代谢组学文献分享:茶褐素可促进胆固醇降解
  8. 什么是销售赋能(Sales Enablement)?为什么说它对企业很重要
  9. python天涯帖子_python多线程抓取天涯帖子内容示例
  10. 如何限制网页只能在微信内置浏览器中打开?