之前有点好奇有道词典中的OCR功能,具体来说就是强力取词功能。我知道的最有名的OCR库是tesseract,这个库是惠普在早些年前开源的。

  在用python做爬虫处理验证码的时候,就会用到这个库,对应的python封装版本名字叫pytesseract。在github上可以找到tesseract的源码。

  不过,此前在有道词典安装之后的文件夹中,我并未找到tesseract库。直到最近,更新了有道词典,换了新版本,才意外在文件下找到一个名叫tessdll.dll的文件。

  

  与此同时,我对照了一下旧版本,其中有一个叫XDLL.dll的库。查看其属性可以看到,名字叫ksense:

  

  根据搜索结果可知,该XDLL.dll库来源于一款名叫"逍遥笔手写输入"的国产软件。值得注意的是,在加入tessdll.dll之后依然保留了XDLL.dll。

  要推断其中的原因。还有一个文件值得注意,那就是OcrInfo.xml,其内容为:

<?xml version="1.0" encoding="UTF-8" ?>
<Strings><Version>1.0</Version><Lang Name="OCRLe"><String Name="en" Value="0" Size="3470" ReName="eng" UPDATE="0"  LOAD="1"/><String Name="es" Value="1" Size="15580" ReName="spa" UPDATE="0" LOAD="0"/><String Name="pt" Value="2" Size="12612" ReName="por" UPDATE="0" LOAD="0"/><String Name="de" Value="3" Size="13054" ReName="deu" UPDATE="0" LOAD="0"/><String Name="fr" Value="4" Size="13715" ReName="fra" UPDATE="0" LOAD="0"/><String Name="ru" Value="5" Size="15774" ReName="rus" UPDATE="0" LOAD="0"/><String Name="ja" Value="6" Size="32298" ReName="jpn" UPDATE="0" LOAD="0"/><String Name="ko" Value="7" Size="12998" ReName="kor" UPDATE="0" LOAD="0"/></Lang><Lang Name="MultiLeSelect"><String Name="英汉互译 " Value="eng" QueryName="en" ReName="英文"      LeHint ="(英语)"     /><String Name="法汉互译 " Value="fra" QueryName="fr" ReName="法文"      LeHint ="(法语)"     /><String Name="日汉互译 " Value="jpn" QueryName="ja" ReName="日文"      LeHint ="(日语)"     /><String Name="德汉互译 " Value="deu" QueryName="de" ReName="德文"      LeHint ="(德语)"     /><String Name="韩汉互译 " Value="kor" QueryName="ko" ReName="韩文"      LeHint ="(韩语)"     /><String Name="葡汉互译 " Value="por" QueryName="pt" ReName="葡萄牙文"  LeHint ="(葡萄牙语)" /><String Name="西汉互译 " Value="spa" QueryName="es" ReName="西班牙文"  LeHint ="(西班牙语)" /><String Name="俄汉互译 " Value="rus" QueryName="ru" ReName="俄文"      LeHint ="(俄语)"     /></Lang>
</Strings>

  据此可以推断,新版的有道词典加入tesseract库,主要为了支持更多的语言,而中文的OCR可能依然是使用ksense进行处理。

转载于:https://www.cnblogs.com/wurui1994/p/6914589.html

有道词典中的OCR功能:第三方库的变化相关推荐

  1. 如何使用PDFelement 6 Pro Mac中的OCR功能

    pdfelementmac破解版编辑软件,几乎可以满足您需要的一切功能,不仅仅是阅读.创建.转换.编辑和签名这类的基础功能,还能让您在不改变格式和排版的情况下,轻松的编辑办公文档.那么如何使用PDFe ...

  2. 必应词典桌面版 --- 基于大学生用户群体的软件评测与分析(与有道词典对比版 1功能篇)...

    1.概述 这篇博客会从大学生的角度来评测必应词典桌面版,以大学生的使用习惯来评判必应词典桌面版各项功能的优劣,并与同类软件进行横向分析,最终给出我们的评分.本次分析评测的主要评测员为博主本人,相关分析 ...

  3. 项目开发中对使用的第三方库统一进行管理__添加属性表/页

    最近接手的一个项目开发中用到了很多第三方库,比如boost.gdal.xerces等等这些.从接手项目到现在从中学习到了很多之前从未见识过的东西.项目绝大部分都是前辈们写的,对于里面的对第三方库的管理 ...

  4. gradle 查看依赖类库版本_Android studio中查看依赖的第三方库的历史版本和最新版本...

    在日常开发过程中,我们通过会依赖很多的第三方库项目.类似这样: dependencies { compile 'com.android.support:support-v4:24.2.1' compi ...

  5. python中包含矩阵运算的第三方库_可用来存储和处理大型矩阵的Python第三方库是:???????????????????????????????????????...

    可用来存储和处理大型矩阵的Python第三方库是:??????????????????????????????????????? 答:Numpy 我国社会主要矛盾发生变化,说明人民的欲望太多了,没有办 ...

  6. c++ vscode 第三方库_请教下,vscode中怎么编译带第三方库的文件呢?谢谢! - C++程序设计语言 - CPlusPlus - 水木社区...

    搞定了.需要通过两步去编译,多谢多谢. https://www.sfml-dev.org/tutorials/2.5/start-linux.php 1. g++ -c main.cpp -I/inc ...

  7. iOS开发中常用到的第三方库

    整理了学习iOS之后常用的第三方库,后续有其他的会继续更新 希望可以帮助到你 网络请求: AFNetworking Alamofire 博客提到过https://blog.csdn.net/weixi ...

  8. 项目中常用的 iOS 第三方库

    数据相关 Haneke:数据缓存,包括 UIImage.NSData.JSON.String-- FMDB:SQLite 数据库 CryptoSwift:各种加密 ObjectMapper: JSON ...

  9. React中添加class——借助第三方库classnames

    一.vue中添加class vue中添加class是一件非常简单的事情: 你可以通过传入一个对象: 你也可以传入一个数组: 甚至是对象和数组混合使用: 二.React中添加class React在JS ...

最新文章

  1. 2W+好评,这个python数据分析课程免费开放3天!
  2. KALI Linux 系统安装 翻译
  3. JavaWeb总结(六)
  4. 工作五年,后面四年重复着第一年的活儿?
  5. linux打包压缩命令汇总
  6. python tempfile 创建临时目录
  7. [组图]海报:计算机的爱
  8. 论文被拒稿后怎么办?这些事情你要知道
  9. 经典 MyBatis 面试题
  10. session图片验证码,页面和请求是两个地址。android手机好用,iphone 失效。
  11. 物联网智能网关应用系统的一般设计方法
  12. php让代码重新运行一次,脚本运行时是否可以动态重新加载PHP代码?
  13. java c混合编程 linux_linux下C与C++混合编程
  14. Compile、Make和Build的区别(as make, build, clean, run)
  15. SQL 语句性能查看
  16. JCreator中不能引入servlet包的解决办法
  17. java同步mysql数据
  18. FreeImage的学习资料汇总
  19. Vue2-Vue3.0学习笔记(2021年黑马程序员最新视频)
  20. DeFi冰火两重天:数千项目,鲜有人用,存量厮杀如何撼动传统金融?

热门文章

  1. 五分钟看完 Linux 重点知识,建议收藏!
  2. 基于百度EasyDL定制化图像识别平台的海洋鱼类识别方法
  3. 淘宝旅行单日出票量超2.6万张创同类网站纪录
  4. mysql保存测试数据_Mysql自动填充测试数据
  5. python Cartopy 船舶轨迹数据可视化 【GPS AIS VMS】
  6. 【NER】CCL2021医疗命名体识别之数据预处理(处理.json文件)
  7. 我的世界java版怎么进EC,我的世界中国版为什么进不去了 进不去了怎么办
  8. 身份证问题讲解全连接神经网络
  9. linux c t添加arp表,Ubuntu下C语言+libnet实现ARP数据包广播
  10. vs2019使用openssl3.0的环境配置并进行DES加解密