通用文字识别(OCR)目前有很多火热的应用,比如身份证识别可以自动地从图片中定位和识别出身份信息。通用高精版识别,可以单字识别并返回单字坐标,表格识别可以识别文档上所有表格里面的信息内容。增值税发票识别,可以识别发票代码、号码、日期、校验码、税额、受票方名称等15个常见字段,带给人们更多的便利。详细的识别算法知识见:https://www.quickconn.net.cn/#/insight/showPaper.html?paperId=60,精准识别文字信息。

图1 通用文字识别

下面介绍几种较新、效果较好的通用文字识别算法。

What If We Only Use Real Datasets forScene Text Recognition? Toward Scene Text Recognition With Fewer Labels

场景文本识别(STR)任务有一个共同的做法:所有最先进的STR模型都在大量的合成数据上进行训练。与此相反,当必须在没有合成数据的情况下训练STR模型时,只在较少的真实标签上训练STR模型(STR with fewer labels)是很重要的:对于难以合成的手写或艺术文本,以及对于英语以外的语言,不一定有合成数据。然而,由于真实数据不足,在真实数据上训练STR模型几乎是不可能的,这是一个隐含的常识。

Jeonghun Baek和Yusuke Matsui等人认为这一常识阻碍了对具有较少标签的STR的研究。在这项工作中,希望通过反驳这一常识来重新激活少标签的STR。整合了最近积累的公共真实数据,并表明只能用真实的标签数据来训练STR模型,才能令人满意。随后,找到了简单的数据增强方法来充分地利用真实数据。此外,通过收集未标记的数据和引入半监督和自监督的方法来改进模型。

图2 Pseudo-Label和Mean Teacher标签的说明

为了公平比较,列出了只使用MJ和ST进行训练的方法,并且使用了6个基准数据集: IIIT, SVT, IC13-1015, IC15-2077,SP, and CT。

图3 STR模型在六个数据集上的准确度

研究表明,公共真实数据已经积累了很多年。虽然积累的真实数据只占合成数据的1.7%,但可以通过使用它来充分训练STR模型。通过使用简单的数据增量和引入半监督和自监督的方法,利用数百万真实的无标签数据,进一步提高了性能。

Implicit Feature Alignment: Learn toConvert Text Recognizer to Text Spotter

文本识别任务本身仍被限制在解决阅读裁剪过的线条文本图像的问题上,并作为光学字符识别(OCR)系统的一个子任务。因此,最终的文本识别结果受限于文本检测器的性能。在本文中,TianweiWang和Yuanzhi Zhu提出了一个简单、优雅和有效的范式,称为隐式特征对齐(IFA),它可以很容易地集成到当前的文本识别器中,从而形成一个新颖的推理机制,称为IFA推理。这使得普通的文本识别器能够处理多行文本,从而使文本检测能够完全解放出来。

图4 文本识别的发展

具体来说,将IFA整合到两个最普遍的文本识别流中(基于注意力和基于CTC),并提出注意力引导的密集预测(ADP)和扩展CTC(ExCTC)。此外,还提出了基于Wasserstein的空心聚集交叉熵(WH-ACE)来抑制负面预测,以帮助训练ADP和ExCTC。通过实验证明,IFA在端到端文档识别任务中实现了最先进的性能,同时保持了最快的速度,而ADP和ExCTC在不同的应用场景中相互补充。

图5 ADP训练、传统的注意力推理、从ADP得出IFA-推断

与以前的研究相比,在本研究中,IFA首先统一了文本识别和文本识别的形。IFAinference可以在单行和多行图像上工作,从而形成一个更简单的OCR系统。虽然IFA可以直接进行无检测的文本点选,但目前的版本仍然需要基于规则的后处理来从密集的预测中生成文本,其通用性很低。在未来,将探索一种更好的连接策略,以取代目前基于规则的后处理,并将该方法扩展到场景-文本发现任务。

图6 从行式文本识别转换为多行式识别

Sequence-to-Sequence ContrastiveLearning for Text Recognition

Aviad Aberdam和Ron Litman等人提出了一个视觉表征的序列-序列对比学习(SeqCLR)框架,并将其应用于文本识别。为了说明序列到序列的结构,每个特征图被划分为不同的实例,在这些实例上计算对比损失。这种操作能够在子词层面上进行对比,从每个图像中提取几个正面的配对和多个负面的例子。为了产生有效的文本识别视觉表征,进一步提出了新的增强启发式方法、不同的编码器架构和自定义投影头。

图7 实例映射功能

在手写文本和场景文本上的实验表明,当文本解码器在所学到的表征上进行训练时,方法比非序列对比方法的表现更好。此外,当监督量减少时,与监督训练相比,SeqCLR明显提高了性能,而当用100%的标签进行五次调整时,方法在标准手写文本识别基准上取得了最先进的结果。

图8 词的错误率与标记数据的函数-数量的对数尺度

通用文字识别(OCR)可精准检测出不同场景图片中的文本, 实现快速定位识别,能提供多场景、多语种、高精度文字检测和识别服务。随着一些算法进一步改进,通用文字识别将更好的为人类提供便利。

精准识别文字信息:通用文本识别算法整理相关推荐

  1. 手把手教程|构建无服务器通用文本识别功能

    前言 无服务器应用程序可保证您无需配置或管理服务器,即可轻松运行代码内容.本文介绍了一种基于无服务器架构的文本识别 (Optical Character Recognition, OCR) 解决方案可 ...

  2. Java实现百度云OCR接口识别图片文字信息(也包含身份证,银行卡识别,更新添加通用票据识别)

    参考: https://blog.csdn.net/weixin_40165004/article/details/82632229 1.需求背景 因项目需求,需要提取身份证.发票(9/16更新内容) ...

  3. 不会玩阴阳师的我带你一键下载《阴阳师:百闻牌》所有卡牌并调用百度OCR识别文字信息

    文章目录 一.项目概述 1.项目背景 2.环境配置 二.项目实施 1.项目分析 selenium模拟滚动加载所有图片 用百度OCR定位所有文字并分类 实现多线程 2.具体实现 (1)导入所需的库和定义 ...

  4. 本地腾讯滑块识别DLL/本地通用验证码识别DLL/文字点选/图标点选/本地识别DLL

    背景 验证码识别一直都是一个重要的话题,近日有一些公司询问 本地DLL验证码识别定制的事,可以联系QQ:[167231471]定制本地离线DLL验证码识别.另外给大家普及一下通用验证码识别和滑块缺口检 ...

  5. 本地滑块识别DLL/本地通用验证码识别DLL/文字点选/图标点选/本地识别DLL

    背景 验证码识别一直都是一个重要的话题,近日有一些公司询问 本地DLL验证码识别定制的事,可以联系QQ:[167231471]定制本地离线DLL验证码识别.另外给大家普及一下通用验证码识别和滑块缺口检 ...

  6. 本地OCR文字识别DLL/本地通用验证码识别DLL/通用滑块识别/文字点选/图标点选/本地识别DLL

    背景 验证码识别一直都是一个重要的话题,近日有一些公司询问 本地DLL验证码识别定制的事,可以联系QQ:[167231471]定制本地离线DLL验证码识别.另外给大家普及一下通用验证码识别和滑块缺口检 ...

  7. tesseract:从图片中识别文字信息

    一.安装 tesseract 安装过程:https://blog.csdn.net/fengbohello/article/details/119272478 二.安装训练后的语言文件 下载英文数据: ...

  8. ECCV 2020 | 图匠数据、华中师范提出低质退化文本识别算法PlugNet

    导语 自然场景文本识别是计算机视觉领域的一个经典问题,并被广泛使用于无人驾驶.视觉识别等领域.不同于电脑中的文本识别,自然场景中所采集的文本,往往包含着大量低质量的图像,这对于目前的文本识别器来说是一 ...

  9. 一文搞懂文本识别、银行卡识别、通用卡证识别、身份证识别

    1 前言   查看华为开发者联盟网站的机器学习服务业务介绍(https://developer.huawei.com/consumer/cn/doc/development/HMS-Guides/ml ...

最新文章

  1. homebrew的安装和使用
  2. 如何正确解码用户的“玄学需求”?
  3. 剑指offer66题 -- 输入一个链表,从尾到头打印链表每个节点的值
  4. kaggle notebook中使用git lfs
  5. 计算机组成原理,P函数,深入浅出计算机组成原理学习笔记:第五讲
  6. oracle索引建立
  7. java 6 update 3_Java(TM) 6 Update(java运行环境) V 6.0.450.6 官方版
  8. eclipse 插件扩展新建java页面_java-Eclipse插件:创建动态菜单和相应的处理...
  9. python脚本自动运行失败_Linux中定时任务执行python脚本失败的解决方法
  10. ToString函数用法
  11. visio业务流程图教学_Visio流程图入门
  12. 计算机硬件开票几个点,财务税控开票电脑装机配置清单和价格介绍
  13. 使用eclipse打包app以及AndroidStudio和Eclipse中app签名修改等问题(SH1和MD5)
  14. 用计算机中的知识秀恩爱,教你用专业知识取情侣网名
  15. 操作系统安全防范措施
  16. word英文大写问题解决方案
  17. 蓝牙disable流程简述
  18. 这届90后女博士,对30岁不屑一顾
  19. 2018年常见的13种APP推广方法 最后一种运营者必看
  20. 【读书分享】精益企业——高效能组织如何规模化创新?

热门文章

  1. Mac上unity的汉化
  2. 从键盘输入20个数a1到a20,计算并输出b1到b10,b1=根号(a1*a1+a20*a20),...,b10=根号(a10*a10+a11*a11)
  3. 报泰山学堂计算机条件,泰山学堂计算机取向举行2014级教授小组见面会
  4. python 将姓名 除姓外用*代替和手机号中间4位用****代替
  5. Docker入门学习笔记
  6. 青龙脚本(番茄小说,附脚本)(已废)
  7. 防火门BS EN 1634-1耐火试验/门窗EN1634-1耐火
  8. 【Android 常见控件使用】AlertDialog(对话框)详解
  9. MMD在K帧的时候如何避免滑步
  10. JS逆向分析新浪某站登录处RSA加密