一、背景

电子文档由于更容易存档、编辑、签名和共享,越来越多的文档需电子化,随着高质量摄像头在手机等移动设备上的普及,利用移动设备对文档进行数字化采集已经非常普遍。通过图像校正与图像质量提升,移动设备采集的文档图像质量甚至可以与专用的文档扫描仪相当。然而,文档总是由于纸张几何形状和捕获条件不受控制而形变。这阻碍了形变图像的信息提取,降低可读性,对数据增强和下游任务如OCR识别、版面分析与还原等任务增加难度。

二、方法概述

为解决文档弯曲矫正问题,学术界已有多种方案。一类是利用多目相机,结构光或者激光雷达等设备对文档进行扫描,获得文档表面的3D结构信息,进而对文档校正展平。这类方法一般可以得到比较好的校正效果,但依赖专用设备的特点限制了其使用场景。

还有一类是利用显式的几何模型以适应形变文档曲面,这类方法完全依靠图像信息以及文档形变的先验知识对图像进行校正。这类方法一般需要进行文字行或者表格线的检测,并假设曲面符合特定的几何约束,如曲面是柱面。这类方法可以在普通的移动设备上实现,但是其校正效果受文字行检测准确度的限制,对文档版式比较敏感,无法处理存在大量图表的文档,且误检的文字行有可能会对校正造成严重干扰。

还有一类基于优化的方法,利用损失函数缓慢迭代优化以获得形变矫正结果,但时间较长不适合实时应用。

最近,数据驱动的方法已经流行起来。 这些方法训练一个 形变矫正神经网络,学习形变场,从而得到类似扫描的结果。 这样的网络可以实现实时矫正。Das等人使用 CNN 检测文档的折痕并进行分割文件分成多个块进行矫正。 Xing等人 应用CNN估计文档变形和相机姿态以进行校正。 Ramanna等人通过利用 pix2pixhd 网络去除文档的卷曲和几何失真。 然而,这些方法仅适用于简单变形和单调背景。

Ma等人 提出了一个堆叠的 U-Net,它经过训练端到端预测翘曲的前向映射。 由于生成的数据集与真实世界的图像有很大不同,[15] 对其进行了训练在真实世界的图像上测试时,数据集的泛化能力较差。Das等人认为当合成训练数据集仅使用 2D 变形进行训练时,弯曲矫正模型并不总是表现良好,因此他们创建了一个 Doc3D 数据集,该数据集具有多种类型的像素级文档图像偏移场,同时使用真实世界文档和渲染软件。

同时,提出了一种去扭曲网络和细化网络来校正文档图像的几何和阴影。李等人 在 3D 空间中生成训练数据集,并使用渲染引擎获得更精细、更逼真的失真文档图像细节。他们提出了基于图像块(patch)的学习方法,并通过在梯度域中的处理将patch结果拼接到校正后的文档中,以及用于去除阴影的光照校正网络。与之前的方法相比,这些文献更关心生成的训练数据集和真实世界测试数据集之间的差异,并专注于生成更真实的训练数据集以提高真实世界图像的泛化能力。尽管这些结果令人惊叹,但深度神经网络的学习和表达能力并未得到充分探索。

二、合合方案

我们将弯曲矫正问题定义如下:

其中u 是形变场,S(Source)是弯曲图,T(Target)是平整图。一个理想的空间变换(spatial transformation)需要有两个衡量标准,及相似度和正则项,一方面我们期望弯曲样本变换后与目标(平整样本)越相似越好,图像相似性有很多种标准,常见的有相关系数(Correlation Coefficient, CC)、归一化的相关系数(NCC)、互信息(Mutual Information, MI)、均方误差(MSE)等。

另一方面,我们也希望这个变换是空间上平滑且连续的,这样能保证变换遵循物理模型,存在连续可逆的变换,使得我们的变换在数据合成等方面有更广泛的应用。和相似度损失函数类似,正则项在网络里也有多种实现方式,一种是通过对位移场直接进行空间梯度惩罚,一种则是通过对速度场进行约束后再通过积分层得到最终形变场,还有一种则是在训练过程中通过循环损失函数来实现。

形变矫正网络可以是encoder-decoder类似结构,由于惩罚项如果直接施加在位移场上,大位移场景模型的矫正能力就会降低,有方案通过多次迭代矫正过程位移场来实现大形变。

我们则参考配准中的流模型(fluid model),用速度场来建模形变场,并通过积分层来实现最终的形变场。事实上,位移场也可以被视作是轨迹固定的流场(直线)。 对于不同的正则项, 在大部分情况下,直线轨迹并不是最优解。直线轨迹得到的正则项的值很多情况下会更大点。 作为对比,引入速度场在这种情形下实现了更多的自由度。

如果你对这一块感到困惑,可以想象连接世界地图上两个地方的最短路径, 大部分情况下都不是直线 [Ref]。速度场求解可转换为如下问题,其中L是对速度场施加的正则项。

空间变换网络一开始提出时只是简单用作仿射变换等,后来采用了采样网格的方式使得它功能更加强大。对于大小为[W, H]的二维图像来说,其位移场大小为[W, H, 2]。位移场表示每个像素在各个方向(x,y轴)的位移。空间变换网络会根据位移场生成一个归一化后的采样网格,然后用该网络对图像进行采样,就得到了矫正后的图像。

  1. Shaodi You, et al. 2017. Multiview Rectification of Folded Documents. IEEE Transactions on Pattern Analysis and Machine Intelligence.
  2. Taeho Kil, et al. 2017. Robust Document Image Dewarping Method Using Text-Lines and Line Segments. In Proceedings of the International Conference on Document Analysis and Recognition. IEEE, 865–870.
  3. Beom Su Kim, et al. 2015. Document Dewarping via Text-Line Based Optimization. Pattern Recognition 48, 11 (2015), 3600–3614.
  4. Sagnik Das, et al. 2019. DewarpNet:Single-image Document Unwarping with Stacked 3D and 2D Regression Networks. In Proceedings of the International Conference on Computer Vision.
  5. Hao Feng, et al. 2021. DocTr:Document Image Transformer for Geometric Unwarping and Illumination Correction. In Proceedings of the ACM International Conference on Multimedia.
  6. Guo-Wang Xie, Fei Yin, Xu-Yao Zhang, and Cheng-Lin Liu. 2020. Dewarping Document Image by Displacement Flow Estimation with Fully Convolutional Network. In Document Analysis Systems. Springer, 131–144.
  7. Gaofeng Meng, et al. 2015. Extraction of Virtual Baselines from Distorted Document Images Using Curvilinear Projection. In Proceedings of the International Conference on Computer Vision.
  8. Vincent Arsigny, et al. 2005. A log-Euclidean framework for statistics on diffeomorphisms. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 924–931. Springer.
  9. John Ashburner. 2007. A fast diffeomorphic image registration algorithm. Neuroimage, 38(1):95–113.
  10. Beg, M.F., et al. 2005. Computing large deformation metric mappings via geodesic flows of diffeomorphisms. Journal of Computer Vision, 139–157.
  11. Brian Avants et al. 2004. Geodesic estimation for large deformation anatomical shape averaging and interpolation. Neuroimage, 23:S139–S150.
  12. Adrian V Dalca, et al. 2019. Unsupervised learning of probabilistic diffeomorphic registration for images and surfaces. Medical image analysis, 57:226–236.
  13. Zhengyang Shen, et al. 2019. Networks for joint affine and non-parametric image registration. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4224–4233.
  14. fluid(流) 方法图像配准简介 - 知乎
  15. GitHub - uncbiag/registration: Image Registration

智能文字识别技术-弯曲矫正概述相关推荐

  1. 合合信息——用智能文字识别技术赋能古彝文原籍数字化

    文章目录 1. 背景介绍:古彝文是什么?为什么要保护它?如何保护它? 2. 传统方法保护古彝文:原籍难获.翻译困难 2.1. 古彝文原籍的破损与古法保存 2.2 古彝文原籍的保护与翻译 2.2.1 获 ...

  2. 智能文字识别技术推动彝文识别弘扬中华文化

    ​强烈推荐一个大神的人工智能的教程:http://www.captainai.net/zhanghan 前言 谈起图像识别自己颇有感触,因为之前的两段工作经历都和图像识别密切相关:之前一家公司的主营业 ...

  3. 能“读懂”古文还可反诈骗, 合合信息智能文字识别“黑科技”亮相2022WAIC

    挑战"大师级"阅读理解,合合信息智能文字识别技术亮相2022世界人工智能大会 "克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒"要怎么断句?世界人工智能大会期间,一篇 ...

  4. 10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

    1024是2的十次方,也是二进制计数的基本计量单位之一,每年的10月24日因此成为了中国程序员的盛会.近期,CSDN(中国开发者网络)第三届"1024程序员节"(简称"大 ...

  5. 【白皮书分享】智能文字识别(OCR)能力评测与应用白皮书.pdf(附下载链接)...

    大家好,我是文文(微信:sscbg2020),今天给大家分享中国信通院云计算与大数据研究所.中国人工智能产业发展联盟和腾讯于2020年9月联合发布的白皮书<智能文字识别(OCR)能力评测与应用白 ...

  6. 文字识别技术在内容安全中的应用

    导读:文字在日常生活中发挥着重要的作用,甚至在考古发现中文字也作为识别文明的重要标志.特别是在当前短视频和内容爆炸的时代,文字广泛应用于人们观点的表达和传播以及商品营销等各个领域.这些内容中肯定会存在 ...

  7. 汉字进行计算机识别的原理,计算机OCR文字识别技术的原理和未来发展趋势

    杨俊叶++王训伟 摘要:文章首先对OCR技术的发展背景进行了介绍,指出了OCR文字识别系统在扫描仪.文字编辑等领域的应用及优势.通过对OCR技术工作原理的介绍,重点论述了OCR文字识别系统主要的图像处 ...

  8. 汉字进行计算机识别的原理,原理解析 文字识别技术是如何实现的?_4G评测-中关村在线...

    原理解析 文字识别技术是如何实现的? OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程 和语音识别技术一样,人们对文字识别早在50年 ...

  9. 合合信息递交科创板招股说明书,智能文字识别+商业大数据双轮驱动

    提示:后台回复关键词"合合信息"可下载合合信息证监会完整PDF版招股说明书 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 9月27日,据上海证券交易所官网信息,合合信息已递 ...

最新文章

  1. 驳AXAJ的七宗罪 (转)
  2. go 返回mysql数组_Go基础之--操作Mysql(一)
  3. autoencoder自编码器原理以及在mnist数据集上的实现
  4. 【虚拟化实战】存储设计之一存储类型
  5. 从武侠门派的角度去解释域、域树、林的含义(下)
  6. python中的*args和**kwargs(* 与 **)
  7. LaTeX学习:Texlive 2019和TeX studio的安装及使用
  8. c语言中取反的作用,一位取反 硬件实现_c语言按位取反什么意思
  9. Win2008 Server R2 服务器拒绝共享访问
  10. 端元提取——逐次投影算法SPA与顶点成分分析VCA
  11. 计算机电源德国产,德国原装崇拜者来一发?BeQuiet! Straight Power 11全模电源
  12. 常用的大功率电阻有哪些,电阻功率降额设计要注意什么
  13. 广西百强正菱集团涉非法吸存 当地银监局介入摸底银行贷款 柳州公安通告正菱集团涉非法集资
  14. Chrome 安装插件与使用技巧
  15. api有哪些 javasocket_java socket API
  16. java源码解析之反射(二)
  17. serial.serialutil.SerialException: could not open port 'COM1': PermissionError(13, '拒绝访问。', None, 5)
  18. 前苏联人民热情拥抱小企鹅
  19. Windows Thin PC体验 语言包更改(win 7 included)
  20. 疯狂的大柚柚带你玩转MSP-ESP430G2(基础篇)——(一)ESP430开发环境搭建之Energia

热门文章

  1. visualize python_GitHub - laishenggx/PUP-visualize: Python3可视化雷达PUP数据产品(CINRAD-PUP)...
  2. 如何强制卸载老版本Vue-cli
  3. 基金投资好简单,从入门到精通 -学习笔记day11
  4. Vitis指南 | Xilinx Vitis 系列(四)
  5. FAF世链区块链大会|区块链开发工程师王祥懿:FAF全球首发第一条CDN公链
  6. 网吧cf正在连接服务器,win10系统玩cf出现连接服务器失败如何解决
  7. 3C认证所需要的条件和流程
  8. Tcp三次握手/Tcp协议数据传输(服务器端开启多线程)
  9. linux常用命令(详解一)
  10. 货车运输(codevs 3287)题解