另一种方法应用比较广的就是深度学习方法,深度学习方法是将OCR识别划分为文字检测和文本识别部分

,这也是深度学习技术可以充分发挥功效的地方。使用比较广泛的网络结构是Differentiable Binarization+ CRNN。

Differentiable Binarization简称DB,是一种基于分割的文本检测算法。在文本检测算法中,基于分割的检测算法可以更好的处理弯曲等不规则形状的文本,因此往往能取得更好的检测效果。但是分割法后处理步骤中将分割结果转化为检测框的流程十分复杂,而且耗时严重,因此有人提出了一个可微的二值化模块(Differentiable Binarization),它可以在分割网络中执行二值化过程。将二值化阈值加入训练中学习,它将分割方法生成的概率图转换为文本的包围框/区域。分割网络结合DB模块进行优化,可以自适应设置二值化阈值,不仅简化了后处理,而且提高了文本检测的性能。可以获得更准确的检测边界,从而简化后处理的流程。主干网采用ResNet-18。

如图2所示(蓝色箭头所示):首先,设置一个固定的阈值,将分割网络产生的概率图转换为二值图像;

然后,使用一些启发式技术(如像素聚类)将像素分组到文本实例中。或者,我们的管道(图2中红色箭头所示)旨在将二值化操作插入分割网络中进行联合优化。通过这种方法,可以自适应预测图像中每个位置的阈值,从而充分区分前景和背景像素。然而,标准的二值化函数是不可微的,我们提出了一个近似的二值化函数,称为可微二值化(DB),当它与分割网络一起训练时是完全可微的。

通过结合简单的语义分割网络和DB模块,得到了一种鲁棒快速的场景文本检测器。

OCR识别系列之一-----场景文字识别相关推荐

  1. php 点对点,浅析点对点(End-to-End)的场景文字识别

    一.背景 随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解. ...

  2. OpenVINO™场景文字识别与同步与异步推理

    场景文字检测与识别模型 OpenVINO2021.4支持场景文字检测是基于MobileNetV2的PixelLink模型,模型有两个分别是text-detection-0003与text-detect ...

  3. Paddle入门实战系列(四):中文场景文字识别

    ✨写在前面:强烈推荐给大家一个优秀的人工智能学习网站,内容包括人工智能基础.机器学习.深度学习神经网络等,详细介绍各部分概念及实战教程,通俗易懂,非常适合人工智能领域初学者及研究者学习.➡️点击跳转到 ...

  4. OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting

    OCR之端到端任意形状的场景文字识别 ICCV2019 End-to-End Text Spotting 端到端文本识别(End-to-End Text Spotting)是将文本阅读问题看成一个整体 ...

  5. 场景文字识别的算法创新与应用,来自百度的技术前沿

    点击我爱计算机视觉标星,更快获取CVML新技术 几天前,52CV曾经向大家推荐百度家 OCR主题的飞桨博士会: 飞桨博士会第四期,中国深度学习技术俱乐部诚邀您加入 百度组织的这个会比较高端,很多52C ...

  6. 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...

  7. CVPR 2020 | 旷视研究院探究优化场景文字识别的「词汇依赖」问题

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布 ...

  8. YunOS场景文字识别

    摘要: 该文章先介绍常见的文字识别方法,然后介绍YunOS在场景文字识别方面取得的进展.结果和技术方案.将重点讲解技术方案的两个主要部分:1)基于全卷积网络的从局部到整体的文字行检测方法:2)基于BL ...

  9. PaddleOCR实践之飞桨常规赛:中文场景文字识别

    简介 本项目是参加飞桨常规赛:中文场景文字识别(已结束)的项目,项目score为85.87141. 生成的预测文件为work/PaddleOCR中的test2.txt文件 项目任务为识别包含中文文字的 ...

最新文章

  1. MySQL修改和查看表类型
  2. 大学计算机实验教程实验报告2.2,大学计算机实验2-实验报告.pdf
  3. python中逻辑回归结果怎么看_python – 为什么statsmodels不能重现我的R逻辑回归结果?...
  4. Summary - 2017
  5. 亚马逊在德国新设AI研发中心,与马克思普朗克系统研究所亲密合作
  6. 日常计算机使用的需求和解决方案(一)
  7. 010Editor的Template安装与使用
  8. win10用linux命令关机,Win10使用PowerShell命令让局域网电脑重启关机操作
  9. java String 转map、list
  10. 我,程序员,32岁失业后干啥都赔钱,过去月薪2万的岁月不再重来 你呢?
  11. c语言求绝对值作业,C语言求绝对值
  12. 168-203-javajvm-垃圾收集器
  13. python自动下载酷狗音乐_使用Python下载酷狗音乐
  14. PHP开发的仿山楂岛留言程序源码
  15. 谷歌采用神经网络驱动机器翻译,可离线翻译59种语言
  16. Repeater的查询,添加,修改,删除
  17. 安利一个强大的java小工具
  18. nodejs剪切视频,提取音频,上传播放
  19. 王佩丰excel2010基础教程学习笔记(第一讲到第五讲)
  20. MOS管的知识,看这一篇就可以了

热门文章

  1. Error response from daemon: error while removing network
  2. 2021一级计算机考证(全)
  3. iOS打包 App Thinning 选项
  4. Android定位简记
  5. 常用的python开发工具对比
  6. 【校招VIP】产品设计流程之原型设计
  7. 参考PR创建PO净价被信息记录覆盖问题
  8. Docker常见命令(以备不时之需)
  9. 五个网站查物种基因组大小
  10. Keil 创建工程模板及精简第一个FreeRTOS程序