目前的场景文本检测大致可以分为:基于回归检测和基于分割的方法,以及将两者结合的方法。

基于回归检测

通常基于卷积神经网络(CNN)的检测方法是将多个预测得到的候选区域输入到 CNN进行特征提取,并通过分类确定候选区域是否包含目标实例。
文献 Synthetic data for text localisation in natural images[C] 基于全卷积网络(FCN)和 YOLO的思想,提出了一种霍夫投票的变体,利用平移不变性将局部预测器作为 CNN 的最后一层,模型同时密集地预测各像素的类别标签以及基于该像素的预测边界框的参数,显著提高了检测性能。但是整个网络结构仍然过于复杂,严重影响了训练时间,且不能很好地检测旋转文本。

文献 [Deep matching prior network:toward tighter multi-oriented text detection[C]] 中的深度匹配先验网络(DMPNet)首次提出用四边形检测旋转文本。该模型首先利用四边形滑动窗口粗略地召回文本。然而利用滑动窗口定位文本的方法,通常无法避免不必要的滑动窗口与文本实例之间的区域重叠甚至信息丢失。为此提出了一种共享蒙特卡罗方法,使得在计算重叠区域面积时更加高速和精准。该模型摒弃了传统的矩形检测框,有效解决了检测旋转文字时的背景冗余和信息缺失等问题。但是 DMPNet 所使用的滑动窗口是人工设定的,在检测某些极端角度的文字时不够灵活。模型直接预测矩形框的顶点坐标,这样会出现坐标的顺序混淆问题。Liu等人进一步将预测边框离散化为关键边缘,然后利用一个多分类器学习得到正确的文本匹配。但是这种基于参数回归的方式检测旋转文本存在边界间断的问题。

文献 TextBoxes:a fast text detector with a single deep neural network 提出的 TextBoxes是一种基于单例多框检测器( single shot multibox detector ,SSD)的全卷积网络模型。由于文字往往有较大的长宽比,SSD在检测横纵比较大的单词时会出现失误。为此文中设计了多个不同比例的默认框,并且为每个默认框设置了垂直偏移量,以避免各框之间竖直方向过于稀疏而导致检测性能变差。而且 TextBoxes 只能检测水平方向的文字,在不规则场景文本的检测上,如处理弯曲、旋转程度较大等问题时,成比例的单一矩形框已经不能满足需求。为 此, TextBoxes++: A Single-Shot Oriented Scene Text Detector对 TextBoxes进一步地优化,不再使用传统的单一矩形框作为检测文本的预测边框,而是通过回归文本多边形的端点坐标来检测多向文本,使用四边形或旋转的矩形有效解决了旋转文字的检测问题。在测试阶段使用非最大值抑制来合并所有文本框层的结果。但是整个网络步骤繁杂,训练时间较长。Zhou等人[14]优化了检测流程,仅包括两个阶段:FCN 阶段对输入图像进行特征提取,提取出不同水平的特征映射,其结构如图1所示;非最大值抑制阶段则对特征进行自顶向下的合并。模型可以对旋转文本进行检测,预测边框可以是任意四边形。该模型减少了候选框建议、单词划分等中间步骤和组件,有效提高了处理效率和性能。但是EAST(efficient and accurate scene text detector)模型的感受野受到网络接收域大小的限制,在检测长文本时性能不佳。为此,R- Net:a relationship
network for efficient and accurate scene text detection
通过在特征金字塔上构造双向卷积来将多尺度特征映射到尺度不变的空间,使得模型对多尺度文本的检测更加鲁棒,对长文本或小文本的检测性能也更好。但是模型并没用舍弃后处理步骤,在训练时间上不如EAST。

​​​​​​​深度学习在场景文字识别技术中的应用综述相关推荐

  1. 毕业设计-基于深度学习的图像文字识别系统

    目录 前言 课题背景和意义 实现技术思路 一.基本原理 二.基于深度学习的图像文字识别技术 三.总结 实现效果图样例 最后 前言

  2. 中文场景文字识别技术创新大赛,总奖池5.4万!

    点击我爱计算机视觉标星,更快获取CVML新技术 竞赛简介 为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性.集群化.市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国& ...

  3. 【手写汉字识别】基于深度学习的脱机手写汉字识别技术研究

    写在前面 最近一段时间在为本科毕业设计做一些知识储备,方向与手写识别的系统设计相关,在看到一篇2019年题为<基于深度学习的脱机手写汉字识别技术研究>的工学硕士论文后,感觉收获比较大,准备 ...

  4. 【深度学习】DIY 人脸识别技术的探索(一)

    [深度学习]DIY 人脸识别技术的探索(一) 文章目录 摘要 问题重述 模型假设 定义与符号说明 问题分析 模型的建立与求解 参考 摘要 伴随着人工智能技术的发展,人们对信息安全有了更高的要求,传统的 ...

  5. 【深度学习】DIY 人脸识别技术的探索(二)

    [深度学习]DIY 人脸识别技术的探索(二) 文章目录 训练模型 工具 结果展示 问题二的模型建立与求解 基于 KNN 的人脸识别模型 训练模型 MTCNN 可以并行训练(3 个网络同时训练,前提是内 ...

  6. 深度学习下的人脸识别技术:从“后真相”到“无隐私”

    2019-06-17 14:27:08 图片来源@视觉中国 文|五矩研究社,作者|劫镖 2018年7月,<大西洋月刊>曾发表过一篇人脸识别的文章,名字叫做<开启假视频时代>,文 ...

  7. 蚂蚁金服张洁:基于深度学习的支付宝人脸识别技术解秘-1

    蚂蚁金服张洁:基于深度学习的支付宝人脸识别技术解秘(1) 2015-08-13 10:22 于雪 51CTO 字号:T | T 用户身份认证是互联网金融发展的基石.今年三月,在德国汉诺威举办的IT展览 ...

  8. 深度学习在遥感图像目标检测中的应用综述

    深度学习在遥感图像目标检测中的应用综述 1 人工智能发展 1.1 发展历程 1.2 深度学习的应用 2 深度学习 2.1 机器学习概述 2.2 神经网络模型 2.3 深度学习 2.4 深度学习主要模型 ...

  9. 蚂蚁金服张洁:基于深度学习的支付宝人脸识别技术解秘

    用户身份认证是互联网金融发展的基石.今年三月,在德国汉诺威举办的IT展览会上,马云向德国总理默克尔和中国副总理马凯展示支付宝的"刷脸"支付,引起了人们对人脸识别技术的热议.在WOT ...

最新文章

  1. 2014-5-14 我的战斗效果
  2. 样本量极少如何机器学习?最新Few-Shot Learning综述
  3. HX711电子秤专用转换芯片读取MCU模块
  4. php 组合模式,php设计模式(十三)透明组合模式
  5. java如何造假数据_JAVA时间数据造假
  6. 排序算法之——插入排序
  7. Java查询spark中生成的文件,spark原代码生成方法
  8. Meteor——以NodeJS为基础环境,MongoDB为数据环境的全栈开发平台!
  9. html语言中的链接方式,什么是超链接_在html中设置超链接的方法 - 驱动管家
  10. Java中的非对称加密算法RSA实现
  11. windows server 2003双网卡的问题
  12. 《LabVIEW FPGA开发宝典》第9章:利用树莓派Linux RT+FPGA PCIe实现国产化RIO
  13. 华旭 身份证读卡器测试软件_华旭HX-FDX3S读卡器驱动+身份证验证软件
  14. oracle怎么启动oem,Oracle 启动OEM
  15. 三极管的导通条件总结
  16. 开源无线管理软件_开源无线电系统向育空地区及其他地区提供紧急警报和音乐
  17. Vista和Win2008中如何卸载IE8
  18. 2018年11月中旬香港, 吉隆坡8天游记
  19. vbox虚拟机安装ssh工具远程连接安装docker
  20. 浏览器如何工作(How browsers work)

热门文章

  1. Pointcut表达式类型
  2. Magenta魔改记-2:数据格式与数据集
  3. oracle结果相减_Oracle 的加减法函数
  4. 基尼系数的推导及Python和SQL实现
  5. 中国计量大学本科毕业论文答辩PPT模板
  6. MSP430第十七章:定时器A
  7. 【181012】VC++ 四国军旗网络游戏源代码
  8. ifix虚拟服务器,IFIX5.1环境下的IFIX服务器,客户端配置.docx
  9. 统计学-抽样方法(学习笔记)
  10. sourcetree 卡顿_想问一下为什么玩部分游戏老是卡顿卡到闪退?