目前的场景文本检测大致可以分为：基于回归检测和基于分割的方法，以及将两者结合的方法。

基于回归检测

通常基于卷积神经网络（CNN）的检测方法是将多个预测得到的候选区域输入到 CNN进行特征提取，并通过分类确定候选区域是否包含目标实例。
文献 Synthetic data for text localisation in natural images[C] 基于全卷积网络（FCN）和 YOLO的思想，提出了一种霍夫投票的变体，利用平移不变性将局部预测器作为 CNN 的最后一层，模型同时密集地预测各像素的类别标签以及基于该像素的预测边界框的参数，显著提高了检测性能。但是整个网络结构仍然过于复杂，严重影响了训练时间，且不能很好地检测旋转文本。

文献 [Deep matching prior network：toward tighter multi-oriented text detection[C]] 中的深度匹配先验网络（DMPNet）首次提出用四边形检测旋转文本。该模型首先利用四边形滑动窗口粗略地召回文本。然而利用滑动窗口定位文本的方法，通常无法避免不必要的滑动窗口与文本实例之间的区域重叠甚至信息丢失。为此提出了一种共享蒙特卡罗方法，使得在计算重叠区域面积时更加高速和精准。该模型摒弃了传统的矩形检测框，有效解决了检测旋转文字时的背景冗余和信息缺失等问题。但是 DMPNet 所使用的滑动窗口是人工设定的，在检测某些极端角度的文字时不够灵活。模型直接预测矩形框的顶点坐标，这样会出现坐标的顺序混淆问题。Liu等人进一步将预测边框离散化为关键边缘，然后利用一个多分类器学习得到正确的文本匹配。但是这种基于参数回归的方式检测旋转文本存在边界间断的问题。

文献 TextBoxes：a fast text detector with a single deep neural network 提出的 TextBoxes是一种基于单例多框检测器（ single shot multibox detector ，SSD）的全卷积网络模型。由于文字往往有较大的长宽比，SSD在检测横纵比较大的单词时会出现失误。为此文中设计了多个不同比例的默认框，并且为每个默认框设置了垂直偏移量，以避免各框之间竖直方向过于稀疏而导致检测性能变差。而且 TextBoxes 只能检测水平方向的文字，在不规则场景文本的检测上，如处理弯曲、旋转程度较大等问题时，成比例的单一矩形框已经不能满足需求。为此， TextBoxes++: A Single-Shot Oriented Scene Text Detector对 TextBoxes进一步地优化，不再使用传统的单一矩形框作为检测文本的预测边框，而是通过回归文本多边形的端点坐标来检测多向文本，使用四边形或旋转的矩形有效解决了旋转文字的检测问题。在测试阶段使用非最大值抑制来合并所有文本框层的结果。但是整个网络步骤繁杂，训练时间较长。Zhou等人[14]优化了检测流程，仅包括两个阶段：FCN 阶段对输入图像进行特征提取，提取出不同水平的特征映射，其结构如图1所示；非最大值抑制阶段则对特征进行自顶向下的合并。模型可以对旋转文本进行检测，预测边框可以是任意四边形。该模型减少了候选框建议、单词划分等中间步骤和组件，有效提高了处理效率和性能。但是EAST（efficient and accurate scene text detector）模型的感受野受到网络接收域大小的限制，在检测长文本时性能不佳。为此，R- Net：a relationship
network for efficient and accurate scene text detection通过在特征金字塔上构造双向卷积来将多尺度特征映射到尺度不变的空间，使得模型对多尺度文本的检测更加鲁棒，对长文本或小文本的检测性能也更好。但是模型并没用舍弃后处理步骤，在训练时间上不如EAST。

深度学习在场景文字识别技术中的应用综述相关推荐

毕业设计-基于深度学习的图像文字识别系统
目录前言课题背景和意义实现技术思路一.基本原理二.基于深度学习的图像文字识别技术三.总结实现效果图样例最后前言
中文场景文字识别技术创新大赛，总奖池5.4万！
点击我爱计算机视觉标星,更快获取CVML新技术竞赛简介为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性.集群化.市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国& ...
【手写汉字识别】基于深度学习的脱机手写汉字识别技术研究
写在前面最近一段时间在为本科毕业设计做一些知识储备,方向与手写识别的系统设计相关,在看到一篇2019年题为<基于深度学习的脱机手写汉字识别技术研究>的工学硕士论文后,感觉收获比较大,准备 ...
【深度学习】DIY 人脸识别技术的探索(一)
[深度学习]DIY 人脸识别技术的探索(一) 文章目录摘要问题重述模型假设定义与符号说明问题分析模型的建立与求解参考摘要伴随着人工智能技术的发展,人们对信息安全有了更高的要求,传统的 ...
【深度学习】DIY 人脸识别技术的探索(二)
[深度学习]DIY 人脸识别技术的探索(二) 文章目录训练模型工具结果展示问题二的模型建立与求解基于 KNN 的人脸识别模型训练模型 MTCNN 可以并行训练(3 个网络同时训练,前提是内 ...
深度学习下的人脸识别技术：从“后真相”到“无隐私”
2019-06-17 14:27:08 图片来源@视觉中国文|五矩研究社,作者|劫镖 2018年7月,<大西洋月刊>曾发表过一篇人脸识别的文章,名字叫做<开启假视频时代>,文 ...
蚂蚁金服张洁：基于深度学习的支付宝人脸识别技术解秘-1
蚂蚁金服张洁:基于深度学习的支付宝人脸识别技术解秘(1) 2015-08-13 10:22 于雪 51CTO 字号:T | T 用户身份认证是互联网金融发展的基石.今年三月,在德国汉诺威举办的IT展览 ...
深度学习在遥感图像目标检测中的应用综述
深度学习在遥感图像目标检测中的应用综述 1 人工智能发展 1.1 发展历程 1.2 深度学习的应用 2 深度学习 2.1 机器学习概述 2.2 神经网络模型 2.3 深度学习 2.4 深度学习主要模型 ...
蚂蚁金服张洁：基于深度学习的支付宝人脸识别技术解秘
用户身份认证是互联网金融发展的基石.今年三月,在德国汉诺威举办的IT展览会上,马云向德国总理默克尔和中国副总理马凯展示支付宝的"刷脸"支付,引起了人们对人脸识别技术的热议.在WOT ...

深度学习在场景文字识别技术中的应用综述

基于回归检测

深度学习在场景文字识别技术中的应用综述相关推荐

最新文章

热门文章

​​​​​​​深度学习在场景文字识别技术中的应用综述

基于回归检测

​​​​​​​深度学习在场景文字识别技术中的应用综述相关推荐

最新文章

热门文章

深度学习在场景文字识别技术中的应用综述

深度学习在场景文字识别技术中的应用综述相关推荐