EAST: An Efficient and Accurate Scene Text Detector

EAST：一种高效准确的场景文本检测器

Abstract

以往的场景文本检测方法已经在各种基准测试中取得了良好的性能。然而，即使配备了深度神经网络模型，它们在处理具有挑战性的场景时通常也达不到要求，因为整体性能是由管道中多个阶段和组件的相互作用决定的。在这项工作中，我们提出了一种简单而强大的流水线，在自然场景中产生快速而准确的文本检测。该管道使用单个神经网络直接预测全图像中任意方向和四边形形状的单词或文本行，从而消除了不必要的中间步骤(例如，候选集合和单词分割)。我们流水线的简单性使我们可以集中精力设计损耗函数和神经网络结构。在ICDAR 2015、Coco-Text和MSRA-TD500等标准数据集上的实验表明，该算法在准确率和效率上都明显优于现有的方法。在ICDAR2015数据集上，该算法在分辨率为720p、分辨率为13.2fps时的F-Score为0.7820。

1 Introduction

近年来，提取和理解包含在自然场景中的文本信息变得越来越重要和流行，这从ICDAR系列竞赛[30，16，15]的空前大量的参与者和NIST启动的2016特质评估[1]中可见一斑。

图1.ICDAR 2015[15]文本本地化挑战的性能与速度。可以看出，我们的算法在准确率上大大超过了竞争对手，同时运行得非常快。所使用的硬件规格列在选项卡6中。

文本检测作为后续处理的前提，在文本信息提取和理解的整个过程中起着至关重要的作用。以前的文本检测方法[2，33，12，7，48]已经在该领域的各种基准上取得了良好的性能。文本检测的核心是设计区分文本和背景的特征。

传统上，功能是手动设计的[5、25、40、10、26、45]来捕获场景文本的属性，而在基于深度学习的方法中[3、13、11、12、7、48]直接使用有效的功能从训练数据中学到。

然而，现有的方法，无论是基于传统神经网络的还是基于深度神经网络的，大多由多个阶段和组件组成，这些阶段和组件可能是次优的和耗时的。因此，这些方法的精度和效率还远远不能令人满意。

在本文中，我们提出了一种快速准确的场景文本检测流水线，该流水线只有两个阶段。该管道使用完全卷积网络(FCN)模型，该模型直接产生单词或文本行级预测，不包括冗余和缓慢的中间步骤。生成的文本预测(可以是旋转矩形或四边形)被发送到非最大抑制以产生最终结果。通过在标准基准上的定性和定量实验表明，与现有方法相比，该算法在运行速度和性能上都有明显的提高。

具体来说，所提出的算法在ICDAR 2015 [15]上达到0.7820的F值（在多尺度下进行测试时为0.8072），在MSRA-TD500 [40]上达到0.7608的F值，而在COCO-Text [36]上达到0.3945的F值，先进的性能算法，平均所需时间更少（对于性能最佳的Titan-X GPU，在720p分辨率下为13.2fps，对于速度最快的模型为16.8fps）。

图2.Jaderberg等人提出的水平单词检测和识别流水线，比较了几种近期关于场景文本检测的流水线：(A)水平单词检测和识别流水线。12张等人提出的多向文本检测流水线。48姚等人提出的多向文本检测流水线。41使用CTPN的水平文本检测，由Tian等人提出。[34]；(E)我们的管道省去了大多数中间步骤，只由两个阶段组成，比以前的解决方案简单得多。

本文的工作主要有三个方面的贡献：·提出了一种场景文本检测方法，该方法分为两个阶段：完全卷积网络阶段和网管系统融合阶段。FCN直接生成文本区域，不包括冗余和耗时的中间步骤。·该管道可以灵活地产生字级或行级预测，其几何形状可以是旋转的方框或四边形，具体取决于具体应用。·该算法在准确率和速度上都明显优于目前最先进的方法。

2 Related Work

场景文本检测与识别一直是计算机视觉领域的研究热点。调查了许多鼓舞人心的想法和有效的方法[5，25，26，24，27，37，11，12，7，41，42，31]。全面回顾和详细分析载于调查文件[50、35、43]。本节将重点介绍与提出的算法最相关的工作。

传统方法依赖于手动设计的特征。基于笔画宽度变换(SWT)[5]和最大稳定极值区域(MSER)[25，26]的方法通常通过边缘检测或极值区域提取来寻找候选字符。张某等人。[47]利用文本的局部对称性，设计各种特征进行文本区域检测。FASText[2]是一个快速文本检测系统，它对著名的用于笔划提取的快速关键点检测器进行了改编和改进。然而，这些方法在精度和适应性方面都落后于基于深度神经网络的方法，特别是在处理低分辨率和几何失真等具有挑战性的场景时。

近年来，场景文本检测领域进入了一个新的时代，基于深度神经网络的算法[11，13，48，7]逐渐成为主流。黄等人。[11]首先使用MSER发现候选对象，然后使用深卷积网络作为强分类器来剔除误报。Jaderberg等人的方法。[13]以滑动窗口方式扫描图像，并使用卷积神经网络模型生成每个尺度的密集热图。稍后，贾德贝吉特·艾尔。[12]使用CNN和ACF来寻找候选单词，并通过回归进一步提炼它们。田等人。[34]开发了垂直锚点，构建了CNN-RNN联合模型来检测水平文本行。与这些方法不同的是，张等人提出了一种新的方法。[48]提出利用FCN[23]生成热图，并使用分量投影进行方位估计。这些方法在标准基准上取得了优异的性能。然而，如图2(a-d)所示，它们主要由多个阶段和组件组成，例如通过后过滤去除假阳性、候选集合、行形成和单词分割。大量的级和组件可能需要穷尽的调整，从而导致次优性能，并增加整个流水线的处理时间。

在本文中，我们设计了一个基于FCN的深层管道，直接针对文本检测的最终目标：单词或文本行级别检测。如图2（e）所示，该模型放弃了不必要的中间组件和步骤，并允许进行端到端的训练和优化。配备单个轻量级神经网络的合成系统在性能和速度上都明显优于其他所有方法。

3 Methodology

该算法的关键部分是神经网络模型，该模型经过训练可以直接从完整图像中预测文本实例的存在及其几何形状。该模型是适用于文本检测的全卷积神经网络，可输出单词或文本行的每像素密集预测。这消除了中间步骤，例如候选提案，文本区域形成和单词划分。后处理步骤仅包括对预测的几何形状进行阈值处理和NMS。该检测器被称为EAST，因为它是一种高效且准确的场景文本检测管道。

3.1. Pipeline

图2(E)说明了我们的流水线的总体情况。该算法遵循DenseBox[9]的总体设计，将一幅图像送入FCN，并生成多个通道的像素级文本分数图和几何图形。

预测通道之一是像素值在[0，1]范围内的分数贴图。其余的通道表示从每个像素的视图中包围单词的几何图形。该分数表示在同一位置预测的几何形状的置信度。

3.2. Network Design

在设计用于文本检测的神经网络时，必须考虑几个因素。由于如图5所示的单词区域的大小差别很大，确定大单词的存在将需要神经网络的后期特征，而预测包围小单词区域的准确几何需要早期的低层信息。因此，网络必须使用不同级别的功能来满足这些要求。HyperNet[19]在特征地图上满足这些条件，但是在大型特征地图上合并大量通道会显著增加后期的计算开销。

为了弥补这一点，我们采用了U形[29]中的思想，在保持上采样分支较小的情况下，逐步合并特征地图。我们最终得到的网络既可以利用不同级别的功能，又可以保持较小的计算成本。

图3描述了该模型的原理图。该模型可以分解为三个部分：特征提取器茎、特征合并分支和输出层。

茎可以是在ImageNet[4]数据集上预先训练的卷积网络，具有交错的卷积和池层。从词干中提取了4层特征图，记为FI，其大小分别为输入图像的1 32、1 16、1 8和1 4。在图3中，描述了PV ANET[17]。在我们的实验中，我们还采用了著名的VGG16[32]模型，其中提取了Pooling-2到Pooling-5之后的特征映射。

在特征合并分支中，我们逐步合并它们：
gi={unpool⁡(hi)if i≤3conv⁡383(hi)if i=4hi={fiif i=1conv⁡3α3(conv⁡1×4([gi−1;fi]))otherwise \begin{array}{l}{g_{i}=\left\{\begin{array}{ll}{\operatorname{unpool}\left(h_{i}\right)} & {\text { if } i \leq 3} \\{\operatorname{conv}_{383}\left(h_{i}\right)} & {\text { if } i=4} \end{array}\right.} \\{h_{i}=\left\{\begin{array}{ll}{f_{i}} & {\text { if } i=1} \\{\operatorname{conv}_{3 \alpha_{3}}\left(\operatorname{conv}_{1 \times 4}\left(\left[g_{i-1} ; f_{i}\right]\right)\right)} & {\text { otherwise }}\end{array}\right.}\end{array} gi={unpool(hi)conv383(hi) if i≤3 if i=4hi={ficonv3α3(conv1×4([gi−1;fi])) if i=1 otherwise
其中，gii是合并基准，hii是合并后的要素地图，操作符[·；·]表示沿通道轴的串联。在每个合并阶段，来自上一阶段的特征地图首先被馈送到解合层以使其大小加倍，然后与当前特征地图拼接。接下来，一个卷积1×1的瓶颈[8]减少了通道数并减少了计算，然后是一个卷积3×3，它融合信息，最终产生该合并阶段的输出。在最后一个合并阶段之后，一个3×3层生成合并分支的最终特征图，并将其馈送到输出层。

每个卷积的输出通道数如图3所示。我们保持分支中用于卷积的通道数很小，这只增加了茎上的一小部分计算开销，使网络的计算效率更高。最终输出层包含多个con1×1操作，将32个通道的要素图投影到1个通道的分数图F和一个多通道几何图FG中。几何图形输出可以是RBOX或四边形之一，在选项卡1中汇总。

对于RBOX，其几何形状由4个通道的轴对齐边界框（AABB）R和1个通道旋转角θ表示。 R的公式与[9]中的公式相同，其中4个通道分别代表从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离。

图4.标签生成过程：(A)文本四边形(黄色虚线)和缩小的四边形(绿色实心)；(B)文本分数图；©RBOX几何图生成；(D)每个像素到矩形边界的4个通道的距离；(E)旋转角度。

对于四边形Q，我们使用8个数字来表示从四边形的四个角点{pi|i∈{1，2，3，4}}到像素位置的坐标偏移。由于每个距离偏移包含两个数字(∆xi、∆yi)，因此几何体输出包含8个通道。

3.3. Label Generation

3.3.1 Score Map Generation for Quadrangle

在不丧失一般性的情况下，我们只考虑几何是四边形的情况。记分图上四边形的正区域被设计成原始区域的大致缩小版本，如图4(A)所示。

对于四边形q={pi|i∈{1，2，3，4}}，其中pi={xi，yi}是四边形上顺时针顺序的顶点。为了缩小Q，我们首先计算每个顶点piA的参考长度ria
ri=min⁡(D(pi,p(imod4)+1)D(pi,p((i+2)mod4)+1))\begin{aligned}r_{i}=\min (& \mathrm{D}\left(p_{i}, p_{(i \bmod 4)+1}\right) \\&\left.\left.\mathrm{D}\left(p_{i}, p_{((i+2)} \bmod 4\right)+1\right)\right)\end{aligned} ri=min(D(pi,p(imod4)+1)D(pi,p((i+2)mod4)+1))
其中D(pi，pj)是pi和pj之间的L2距离。

我们首先收缩四边形的两条较长的边，然后收缩两条较短的边。对于每对两条相对的边，我们通过比较它们的平均长度来确定“较长”的一对。对于每条边Hpi，p(Imod 4)+1i，我们分别将其两个端点沿边向内移动0.3r和0.3r(Imod 4)+1来收缩它。

3.3.2 Geometry Map Generation

如SEC中所述。3.2，几何体贴图可以是RBOX或四边形之一。RBOX的生成过程如图4(c-e)所示。

对于文本区域以四边形样式标注的数据集(例如，ICDAR 2015)，我们首先生成一个旋转矩形，该矩形覆盖面积最小的区域。然后，对于每个得分为正的像素，计算其到文本框4个边界的距离，并将其放入RBOX地面真实值的4个通道。对于四边形地面真值，8通道几何体贴图中得分为正的每个像素的值是其从四边形的4个顶点的坐标偏移。

3.4. Loss Functions

损失可以用公式表示为
L=Ls+λgLsL=L_{\mathrm{s}}+\lambda_{\mathrm{g}} L_{\mathrm{s}} L=Ls+λgLs
其中，LsandLgret分别表示分数图和几何体的损失，而λ则权衡两个损失之间的重要性。在我们的实验中，我们将λGTO设置为1。

3.4.1 Loss for Score Map

在大多数最先进的检测管道中，训练图像通过平衡采样和硬负挖掘进行仔细处理，以解决目标对象分布不平衡的问题[9，28]。这样做可能会提高网络性能。然而，使用这种技术不可避免地引入了一个不可微级、更多的参数来调整和更复杂的流水线，这与我们的设计原则相矛盾。

为了便于更简单的训练过程，我们使用[38]中引入的分类平衡交叉熵，由
Ls=balanced-xent (Y^,Y∗)=−βY∗log⁡Y^−(1−β)(1−Y∗)log⁡(1−Y^)\begin{aligned}L_{s} &=\text { balanced-xent }\left(\hat{\mathbf{Y}}, \mathbf{Y}^{*}\right) \\&=-\beta \mathbf{Y}^{*} \log \hat{\mathbf{Y}}-(1-\beta)\left(1-\mathbf{Y}^{*}\right) \log (1-\hat{\mathbf{Y}})\end{aligned} Ls= balanced-xent (Y^,Y∗)=−βY∗logY^−(1−β)(1−Y∗)log(1−Y^)
其中ˆY=fsi是分数图的预测，而Y∗是基本事实。参数β是正样本和负样本之间的平衡因子，由
β=1−∑y∗∈Y⋅y∗∣Y∗∣\beta=1-\frac{\sum_{y^{*} \in Y} \cdot y^{*}}{\left|Y^{*}\right|} β=1−∣Y∗∣∑y∗∈Y⋅y∗
这种平衡的交叉熵损失最先被姚等人用于文本检测。[41]作为分数图预测的目标函数。我们发现它在实践中效果很好。

3.4.2 Loss for Geometries

文本检测面临的一个挑战是自然场景图像中的文本大小千差万别。直接使用L1或L2损失进行回归会将损失偏向更大更长的文本区域。由于我们需要为大文本区域和小文本区域生成精确的文本几何预测，因此回归损失应该是尺度不变的。因此，我们在RBOX回归的AABB部分采用IOU损失，在四元回归中采用尺度归一化平滑L1损失。

RBOX 对于AABB部分，我们采用[46]中的欠条损失，因为它对不同尺度的对象是不变的。

LAABB=−log⁡IoU⁡(R^,R∗)=−log⁡∣R^∩R∗∣∣R^∪R∗∣L_{\mathrm{AABB}}=-\log \operatorname{IoU}\left(\hat{\mathbf{R}}, \mathbf{R}^{*}\right)=-\log \frac{\left|\hat{\mathbf{R}} \cap \mathbf{R}^{*}\right|}{\left|\hat{\mathbf{R}} \cup \mathbf{R}^{*}\right|} LAABB=−logIoU(R^,R∗)=−log∣∣∣R^∪R∗∣∣∣∣∣∣R^∩R∗∣∣∣
其中ˆR表示预测的AABB几何，而R∗是其对应的地面事实。很容易看到，相交矩形的宽度和高度|ˆR∩R∗|为
wi=min⁡(d^2,d2∗)+min⁡(d^4,d4∗)hi=min⁡(d^1,d1∗)+min⁡(d^3,d3∗)\begin{array}{l}{w_{\mathbf{i}}=\min \left(\hat{d}_{2}, d_{2}^{*}\right)+\min \left(\hat{d}_{4}, d_{4}^{*}\right)} \\{h_{\mathbf{i}}=\min \left(\hat{d}_{1}, d_{1}^{*}\right)+\min \left(\hat{d}_{3}, d_{3}^{*}\right)}\end{array} wi=min(d^2,d2∗)+min(d^4,d4∗)hi=min(d^1,d1∗)+min(d^3,d3∗)
其中d1、d2、d3和d4分别表示像素到其相应矩形的上、右、下和左边界的距离。联合面积由
∣R^∪R∗∣=∣R^∣+∣R∗∣−∣R^∩R∗∣\left|\hat{\mathbf{R}} \cup \mathbf{R}^{*}\right|=|\hat{\mathbf{R}}|+\left|\mathbf{R}^{*}\right|-\left|\hat{\mathbf{R}} \cap \mathbf{R}^{*}\right| ∣∣∣R^∪R∗∣∣∣=∣R^∣+∣R∗∣−∣∣∣R^∩R∗∣∣∣
因此，交集/并集面积都可以很容易地计算出来。接下来，旋转角度的损失计算为
Lθ(θ^,θ∗)=1−cos⁡(θ^−θ∗)L_{\theta}\left(\hat{\theta}, \theta^{*}\right)=1-\cos \left(\hat{\theta}-\theta^{*}\right) Lθ(θ^,θ∗)=1−cos(θ^−θ∗)
其中ˆθ是对旋转角度的预测，θ∗表示地面真实情况。最后，总体几何损失是AABB损失和角度损失的加权和，由
L8=LAABB+λθLθL_{8}=L_{\mathrm{AABB}}+\lambda_{\theta} L_{\theta} L8=LAABB+λθLθ
在我们的实验中，λθ设置为10。

请注意，我们计算LAAB时不考虑旋转角度。当角度被完美预测时，这可以被看作是四边形借条的近似值。尽管在训练过程中情况并非如此，但它仍然可以对网络施加正确的梯度，以学习预测ˆR。

Quad我们扩展了[6]中提出的平滑-L1损失，增加了为字四边形设计的额外归一化项，它通常在一个方向上更长。设q的所有坐标值都是有序集
CQ={x1,y1,x2,y2,…,x4,y4}\mathrm{C}_{\mathrm{Q}}=\left\{x_{1}, y_{1}, x_{2}, y_{2}, \dots, x_{4}, y_{4}\right\} CQ={x1,y1,x2,y2,…,x4,y4}
那么损失可以写成
Lg=LQUAD(Q^,Q∗)=min⁡Q~∈PQ⋅∑ci∈CQsmoothedL1(ci−c~i)8×NQ∗ε~i∈CQ\begin{aligned}L_{g} &=L_{\mathrm{QUAD}}\left(\hat{\mathbf{Q}}, \mathbf{Q}^{*}\right) \\&=\min _{\tilde{\mathbf{Q}} \in P_{\mathbf{Q}} \cdot} \sum_{c_{i} \in \mathrm{C}_{\mathrm{Q}}} \frac{\mathrm{smoothed}_{L 1}\left(c_{i}-\tilde{c}_{i}\right)}{8 \times N_{\mathrm{Q}^{*}}} \\& \tilde{\varepsilon}_{\mathrm{i}} \in \mathrm{C}_{\mathrm{Q}}\end{aligned} Lg=LQUAD(Q^,Q∗)=Q~∈PQ⋅minci∈CQ∑8×NQ∗smoothedL1(ci−c~i)ε~i∈CQ
其中，归一化项NQ∗是四边形的短边长度，由下式给出

NQ∗=min⁡i=14D(pi,p(imod4)+1)N_{\mathbf{Q}^{*}}=\min _{i=1}^{4} D\left(p_{i}, p_{(i \bmod 4)+1}\right) NQ∗=i=1min4D(pi,p(imod4)+1)
PQ是Q-∗的所有具有不同顶点排序的等价四边形的集合。由于公共训练数据集中的四边形的注释不一致，因此需要该排序排列。

3.5. Training

网络使用ADAM[18]优化器进行端到端的训练。为了加快学习速度，我们统一从图像中抽取512x512个作物样本，形成24个大小的小批量。亚当的学习速率从1e-3开始，每27300个小批量衰减到十分之一，并在1e-5停止。网络经过训练，直到性能停止提高。

3.6. Locality-Aware NMS

为了形成最终结果，阈值处理后幸存的几何图形应该由NMS进行合并。NA？ıve NMS算法在O(N2)中运行，其中n是候选几何的数量，这是不可接受的，因为我们面临着来自密集预测的数以万计的几何。

在假设相邻像素的几何形状趋于高度相关的情况下，我们提出了逐行合并几何形状的方法，在合并同一行的几何形状的同时，将当前遇到的几何形状与上次合并的几何形状进行迭代合并。这种改进的技术在最佳情况下的运行速度为O(N)。即使它的最坏情况与NA¨ıve情况相同，只要局部性假设成立，该算法在实践中也运行得足够快。算法1总结了该过程。

值得一提的是，在WEIGHTEDMERGE(g，p)中，合并四边形的坐标是用两个给定四边形的分数加权平均的。具体地说，如果a=WEIGHTEDMERGE(g，p)，则ai=V(G)gi+V§pi和dV(A)=V(G)+V§，其中ai是a的下标坐标之一，V(A)是几何a的分数。

事实上，有一个细微的区别，那就是我们是在“平均”而不是“选择”几何图形，就像在标准的NMS程序中所做的那样，作为一种投票机制，这反过来在输入视频时引入了稳定效果。尽管如此，我们仍然采用“网管”这个词来描述功能。

4 Experiments

为了与现有方法进行比较，我们在ICDAR2015、COCO-TEXT和MSRA-TD500三个公共基准上进行了定性和定量的实验。

4.1. Benchmark Datasets

ICDAR 2015用于ICDAR 2015稳健阅读比赛的挑战4[15]。共包括1500张图片，其中1000张用于培训，其余用于测试。文本区域由四边形的4个顶点标注，与本文中的四边形几何相对应。我们还通过拟合一个面积最小的旋转矩形来生成RBOX输出。这些图片是由谷歌眼镜附带拍摄的。因此，场景中的文本可能是任意方向的，或者受到运动模糊和低分辨率的影响。我们还使用了来自ICDAR 2013的229张训练图像。

COCO-TEXT[36]是迄今为止最大的文本检测数据集。它重复使用MS-COCO数据集[22]中的图像。共标注了63，686幅图像，其中43，686幅图像被选为训练集，其余20，000幅图像用于测试。单词区域以轴对齐边界框(AABB)的形式进行标注，这是RBOX的特例。对于此数据集，我们将角度θ设置为零。我们使用与ICDAR 2015相同的数据处理和测试方法。

MSRA-TD500[40]是一个由300个训练图像和200个测试图像组成的数据集。文本区域具有任意方向，并在句子级别进行注释。与其他数据集不同的是，它同时包含英文和中文文本。文本区域以RBOX格式进行注释。由于训练图像的数量太少，无法学习深层模型，因此我们还利用HUSTTR400数据集[39]中的400幅图像作为训练数据。

4.2. Base Networks

除了COCO-Text以外，所有文本检测数据集与用于一般对象检测的数据集相比都相对较小[21，22]，因此，如果所有基准均采用单个网络，则可能会过度拟合或拟合不足 -配件。我们在所有数据集上试验了三个具有不同输出几何形状的不同实体的基础网络，以评估所提出的框架。这些网络汇总在表2中。

VGG16[32]被广泛用作许多任务[28，38]的基础网络，以支持后续的特定于任务的微调，包括文本检测[34，48，49，7]。这种网络有两个缺点：(1)。这个网络的接受范围很小。在cv53的输出中的每个像素仅具有196的接收场。(2)。这是一个相当大的网络。

PV Anet是在[17]中引入的一个轻量级网络，旨在替代FASTER-RCNN[28]框架中的特征提取器。由于GPU太小，不能充分利用计算并行性，我们还采用了PVANET2x，使原PVAnet的通道增加了一倍，在运行速度略低于PVAnet的情况下，利用了更多的计算并行性。这在SEC中有详细说明。4.5.。最后一卷积层输出的接受场为809，远大于VGG16。

模型是在ImageNet数据集[21]上预先训练的。

4.3. Qualitative Results

图5描述了使用所提出的算法的几个检测示例。它能够处理各种具有挑战性的场景，如照明不均匀、分辨率低、方向变化和透视失真。此外，由于NMS过程中的投票机制，所提出的方法在包含各种形式文本实例的视频上表现出较高的稳定性。

该方法的中间结果如图6所示。可以看出，训练后的模型生成了高精度的几何图和分数图，其中很容易形成对不同方向的文本实例的检测。

4.4. Quantitative Results

如选项卡中所示。3和Tab。4、在ICDAR 2015和COCO-Text上，我们的方法比以前的最先进的方法有很大的优势。

在ICDAR 2015挑战4中，当以原始比例输入图像时，所提出的方法的F分数达到0.7820。当使用同一网络在多个规模上进行测试时，我们的方法在F评分上达到0.8072，就绝对值而言，它比最佳方法[41]高出近0.16（0.8072对0.6477）。

与使用VGG16型网络[34，48，41]的结果相比，该方法在使用四元组输出时的性能也比以前的工作[41]高0.0924，而在使用RBOX输出时的性能比前人的工作要好0.116。同时，这些网络非常高效，将在4.5节中说明。

在COCO-TEXT中，所提出的算法的所有三个设置都比以前表现最好的算法有更高的精确度[41]。具体地说，Fcore比[41]提高了0.0614，而Recall提高了0.053，考虑到COCO-Text是迄今为止最大和最具挑战性的基准，这证实了所提算法的优势。请注意，我们还包含了[36]的结果作为参考，但这些结果实际上不是有效的基线，因为方法(A、B和C)用于数据注释。

对已有方法的改进证明，一条简单的文本检测流水线，直接针对最终目标，消除冗馀过程，可以击败复杂的流水线，即使是与大型神经网络模型集成的流水线也是如此。

如表5所示，在MSRA-TD500上，本方法的三种设置都取得了很好的效果。表现最好的(OURS+PVANET2x)的F-分数略高于[41]。与张等人的方法进行了比较。[48]，在之前发布的最先进的系统中，表现最好的(OURS+PVANET2x)在F-SCORE上提高了0.0208，在精度上提高了0.0428。

值得注意的是，在MSRA-TD500上，采用VGG16的算法比使用PVANET和PVANET2x的算法性能要差得多(0.7023比0.7445和0.7608)，这主要是因为VGG16的有效接受域小于PVANET和PVANET2x，而MSRA-TD500的评估协议要求文本检测算法输出行级而不是词级预测。

此外，我们还在ICDAR 2013基准上评估了我们的+PVANET2x。它在召回率、查准率和F分上分别达到了0.8267、0.9264和0.8737，与以前的最新方法[34]相当，后者在召回率、查准率和F分上分别达到了0.8298、0.9298和0.8769。

4.5. Speed Comparison

Tab中演示了整体速度比较。 6.我们报告的数字是使用性能最佳的网络，以原始分辨率（1280x720）运行ICDAR 2015数据集中的500张测试图像的平均值。这些实验是在服务器上使用具有Maxwell架构的单个NVIDIA Titan X图形卡和Intel E5-2670 v3 @ 2.30GHz CPU进行的。对于建议的方法，后处理包括阈值处理和NMS，而其他处理则应参考其原始论文。

虽然该方法的性能明显优于目前最先进的方法，但由于其流水线简单高效，计算成本非常低。从选项卡中可以观察到。6，我们方法的最快设置以16.8 FPS的速度运行，而最慢的设置以6.52 FPS的速度运行。即使是性能最好的机型OURS+PVANET2x也能以13.2 FPS的速度运行。这证实了我们的方法是最有效的文本检测器之一，在基准测试上实现了最先进的性能。

4.6. Limitations

检测器可以处理的最大文本实例大小与网络的接受范围成正比。这限制了网络预测更长文本区域的能力，例如贯穿图像的文本行。

此外，该算法可能会错过或给出对垂直文本实例的不精确预测，因为它们只占用ICDAR 2015训练集中的一小部分文本区域。

5 Conclusion and Future Work

我们已经提出了一个场景文本检测器，它使用单个神经网络直接从完整图像中产生词级或行级预测。通过结合适当的损失函数，检测器可以根据特定的应用预测文本区域的旋转矩形或四边形。

在标准基准上的实验表明，该算法在准确率和效率上都明显优于以往的方法。未来研究的可能方向包括：(1)调整几何公式以允许直接检测弯曲文本；(2)将检测器与文本识别器集成；(3)将该想法扩展到一般对象检测。

（四）EAST----2017CVPR论文解读相关推荐

ECCV 2018论文解读及资源集锦（8月20日更新）
本文为极市平台原创收集,转载请附原文链接: https://blog.csdn.net/Extremevision/article/details/81875068 之前我们整理了CVPR 2018 ...
DRN：Dilated Residual Networks（论文解读十四）
Title:Dilated Residual Networks From:CVPR2017 Note data:2019/06/12 Abstract:提出一种有利于分类任务的扩张残差网络DRN. C ...
云从科技的Pixel-Anchor论文解读
云从科技的Pixel-Anchor论文解读导读参考目前基于深度学习的文本检测框架可以分为两类,一类是基于像素级别的图像语义分割,另一类是来源于通用的物体检测框架,譬如基于锚 (anchor) 的检 ...
2017年美国大学生数学建模竞赛C题优秀论文解读
2017年美赛C题赛题 2017 MCM Problem C: "Cooperate andnavigate" Traffic capacity is limited in man ...
自监督学习(Self-Supervised Learning)多篇论文解读（上）
自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...
可视化反投射：坍塌尺寸的概率恢复：ICCV9论文解读
可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...
CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状
CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...
RepVGG：极简架构，SOTA性能，论文解读
** RepVGG:极简架构,SOTA性能,论文解读 ** 更新:RepVGG的更深版本达到了83.55%正确率!PyTorch代码和模型已经在GitHub上放出.DingXiaoH/RepVGG 2 ...
Unet论文解读代码解读
论文地址:http://www.arxiv.org/pdf/1505.04597.pdf 论文解读网络架构: a.U-net建立在FCN的网络架构上,作者修改并扩大了这个网络框架,使其能够使用很少 ...

（四）EAST----2017CVPR论文解读