文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images

Focusing Attention: Towards Accurate Text Recognition in Natural Images

现有的最好的文本识别技术是基于注意力的编码器 - 解码器框架，其以纯数据驱动的方式学习输入图像和输出序列之间的映射。基于注意力机制的方法在复杂背景和低质量的图像上的效果不好----容易把一般特征和目标混淆。本文采用Focusing Attention Network来消除attention存在的漂移drifted attention的问题。FAN由an attention network (AN)用于负责识别字符目标（这与之前的方法一样），a focusing network (FN)负责通过评估AN是否正确的关注目标区域来调节attention，并且这里的网络使用的是ResNet-based网络，使得特征表示更加丰富。

之前的文本识别中，编码器将输入图像转换为一系列特征向量，每个特征向量对应输入图像的一部分，在解码阶段，attention网络（AN）首先计算对齐因子[3]通过参考目标字符的历史和用于生成合成矢量（也称为一瞥矢量）的编码特征向量，从而实现了关注区域和相应的地面实况标签之间的对齐[3,5]。然后，使用递归神经网络（RNN）基于瞥见向量和目标字符的历史来生成目标字符。

在attention机制下，低质量图像的对齐评估很容易被破坏，使得性能不好。换句话说，关注模型不能准确地将每个特征向量与输入图像中的对应目标区域相关联。我们为这种现象注意力漂移attention drift。也就是说，AN的关注区域在一定程度上偏离图像中的目标字符的适当区域。这促使我们开发一些机制，将AN的注意力集中在输入图像中的目标字符的正确的区域上。

we propose a novel method called FAN to accurately recognize text from natural images.

文本识别一般有两种方法：bottom-up（先检测单个字符，再组合） and top-down（直接预测整个文本）。

In the AN component, alignment factors between target labels and features are generated。

文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images相关推荐

《Focusing Attention：Towards Accurate Text Recognition in Natural Images》阅读
论文链接:https://arxiv.org/abs/1709.02054 摘要场景文本识别优于其广发的应用一直是计算机识别中的研究热点之一.目前最先进的计算是基于注意力机制的编码-解码框架的,该 ...
Focusing Attention Network（FAN）自然图像文本识别学习笔记
Focusing Attention: Towards Accurate Text Recognition in Natural Images Author: Zhanzhan Cheng,Fan B ...
【ACM 2020 - Text Recognition in the Wild：A Survey】OCR识别综述
Introduction 1. 推动基于深度学习的STR发展三要素: (1)先进的硬件系统:高性能计算支持训练大规模识别网络 (2)基于深度学习的STR算法能自动进行特征学习 (3)STR应用需求旺盛 ...
ECCV 2020 ——RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition
0. 引言基于注意力机制的场景文本识别已经非常普遍,并且也取得了很不错的效果.但是注意力机制会不会有一些负面效果?17年有一个工作来探讨了一下,存在了一个严重的注意力漂移问题."Focus ...
图像文字识别初探(二)-FAN(Focusing Attention Network)
图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network) 图像文字识别初探(二) ...
AAAI 2020 | 华南理工：面向文本识别的去耦注意力网络
2020-01-15 06:12:12 作者 | 王天玮编辑 | 十.年本文对华南理工大学和联想研究院共同完成,被AAAI-20录用的论文<Decoupled Attention Netwo ...
【人工智能】基于百度AI和Python编程的简单实现：通过QQ/Tim截图进行文本识别功能的分析实战详解——以获取百度文库付费内容为例
前两天,博主在摸鱼时偶然接触到了百度AI,一时间来了兴趣.在实战测试了其中的"通用文字识别"后,发现效果还是蛮不错的.所以通过本次文章记录一下,以作备忘. 前期准备百度AI前期准 ...
《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读
参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...
曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition
和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接: Show, Attend and Read 由于show attend and read是基于LSTM-encoder- ...

文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images

文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images相关推荐

最新文章

热门文章