Focusing Attention: Towards Accurate Text Recognition in Natural Images

现有的最好的文本识别技术是基于注意力的编码器 - 解码器框架,其以纯数据驱动的方式学习输入图像和输出序列之间的映射。基于注意力机制的方法在复杂背景和低质量的图像上的效果不好----容易把一般特征和目标混淆。本文采用Focusing Attention Network来消除attention存在的漂移drifted attention的问题。FAN由an attention network (AN)用于负责识别字符目标(这与之前的方法一样),a focusing network (FN)负责通过评估AN是否正确的关注目标区域来调节attention,并且这里的网络使用的是ResNet-based网络,使得特征表示更加丰富。

之前的文本识别中,编码器将输入图像转换为一系列特征向量,每个特征向量对应输入图像的一部分,在解码阶段,attention网络(AN)首先计算对齐因子[3]通过参考目标字符的历史和用于生成合成矢量(也称为一瞥矢量)的编码特征向量,从而实现了关注区域和相应的地面实况标签之间的对齐[3,5]。 然后,使用递归神经网络(RNN)基于瞥见向量和目标字符的历史来生成目标字符。

在attention机制下,低质量图像的对齐评估很容易被破坏,使得性能不好。换句话说,关注模型不能准确地将每个特征向量与输入图像中的对应目标区域相关联。 我们为这种现象注意力漂移attention drift。 也就是说,AN的关注区域在一定程度上偏离图像中的目标字符的适当区域。 这促使我们开发一些机制,将AN的注意力集中在输入图像中的目标字符的正确的区域上。

we propose a novel method called FAN to accurately recognize text from natural images.

文本识别一般有两种方法:bottom-up(先检测单个字符,再组合) and top-down(直接预测整个文本 )。

In the AN component, alignment factors  between target labels and features are generated。

文本识别--Focusing Attention: Towards Accurate Text Recognition in Natural Images相关推荐

  1. 《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读

    论文链接:https://arxiv.org/abs/1709.02054 摘要 场景文本识别优于其广发的应用一直是 计算机识别中的研究热点之一.目前最先进的计算是基于注意力机制的编码-解码框架的,该 ...

  2. Focusing Attention Network(FAN)自然图像文本识别 学习笔记

    Focusing Attention: Towards Accurate Text Recognition in Natural Images Author: Zhanzhan Cheng,Fan B ...

  3. 【ACM 2020 - Text Recognition in the Wild:A Survey】OCR识别综述

    Introduction 1. 推动基于深度学习的STR发展三要素: (1)先进的硬件系统:高性能计算支持训练大规模识别网络 (2)基于深度学习的STR算法能自动进行特征学习 (3)STR应用需求旺盛 ...

  4. ECCV 2020 ——RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition

    0. 引言 基于注意力机制的场景文本识别已经非常普遍,并且也取得了很不错的效果.但是注意力机制会不会有一些负面效果?17年有一个工作来探讨了一下,存在了一个严重的注意力漂移问题."Focus ...

  5. 图像文字识别初探(二)-FAN(Focusing Attention Network)

    图像文字识别初探(一)-CRNN(Convolution Recurrent Neural Network)和DTRN(Deep-text Recurrent Network) 图像文字识别初探(二) ...

  6. AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

    2020-01-15 06:12:12 作者 | 王天玮 编辑 | 十.年 本文对华南理工大学和联想研究院共同完成,被AAAI-20录用的论文<Decoupled Attention Netwo ...

  7. 【人工智能】基于百度AI和Python编程的简单实现:通过QQ/Tim截图进行文本识别功能的分析实战详解——以获取百度文库付费内容为例

    前两天,博主在摸鱼时偶然接触到了百度AI,一时间来了兴趣.在实战测试了其中的"通用文字识别"后,发现效果还是蛮不错的.所以通过本次文章记录一下,以作备忘. 前期准备 百度AI前期准 ...

  8. 《MA‑CRNN: a multi‑scale attention CRNN for Chinese text line recognition in natural scenes》论文阅读

    参考博文: CRNN的一个变种,可以读一读,看看相对于CRNN来说有什么变化?以及为什么? 文章目录 make decision step1:读摘要 step2:读Introduction step3 ...

  9. 曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition

    和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接: Show, Attend and Read 由于show attend and read是基于LSTM-encoder- ...

最新文章

  1. LeetCode 5.Longest Palindromic Substring 求解
  2. Shell-流程控制案例
  3. autofac文档:服务类型,名称和键
  4. OpenCV3特征提取与目标检测之HOG(二)——使用官方的行人分类器实现行人检测
  5. 区块链BaaS云服务(14)华大BGI区块链“Baas接口“
  6. 【Lucene3.6.2入门系列】第10节_Tika
  7. LINUX中软件包的分类
  8. 终于可以自定义喇叭声音:你的特斯拉可以“放屁”吓唬人了
  9. Emacs 中英文字体设置
  10. 选择排序算法(C++版)
  11. Linux input输入子系统demo驱动
  12. 8086CPU工作原理
  13. PHP轻量级博客 typecho插件安装教程
  14. 一个逆向程序猿的必备技能
  15. Idea标记(或书签)功能
  16. 使用MVC结构计算梯形面积
  17. 鸿蒙HarmonyOS开发环境初识及搭建
  18. 技术分享 | 语音AI如何驱动虚拟人
  19. 牛客网 2018校招真题 摩拜 排序次数
  20. CP2102驱动下载

热门文章

  1. bluestacks启动问题
  2. 《设计模式》教材前言
  3. python 邮件抄送_Python 超简单的邮件发送方法
  4. Intent MIME 打开各种类型的文件
  5. 前端必备SEO优化技巧
  6. speedoffice好用吗
  7. Intellij IDEA必备快捷键大全(超详细)
  8. Scalable Supervised Discrete Hashing for Large-Scale Search
  9. 微信小程序商城开发,可以用个人银行卡收款吗?
  10. android加载字体内存泄露,在Windows GDI中创建和使用字体/避免内存泄漏