1、SRN网络结构

2、Backbone Network

3、Parallel Visual Attention Module(PVAM)

4、Global Semantic Reasoning Module(GSRM)

5、Visual Semantic Fusion Decoder(VSFD)

1、SRN网络结构

图1 SRN网络流程图

如上图所示,SRN主要由四部组成:主干网络、并行视觉提取模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD)。其主要流程为:

(1) 使用主干网络(ResNet50+FPN)提取二维特征,并利用Transformer unit增强视觉特征

(2) 使用PVAM生成N个对齐的一维特征G,其中每个特征对应于文本中的一个字符,并捕获对齐的视觉信息G

(3) 将一维特征输入到GSRM以捕获语义信息S

(4)使用VSFD融合视觉特征G和语义信息S,预测N个字符

对于短于n的文本字符串,将填充"EOS"

2、Backbone Network

使用 FPN 从 ResNet50 的 stage-3, stage-4 和 stage-5 聚合特征图。使用 transformer unit ( 位置编码,多头注意力,前馈网络 ) 捕获全局空间依赖。将特征图输入到 2 个 transformer units 中,提取出增强的视觉特征。其主要借鉴传统图相处理中的非局部均值滤波,该方法对于像素相似的区域给与较大权重,针对相似相差较大的区域给予小权重。

3、Parallel Visual Attention Module(PVAM)

key-value 为输入的 2D 视觉特征 (

端到端OCR算法:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN)相关推荐

  1. EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...

  2. 论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition

    论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ...

  3. EAST: An Efficient and Accurate Scene Text Detector 论文阅读

    EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ...

  4. 【翻译】EAST: An Efficient and Accurate Scene Text Detector

    EAST: An Efficient and Accurate Scene Text Detector 论文地址 概要 以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...

  5. 《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记

    日常阅读论文 名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ...

  6. robust scene text recognition with automatic rectification

    Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv pre ...

  7. [论文翻译]Scene text recognition from two-dimensional perspective

    二维视角下场景文字识别 摘要 受到语音识别的启发,最近最先进算法认为场景文字识别是一个序列预测问题.尽管达到极好的性能,这些方法通常忽视了一个重要的事实,图像中的文本实际上分布在二维空间.这是一种与语 ...

  8. ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition

    ABINet 阅读笔记 论文总览 Method Vision Model Language Model 自治策略 双向表示 迭代校正 融合 监督训练 半监督整体训练 Experiment Conclu ...

  9. 端到端OCR算法:Real-time Arbitrarily-Shaped Text Spottingwith Point Gathering Network(PGNet)

    1.PGNet网络结构 2.PG-CTC 3.GRM 1.PGNet网络结构 图1 PGNet算法流程图 该网络结构主要包括主干网络.TBO.TCL.TDO以及TCC.其中,TBO(Text Bord ...

最新文章

  1. 【牛腩新闻发布系统】整和后台05
  2. mysql 远程连接速度慢的解决方案
  3. 苹果营收和股价双双创历史新高!库克:iPhone 11系列卖得很好
  4. 20165220 第七周学习总结
  5. Building COM Objects in C#
  6. layui移动端适配_实战:移动端适配的最佳实践
  7. boost::mpl模块实现transform_view相关的测试程序
  8. centos7.6查询不到网卡信息
  9. 基于php5.6 php.ini详解
  10. ASP.NET Core Web API基于RESTFul APIs的集合结果过滤和分页
  11. std::tostring_枚举:如何正确使用name()和toString()方法
  12. tab键的转义字符_Python转义字符及用法
  13. 南林计算机课程表,南京林业大学课程表.doc
  14. 六下计算机教学总结,六年级信息技术教师教学工作总结
  15. 类型转换操作符(C++)
  16. 免费!全网!真正的听歌下载神器
  17. Matlab实现基于元胞自动机模拟室内人员疏散的最基本模型
  18. android8.0内置壁纸,一加手机8pro内置壁纸分享
  19. 求两者较大值的max函数的用法(c++基础)
  20. 智能制造是什么?智能制造需要的关键技术有哪些?

热门文章

  1. 微信小程序--动态设置导航栏颜色
  2. 禅道Mysql启动失败问题解决
  3. [Perl]REAPER
  4. fasttext 词向量
  5. 重新定位svn地址的方法
  6. mysql索引相关面试题
  7. Adobe Illustrator 使用
  8. connectionStrings(C#连接数据库如何使用相对路径)
  9. 固体物理 2022.9.20
  10. kibana 7.5.1 + metricbeat 7.5.1实现主机和kafka应用指标监控