1、SRN网络结构

2、Backbone Network

3、Parallel Visual Attention Module(PVAM)

4、Global Semantic Reasoning Module(GSRM)

5、Visual Semantic Fusion Decoder(VSFD)

1、SRN网络结构

图1 SRN网络流程图

如上图所示，SRN主要由四部组成：主干网络、并行视觉提取模块（PVAM）、全局语义推理模块（GSRM）和视觉语义融合解码器(VSFD)。其主要流程为：

(1) 使用主干网络(ResNet50+FPN)提取二维特征，并利用Transformer unit增强视觉特征

(2) 使用PVAM生成N个对齐的一维特征G,其中每个特征对应于文本中的一个字符，并捕获对齐的视觉信息G

(3) 将一维特征输入到GSRM以捕获语义信息S

(4)使用VSFD融合视觉特征G和语义信息S,预测N个字符

对于短于n的文本字符串，将填充"EOS"

2、Backbone Network

使用 FPN 从 ResNet50 的 stage-3, stage-4 和 stage-5 聚合特征图。使用 transformer unit ( 位置编码，多头注意力，前馈网络 ) 捕获全局空间依赖。将特征图输入到 2 个 transformer units 中，提取出增强的视觉特征。其主要借鉴传统图相处理中的非局部均值滤波，该方法对于像素相似的区域给与较大权重，针对相似相差较大的区域给予小权重。

3、Parallel Visual Attention Module(PVAM)

key-value 为输入的 2D 视觉特征 (

端到端OCR算法：Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN）相关推荐

EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ...

论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition
论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ...

EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读
EAST: An Efﬁcient and Accurate Scene Text Detector 论文阅读 Reference 正文摘要引言相关工作方法算法网络设计标签生成损失函数 ...

【翻译】EAST: An Efficient and Accurate Scene Text Detector
EAST: An Efficient and Accurate Scene Text Detector 论文地址概要以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ...

《TextScanner: Reading Characters in Order for Robust Scene Text Recognition》阅读笔记
日常阅读论文名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ...

robust scene text recognition with automatic rectification
Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv pre ...

[论文翻译]Scene text recognition from two-dimensional perspective
二维视角下场景文字识别摘要受到语音识别的启发,最近最先进算法认为场景文字识别是一个序列预测问题.尽管达到极好的性能,这些方法通常忽视了一个重要的事实,图像中的文本实际上分布在二维空间.这是一种与语 ...

ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition
ABINet 阅读笔记论文总览 Method Vision Model Language Model 自治策略双向表示迭代校正融合监督训练半监督整体训练 Experiment Conclu ...

端到端OCR算法：Real-time Arbitrarily-Shaped Text Spottingwith Point Gathering Network(PGNet)
1.PGNet网络结构 2.PG-CTC 3.GRM 1.PGNet网络结构图1 PGNet算法流程图该网络结构主要包括主干网络.TBO.TCL.TDO以及TCC.其中,TBO(Text Bord ...

最新文章

【牛腩新闻发布系统】整和后台05

mysql 远程连接速度慢的解决方案

苹果营收和股价双双创历史新高！库克：iPhone 11系列卖得很好

20165220 第七周学习总结

Building COM Objects in C#

layui移动端适配_实战：移动端适配的最佳实践

boost::mpl模块实现transform_view相关的测试程序

centos7.6查询不到网卡信息

基于php5.6 php.ini详解

ASP.NET Core Web API基于RESTFul APIs的集合结果过滤和分页

std::tostring_枚举：如何正确使用name（）和toString（）方法

tab键的转义字符_Python转义字符及用法

南林计算机课程表,南京林业大学课程表.doc

六下计算机教学总结,六年级信息技术教师教学工作总结

类型转换操作符(C++)

免费！全网！真正的听歌下载神器

Matlab实现基于元胞自动机模拟室内人员疏散的最基本模型

android8.0内置壁纸,一加手机8pro内置壁纸分享

求两者较大值的max函数的用法（c++基础）

智能制造是什么？智能制造需要的关键技术有哪些？

热门文章

微信小程序--动态设置导航栏颜色

禅道Mysql启动失败问题解决

[Perl]REAPER

fasttext 词向量

重新定位svn地址的方法

mysql索引相关面试题

Adobe Illustrator 使用

connectionStrings(C#连接数据库如何使用相对路径)

固体物理 2022.9.20

kibana 7.5.1 + metricbeat 7.5.1实现主机和kafka应用指标监控