端到端OCR算法:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN)
1、SRN网络结构
2、Backbone Network
3、Parallel Visual Attention Module(PVAM)
4、Global Semantic Reasoning Module(GSRM)
5、Visual Semantic Fusion Decoder(VSFD)
1、SRN网络结构
图1 SRN网络流程图
如上图所示,SRN主要由四部组成:主干网络、并行视觉提取模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD)。其主要流程为:
(1) 使用主干网络(ResNet50+FPN)提取二维特征,并利用Transformer unit增强视觉特征
(2) 使用PVAM生成N个对齐的一维特征G,其中每个特征对应于文本中的一个字符,并捕获对齐的视觉信息G
(3) 将一维特征输入到GSRM以捕获语义信息S
(4)使用VSFD融合视觉特征G和语义信息S,预测N个字符
对于短于n的文本字符串,将填充"EOS"
2、Backbone Network
使用 FPN 从 ResNet50 的 stage-3, stage-4 和 stage-5 聚合特征图。使用 transformer unit ( 位置编码,多头注意力,前馈网络 ) 捕获全局空间依赖。将特征图输入到 2 个 transformer units 中,提取出增强的视觉特征。其主要借鉴传统图相处理中的非局部均值滤波,该方法对于像素相似的区域给与较大权重,针对相似相差较大的区域给予小权重。
3、Parallel Visual Attention Module(PVAM)
key-value 为输入的 2D 视觉特征 (
EAST: An Efficient and Accurate Scene Text Detector EAST:高效准确的场景文本检测器 [Abstract] 先前的场景文本检测方法已经在各种基准测 ... 论文翻译-Hamming OCR A Locality Sensitive Hashing Neural Network for Scene Text Recognition 原文地址:https:/ ... EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ... EAST: An Efficient and Accurate Scene Text Detector 论文地址 概要 以前的场景文本检测方法已经在各种基准上取得了有希望的表现.然而,即使配备深层神经 ... 日常阅读论文 名词解释: 注意力漂移attention drift:由于低质量(如模糊,污损和噪音等)图片和一些复杂图片(如扭曲或者重叠字符,不同字符,不用尺寸,不同颜色或者复杂的背景)的影响,模型在 ... Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv pre ... 二维视角下场景文字识别 摘要 受到语音识别的启发,最近最先进算法认为场景文字识别是一个序列预测问题.尽管达到极好的性能,这些方法通常忽视了一个重要的事实,图像中的文本实际上分布在二维空间.这是一种与语 ... ABINet 阅读笔记 论文总览 Method Vision Model Language Model 自治策略 双向表示 迭代校正 融合 监督训练 半监督整体训练 Experiment Conclu ... 1.PGNet网络结构 2.PG-CTC 3.GRM 1.PGNet网络结构 图1 PGNet算法流程图 该网络结构主要包括主干网络.TBO.TCL.TDO以及TCC.其中,TBO(Text Bord ...端到端OCR算法:Towards Accurate Scene Text Recognition with Semantic Reasoning Networks(SRN)相关推荐
最新文章
热门文章