STT文字图像超分辨网络
对超分有兴趣的同学们可直接关注微信公众号,这个号的定位就是针对图像超分辨的,会不断更新最新的超分算法解读。
目录
- 重点提要
- 数据集
- 网络结构
- 1. Pixel-Wise Supervision Module
- 1.1. STN
- 1.2. TBSRN-n
- 1.3. Pixel shuffle
- 2. Position-Aware Module
- 3. Content-Aware Module
- 损失函数
- 结语
正文开始
论文:Scene Text Telescope: Text-Focused Scene Image Super-Resolution
参考
- GitHub代码库
- Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution(目前404)
- STT文字图像超分辨网络
复旦2021CVPR的一篇文字超分的文章,后续还有一篇(参考文献中),预计2022投AAAI的,做文字超分的同学们可以留意一下。
重点提要
- 图像对齐模块,解决双机位采集HR-LR数据集的问题。
- 新的网络映射模型,兼顾文字语义信息。替代BLSTM,采用了Self-attention+Position-Wise Feed-Forward机制。
- 文本位置监督,强化文本区域的生成,忽视非文本的背景区域。
- 引入文字识别网络,进行文本内容监督,强化文本内容清晰度。
数据集
TextZoom数据集,双机位拍摄,LR是真实图像,关于详细介绍请巴拉这篇论文。
网络结构
网络分为3个部分,分别为Pixel-Wise Supervision Module、Position-Aware Module、Content-Aware Module三块。
1. Pixel-Wise Supervision Module
1.1. STN
是中心对齐模块,是网络的对齐阶段。因为LR图像并不是生成的,而是直接用相机采集得到的,所以LR图像中心和HR图像中心并不一致,使用STN可以使二者中心对齐,对齐后的图像才能输入网络进行训练。
该模块仅在使用TextZoom数据集且在训练时才有用,在自己生成的数据集或网络推理阶段无效。
1.2. TBSRN-n
TBSRN-n是n个TBSRN模块进行堆叠得到,是网络的特征提取阶段。每一个TBSRN块如上图所示,实际上是一系列复杂的映射。输入首先经过2个连续的CNN映射,然后将映射后的特征图与Px和Py进行拼接,Px和Py的计算方式如下:
拼接后,进行展开,然后输入Self-Attention和Position-Wise Feed-Forward完成信息提取,之后重塑形状,恢复为输入时的特征图尺寸。
1.3. Pixel shuffle
是网络的上采样阶段。这是常见的上采样方式,最早应该是在EDSR中见过。在此不再描述。
之后通过L2损失计算HR和SR之间的像素级别损失得到Lpsm损失。
2. Position-Aware Module
为了突出文字区域的重要性而设计的,使网络更少的关注背景信息。首先训练一个基于识别模型的transformer,然后输入HR图像,该transformer将输出一系列attention maps,maps数量取决于文本lable长度。然后对SR图像也做同样的处理,可得到和HR图像对应的一系列attention maps。然后二者之间的maps通过L1损失进行计算得到损失Lpos。
3. Content-Aware Module
这部分通过冻结刚才训练好的transformer,然后通过文字识别的方式,将识别结果与文本lable进行对比,计算损失函数,这部分的损失Lcon造成的梯度反向传播,不会影响transformer的参数(该部分参数已经被冻结),而是会影响生成网络的参数也就是Pixel-Wise Supervision Module,使其生成更逼真的文本图像。
对于低分图像中难以分辨的字符(例如c和e)作者通过训练一个变分自编码器,探索相似字符的潜在空间表征来解决。
损失函数
结语
这篇文章的相对复杂,有些内容需要根据代码和具体的数学推导才能弄明白,由于时间原因就不过多讲解。感兴趣的同学可以参考原论文。
STT文字图像超分辨网络相关推荐
- ECCV 2020 | 空间-角度信息交互的光场图像超分辨,性能优异代码已开源
光场相机可以记录当前场景不同视角的图像,每个视角图像的上下文信息(空间信息)与不同视角之间的互补信息(角度信息)都有助于提升图像超分辨的性能. 近日,来自国防科技大学.上海科技大学等单位的学者提出了新 ...
- 双目图像超分辨:现状、挑战与展望
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 双目图像超分辨(Stereo Image SR)当前处于起步阶段,领域内算法数量不多,性能还有较大的提 ...
- 【视频课】业界最强数据增强库使用与人脸图像超分辨实践!
前言 数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的学习人员.数据增强又是其中至关重要的内容,为了让大家能够掌握好深度学习中数据的使用,我们开设 ...
- 【每周CV论文】初学深度学习图像超分辨应该要读的文章
欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...
- FSRNet:端到端深度可训练人脸超分辨网络
作者丨左育莘 学校丨西安电子科技大学 研究方向丨计算机视觉 这篇文章 FSRNet: End-to-End Learning Face Super-Resolution with Facial Pri ...
- [Python人工智能] 三十.Keras深度学习构建CNN识别阿拉伯手写文字图像
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了生成对抗网络GAN的基础知识,包括什么是GAN.常用算法(CGAN.DCGAN.infoGAN.WGAN). ...
- pythonb超分辨成像_深度原理与框架-图像超分辨重构-tensorlayer
图像超分辨重构的原理,输入一张像素点少,像素较低的图像, 输出一张像素点多,像素较高的图像 而在作者的文章中,作者使用downsample_up, 使用imresize(img, []) 将图像的像素 ...
- 多功能的图像超分辨模型:用于盲图像超分辨的非对称卷积神经网络
哈工大.台湾国立清华大学与香港中文大学的研究人员联合提出用于盲图像超分辨的非对称卷积网络,该文收录于IEEE Transactions on Systems, Man, and Cybernetics ...
- 近期两篇双目图像超分辨算法论文解读 |AAAI2020 SPL2020
点击我爱计算机视觉标星,更快获取CVML新技术 本文为52CV群友谦Sir投稿. 双目图像可以提供同一场景左右两个视角的信息.合理利用双目图像所包含的互补信息可以进一步提升图像超分辨的性能. 随着双摄 ...
最新文章
- SylixOS 无Uboot版BSP
- 使用nextInt()等接受输入时必须注意换行符的输入
- Visual Studio 2008 无法切换到设计视图
- maven 相关操作
- Spring cloud开发内存占用过高解决方法
- Xcode7.0 更新完后,网络请求报错
- WireShark抓包分析
- linux copy 复制文件夹及子文件夹
- android rxbus github,RxBus-实现EventBus之Sticky
- 2018 蓝桥杯 省赛 B组 原题 C语言B组 第二题 第九届蓝桥杯真题+答案+解析
- loopback网卡功能
- nmap下载安装介绍使用
- 【笔记】Android APP 上架 Google Play 采坑记之「应用签名证书」
- 安兔兔苹果html5排行榜,iPhone8Plus最强?9月安兔兔手机性能排行榜出炉
- MATLAB处理矩阵的一些命令
- 【R语言】ggplot2作图补充(1)
- 东师《中国画技法》离线作业网考
- 【网络文摘】一位36岁程序员的困惑
- 免费的C++库—备用记录
- comsol三维随机裂纹 裂缝模型 随机纤维建模
热门文章
- c语言从字符串逐个输出汉字
- danfoss 变频器的profinet通讯调试_干货:如何选择与使用西门子SINAMICS G120变频器?...
- 《新托业语法和词汇详解及实战试题》
- 奈奎斯特定理和傅里叶变换
- 【经验总结】10年的嵌入式开发老手,到底是如何快速学习和使用RT-Thread的?(文末赠书5本)
- [hqyj]day-9
- Android开源Banner实现广告栏
- 二叉树小球下落问题c语言,二叉树:小球下落
- React Native按需加载 手Q狼人杀探索之路
- 云计算机对环境有哪些要求吗,云计算对服务器有哪些要求