Image steganalysis with convolutional vision transformer
复旦大学 Ge Luo, Ping Wei, Shuwen Zhu
ICASSP 2022「B类会议」,包括语音、信号等多个方向
摘要
问题: 提出基于深度学习的网络结构一般会堆叠很多的卷积层用来增加图像隐写的局部接受野,但是具有多个卷积层的检测器无法从全局角度有效提取隐写图像特征。
解决: 提出一种将viT用于隐写分析上的网络体系,利用viT的注意力机制进行特征提取和分类,捕获噪声特征之间的局部和全局依赖性。
实验结果: 在固定大小和任意大小的数据集表现良好(BOSSbase 1.01和ALASKA #2)
引言
介绍隐写分析的定义-》 隐写分析分类(1.传统人工定义特征 2. 深度学习) -》 提出现有的基于CNN隐写分析方法局限性,未能利用隐写信号特征之间的全局关系,检测大图像,聚集能力低下 -》 引出本文新模型新方法 (如下图所示) -》
-》 提出本文主要贡献
用于图像隐写分析的卷积viT,从局部和全局提取噪声残差
应用带信道注意模块的卷积层在预处理阶段利用全局信息。
引入卷积transformer,全局自注意力使隐写分析网络能够在特征提取阶段学习噪声残差之间的关系。
与异构数据集上的现有方法相比,我们的网络在固定大小的数据集上提供了令人满意的性能,它提高了检测精度。
方法
网络结构
预处理阶段:用SRM滤波器内核(Conv5-30)初始化第一卷积层权重,使用一个Resnet50 额外添加了通道注意力模块SE Block,两个Resnet18
特征提取阶段:应用两个改进版本的卷积transformer,从全局角度有序提取噪声残差特征向量。将预处理的输出特征图 经过3个Conv3-16内核,又展平作为token embedding 输入到卷积transfomer,其中再加上3个额外的粉红色卷积层残差连接,融合预处理层输出的逐层局部特征和 卷积transformer输出的全局噪声特征 ,重新形成特征图后,下一个阶段又继续卷积+position embedding+transformer(类似viT)
分类阶段:利用MLP head 和cls token 进行二分类
【不太懂论文里说, 处理任意大小的输入图像时,可以附加到SID,提取最后的的特征图统计矩】
信道注意力模块
利用30个通道之间的关系,通过信道注意力机制提高噪声残差质量,强调噪声特性。
融合卷积层学习到的局部空间相关性和来自不同信道的全局信息 SE block : Squeeze and Excitation “Squeeze”操作将输入特征图 U ∈ R(H × W × C) 压缩为1 × 1 × C map(1 × 1 × 30)
通过堆叠层(Globalpool 层、 FC 层、 relU 层、 FC 层、 S形函数)一个接一个地表示
“Excitation” 操作将后续输出映射到30通道权重。 “Scale” 块中使用这些通道权重缩放来自三个卷积层的输出
卷积transformer
特点: 捕获全局依赖关系时,保留部分卷积,对局部关系建模。
卷积transformer 不是线性投影,而是在自注意力前使用卷积投影
将输入token重塑为2Dtoken -> 再进行卷积投影成1D,作用于Q/K/V
位置编码
提供位置信息,有效捕获全局图像特征。
本网络是在特征提取阶段的第一个卷积transformer未加位置编码,而是在第二个卷积transformer加了位置编码
因为: 若在第一transfomer中, 网络会错误的认为是隐写信号,将影响检测
卷积投影
卷积投影使得transformer强调局部空间信息
实验
实验设置
两种内容自适应隐写术方法,HILL [22],WOW [23],已分别用于生成隐写图像。我们提出的网络与SRnet [14] 和SiaStegNet [16] 进行了比较。
所有实验结果均使用Nvidia GTX 1080Ti GPU卡获得。
数据集
固定大小: BOSSbase 1.01 256*256 的12000/2000/6000图像作为训练/验证/测试
任意大小: ALASKA_512 【80000 张512*512】 24000/4000 训练/验证 ALASKA_VAR 【包含16组不同大小图像】 每组的750张图像测试(总计12000)
超参
初始lr=0.0001 300epoch降为0.00001 batchsize=32
固定大小数据集结果
我们的网络在检测固定大小图像性能与SRNet和SiaStegNet非常匹配
检测在WOW 0.4bpp隐写算法中,92.1%的准确性,高于其他两种网络3个百分点
然而其他两种网络在HILL上更出色些
总结: 对于固定尺寸,卷积transformer提供的局部+全局信息融合能力未完全实现
任意大小数据集结果
----用基于Siamese主干的卷积viT替换子网,WOW在0.4bpp生成512*512stego图像
---检测较小尺寸【512 * 512至720 * 720】,SiaStegNet优于我们网络性能
---但在大图像测试,我们网络效果极好
消融实验
可以明显看到:网络删除Transformer时,精度急剧下降
检测大图像,SID 和Sia可提高检测性能
卷积transformer 可以有效地区分stego和cover
从图上可以看到,cover 在64维度不同区域的值几乎相等 但是stego却截然不同
结论
基于CNN+vision transformer提供的自注意处理异构数据集
网络优势:
(1) 将channel attention融合到预处理阶段,可以利用信息产生全局的图像残差。 (2) 在特征提取阶段,我们使用convoluntional transformer从局部和全局角度提取噪声残差的特征。 (3) 我们以合理的步骤将positional embeddings添加到token嵌入中,以增强全局注意力,从而进一步提高检测精度。
未来的工作将集中在基于vision transformer的用于图像隐写分析的新型体系结构上。
Image steganalysis with convolutional vision transformer相关推荐
- 【TPAMI 2022】A Survey on Vision Transformer
文章目录 WHAT Contents 2. Formulation of Transformer 2.1 Self-Attention 2.2 Other Key Concepts in Transf ...
- Vision Transformer 必读系列之图像分类综述(二): Attention-based
文 @ 000007 号外号外:awesome-vit 上新啦,欢迎大家 Star Star Star ~ https://github.com/open-mmlab/awesome-vitgith ...
- Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Congested Crowd Instance Localization with Dilated Convolution ...
- Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection
MIMDet Title:Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection p ...
- 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...
- Vision Transformer在CV任务中的速度如何保证?
本文作者丨盘子正@知乎 编辑丨极市平台 来源丨https://zhuanlan.zhihu.com/p/569482746 我(盘子正@知乎)的PhD课题是Vision Transformer的 ...
- ViT-Adapter:Vision Transformer Adapter for Dense Predictions
ViT-Adapter:Vision Transformer Adapter for Dense Predictions 论文地址:https://arxiv.org/abs/2205.0853 SL ...
- Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer阅读笔记
Abstract 研究如何在高密度人群场景中实现精准的实例定位,以及如何缓解传统模型由于目标遮挡.图像模糊等而降低特征提取能力的问题.为此,我们提出了一 Dilated Convolutional S ...
- vision transformer 剪枝论文汇总
Vision Transformer Pruning 这篇论文的核心思想很简单,就是剪维度,也就是说剪的是这个d. 具体方法就是通过一个gate,如图中的dimension pruning,输出0或者 ...
最新文章
- 学python能赚什么外卖-python爬取外卖
- .net core3.0上传文件出现404_使用FTP代理功能连接空间上传文件(解决改善用户上传慢的问题)...
- 设置socket.Receive()的等待时延
- Py学生信息管理系统 案例(优化版)
- windows环境下 curl 安装和使用
- 国嵌c语言深度,国嵌C语言3部全
- frexp 中文_带有Python示例的math.frexp()方法
- 无心剑中译谢赫·汉尼弗《吻封深情》
- java延迟队列,java高级面试笔试题
- Java -- AWT 画图,图像处理
- 在生产中使用Istio,我们学到了什么?
- Appium移动端自动化测试之元素定位(三)
- 安卓直播详细教程(一)-----bilibili开源播放器
- Qt实现一个抽奖游戏
- 如何设置内网和外网同时使用
- wifi+遥控器+android,基于安卓手机wifi的智能遥控器设计
- 蚂蚱跳跃问题 【字节笔试】题目说 ”字节“跳动
- 汽车发动机ECU硬件在环测试系统ETest设计与实现
- 解决active样式在ios手机上没有生效的问题
- 杭州机械工程师职称评审条件
热门文章
- nodeJS安装(超详细小白教程)
- 计算机音乐数学歌,和数学有关的歌曲盘点
- 独家丨专访雅捷信息董事长、NVIDIA全球副总裁,看“非主流”的GPU数据库如何升级银行数据查询与加工...
- python三维随机游走轨迹模拟_用Python模拟随机游走(Random walks)
- lazarus 编译linux,在linux deepin 中搭建Lazarus 开发环境
- anycast隧道_IPv6中Anycast通信模型若干问题的分析和研究.pdf
- AI,关闭“透视网格工具”
- 液氮恒温器在氧化物界面的新应用
- 搜狗浏览器的8点个人体会
- Location和History对象实现三个页面跳转