ICASSP2021：端到端的图像编码方法

本文来自ICASSP2021论文《Image Coding For Machines: An End-to-end Learned Approach》

基于深度学习的计算机视觉在图像领域应用越来越广泛，每天产生的图像数量爆发式增长，传统的图片编码器是面向人眼视觉而不是机器处理。本文提出基于神经网络（NN）的端到端学习的面向机器的图像编码器（Image Coding for Machines，ICM）。

本文算法

本文ICM模型的优化目标是机器任务的性能而不是像素保真度，模型包含一个自编码器，一个概率模型和一个熵编码器。流程如Fig.1所示，输入的未压缩图像x首先被基于神经网络的编码器E变到新的数据空间y=E(x;theta)，然后y被量化y^=Q(y)，最后被熵编码器EE进行无损压缩，其中熵编码器使用了概率模型进行概率分布的估计。码流在解码端首先使用熵解码器ED进行熵解码，然后由基于神经网络的解码器解码x^=D(y^;theta)。

自编码器

不像普通的自编码器，本文提出的自编码器目的不是重建输入图像，而是为了解码出数据矢量能提供好的机器处理效果，同时编码器的输出能被熵编码器高效压缩。它们可以分别表示为机器处理损失L_task和码率损失L_rate。

用于机器处理的神经网络模型是预训练好的且固化不变的，模型输入是图像格式（三通道），所以解码器的输出向量格式需要和图像相同。

论文中编码器和解码器架构使用CNN，如Fig.2所示，其中S代表stride，c代表输出通道数。

为了节省编码解码时间和计算资源，CNN中间层和最后层滤波器数量都很少。同时自编码器的优化使用L_task和L_rate损失。

概率模型

对于量化输出y^根据其概率估计进行熵编码，如果概率估计和它真实的概率分布一致则其香农熵最小。码字长度r可以按照香农交叉熵估计如下：

为了使r最小，概率模型需要学习分布p_y^，文中使用的模型是高斯混合模型，通过学习其参数来拟合分布。为了解压y^，携带先验信息的码流z^被发送到解码端。最终L_rate由这两段码流总长度计算，

概率模型在端到端的训练中和自编码器进行联合优化。在训练过程在量化步骤被加入均匀噪声替代，这是因为量化是不可微的，而训练是基于梯度的。

训练策略

论文使用了两种CV模型来处理不同任务：Faster R-CNN进行目标检测，Mask R-CNN进行实例分割。对这两种任务训练分别进行。

图像编码通常使用RDO进行优化：J=R+lambda*D。在论文在扩展了失真D的含义，增加了L_task，最终训练的损失函数为：

w_rate，w_mse，w_task分别表示权重，其中训练过程中权重动态变化。

训练数据都是自然图像，论文首先训练一个仅包含L_mse的基础模型(w_rate=w_task=0,w_mse=1)，然后在基础模型上保持w_mse=1逐步调大w_rate和w_task，如Fig.3所示。最终w_rate和w_task占据优势，使得系统朝着机器任务方向优化。

实验结果

论文ICM系统面向两个机器任务：示例分割和目标检测。使用未压缩的cityscapes数据集训练和测试模型。由于CV模型是在COCO数据集上预训练的，所以评测效果时只在两个数据集共有的类别上：汽车、人、自行车、公交车、货车、火车和摩托车。

评测方法和基准：对于每种压缩方法的评测是基于码率和在验证集500幅图像上的机器处理表现。使用bpp作为码率指标，mAP作为机器处理评价指标。基准使用VTM-8.2，All-Intra配置。

为了达到不同码率，使用28组参数编码验证集，由QP={22,27,32,37,42,47, 52}和降采样率{100%,75%,50%,25%}组合成。这形成了28组编码的验证集，对于降采样的图像还要上采用为原始尺寸。

权重在训练过程中动态变化，具体如下：

其中e表示epoch，(p1,p2,p3,p4)=(50,75,120,165),

最终的Rate-Performance 曲线如Fig.4所示。本文方法的曲线是在训练每完成一个epoch后在验证集上验证一次得到一个数据点。

如表1所示，文中方法在目标检测上评价节省37.87%码率，在实例分割上评价节省32.90%码率。

Fig.5是输出的重建图像，可以看见ICM对于那些对于机器处理不重要的区域压缩更严重，而低码率区域则很好的保留了物体的形状和边缘等。

感兴趣的请关注微信公众号Video Coding