大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络

欢迎关注『CVHub』官方微信公众号！

Title: M 2 M^2 M2SNet: Multi-scale in Multi-scale Subtraction
Network for Medical Image Segmentation

Paper: https://arxiv.org/pdf/2303.10894.pdf

Code: https://github.com/Xiaoqi-Zhao-DLUT/MSNet

导读

医学图像分割领域的著名网络 U-Net，相信大家没用过也听说过。这是 2015 年提出来网络，其基于 U 型结构，并使用相加或拼接的方式，逐步融合解码器中不同级别特征，直到现在依然有许多工作都是这种结构进行改进创新。

然而，这两种操作容易生成大量冗余信息，这将削弱不同级别特征之间的互补性，导致很难准确地定位病变目标以及导致病变目标的边缘模糊。

针对上述的难点，本文介绍了一种针对医学图像的多尺度减法网络(multi-scale subtraction network, M2SNet)，旨在解决现有方法在融合不同级别特征时产生冗余信息的问题，从而导致病灶定位不准确和边缘模糊的情况。

本文设计了基本的减法单元 (subtraction unit, SU) 来产生编码器中相邻级别之间的差异特征，并将单一尺度的 SU 扩展到内层多尺度 SU ，提供像素级和结构级别的差异信息给解码器。此外，还使用具有不同感受野的金字塔多尺度 SU 在不同级别上进行特征聚合，从而获得丰富的多尺度差异信息。最后，构建了一个无需训练的网络 LossNet，从底层到顶层全面监督任务感知特征，从而驱动多尺度减法网络同时捕捉详细和结构性提示。该方法在不同的评估指标下，在包括彩色结肠镜成像、超声成像、计算机断层扫描 (CT) 和光学相干断层扫描 (OCT) 在内的四种不同医学图像分割任务的十一个数据集上获得了惊艳的性能表现。

创作背景

文章列举了医学图像分割的三大挑战：

U 形网络结构

UNet、UNet++、attention U-Net

直接使用元素加法或拼接来融合来自编码器的不同层级特征，没有更多地关注不同层级之间的差异性信息，导致生成冗余信息并削弱了层级特征的特点，从而无法平衡精确的定位和微妙的边界细化。

感受野受限

单一尺度的卷积核难以捕捉大小不同的物体的上下文信息。虽然 ASPP、DenseASPP 等多尺度模块能提取多尺度信息，但同时也会产生许多额外的参数与计算量。

手工设计损失函数的局限性

L1 loss、CE loss、SSIM loss

虽然这些基本的损失函数及其变体具有不同的优化特性，但是设计复杂的数学形式对于许多研究来说真的很耗时。

为了解决上述问题，本文提出了一种新的多尺度减法网络 M 2 S N e t M^2SNet M2SNet 用于医学图像分割：

采用了减法聚合的方法代替传统的加法或串联特征融合，从而提高了特征的有效性和鲁棒性。减法聚合通过对相邻层特征进行差分运算，突出有用的差异信息并消除冗余部分的干扰。
采用了多尺度信息提取的策略，通过金字塔式地连接多个减法单元以获取跨层级别的信息，实现了全方位的多尺度信息互补。此外，通过改进单尺度减法单元，使用具有不同卷积核大小的一组滤波器来实现自然的多尺度减法聚合。
提出了一种名为 LossNet 的智能损失函数，能够从细节到结构地优化特征图的分割结果，提高了分割精度。同时，LossNet 的设计简单且通用，无需复杂的手动数学形式，降低了研究人员的训练难度。

最后，本文还通过四个医学图像分割任务的实验验证了 M 2 S N e t M^2SNet M2SNet 的有效性，分别是息肉分割、乳腺癌分割、COVID-19 肺感染和 OCT 层分割。此外， M 2 S N e t M^2SNet M2SNet 还在 MICCAI 2022 GOALS 国际眼科挑战赛中获得了第二名的好成绩。

方法

概述

如图2所示， M 2 S N e t M^2SNet M2SNet 包括五个编码器块，一个多尺度减法模块 (MMSM) 和四个解码器块。该网络使用 Res2Net-50 作为骨干网络，提取五个级别的特征。首先，对于每个编码器块的特征图，分别采用 3×3 的卷积将通道减少到 64，从而减少后续操作的参数数量。接着，将这些不同层次的特征送入 MMSM 中，输出五个互补增强特征 C E i , i ∈ 1 , 2 , 3 , 4 , 5 CEi, i∈{1,2,3,4,5} CEi,i∈1,2,3,4,5。最后，每个 C E i CEi CEi 逐步参与解码器并生成最终预测。在训练阶段，预测结果和真实值都输入到 LossNet 中进行监督。

多尺度减法模块

M 2 S N e t M^2SNet M2SNet 的关键在于多尺度子网和多尺度差分模块，它们能够更好地捕捉初始特征图之间的差异信息，从而提高分割精度。

在多尺度差分模块中，本文采用了多尺度卷积滤波器，包括大小为 1×1、3×3 和 5×5 的固定全一权重滤波器。这些滤波器用于计算像素对和区域对的详细结构差异值，能够更好地捕捉结肠息肉的区域特征。与单一尺度的差分模块相比，多尺度差分模块能够提取更多的信息，从而提高模型的准确性。

另外，多尺度子网能够提取高阶互补信息，进一步提高模型的精度。具体来说，首先水平和垂直地连接了多个多尺度差分模块，用于计算具有不同顺序和感受野的一系列差分特征。然后，对每个尺度的特征进行汇聚，生成互补增强特征，最终用于解码和结肠息肉区域的分割。

智能损失函数

本文设计了一个总训练损失函数，包括加权的 IoU loss 和 BCE loss，以及一个称为 LossNet 的网络来进一步优化分割细节和结构。

其中，IoU loss 和 BCE loss 在分割任务中被广泛采用并已被验证有效。LossNet 使用一个 ImageNet 预训练分类网络（如VGG-16）提取预测和实际值的多尺度特征，并计算它们之间的特征差异作为损失函数 L f L_f Lf。

损失 L f L_f Lf 通过像素级别的欧几里得距离 L2 loss 进行监督。该模型可以在特征级别生成全面的监督，低级特征图包含丰富的边界信息，而高级特征图则描绘位置信息。

实验

在5个息肉数据集上与其他 SOTA 方法对比， M 2 M^2 M2SNet在关键指标 mDice 上均获得了第一名。

在 COVID-19 CT 和 breast 超声数据集上， M 2 M^2 M2SNet 在 Dice 精度也是第一。在 MICCAI 2022 OCT (GOALS) 公开挑战赛中，与100支队伍同台竞争荣获第二名！

可以很直观地看出， M 2 M^2 M2SNet 的分割结果在完整度和细腻度上都比其他的模型表现更好，这更充分地证明了 M 2 M^2 M2SNet 在医学图像分割领域中的先进性与通用性。

通过逐步增加不同的组件， M 2 M^2 M2SNet 性能都获得了进一步的提升。

总结

本文提出了一种用于医学图像分割的简单且通用的多尺度减法网络 M 2 M^2 M2SNet。该方法重新思考以前的加法或串联方法，并基于所提出的层内多尺度减法模块，以金字塔的方式聚合相邻层来提取低阶和高阶跨级互补信息，再结合级别特定信息增强多尺度特征表示。此外，该方法基于 training-free network 设计了一种智能损失函数 LossNet，用于监督来自不同级别特征的预测，可以在反向传播期间优化分割的结构和细节。最后，在 11 个基准数据集上进行的 4 个医学分割任务的实验结果表明，本文提出的模型优于各种最先进的方法。

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎添加小编微信号: cv_huber，备注"CSDN"，加入 CVHub 官方学术&技术交流群，一起探讨更多有趣的话题！