DA-DSUnet: Dual Attention-based Dense SU-net for automatic headand-neck tumor segmentation in MRI im

DA-DSUnet: Dual Attention-based Dense SU-net for automatic headand-neck tumor segmentation in MRI images
DA-DSUnet：基于双重注意力的Dense SUNet在MRI图像头颈部肿瘤自动分割中的应用

期刊：Neurocomputing
中科院SCI期刊分区：二区
大类学科：计算机科学小类学科：计算机，人工智能
发表时间：2021年

Abstract

对头颈部最常见的肿瘤–鼻咽癌(NPC)在磁共振成像(MRI)中进行精确准确的分割，对于治疗和调控决策，特别是放射治疗计划的制定具有重要意义。然而，人工分割NPC既耗时又昂贵。因此，对鼻咽癌的自动切分提出了很高的要求。然而，由于鼻咽癌病灶大小和形状差异大、边界模糊以及可用标注样本有限等问题，使得鼻咽癌分割成为一项艰巨的任务。因此，现有的鼻咽癌分割方法不能满足医学实践的高要求。基于这些挑战和深度学习的普及，本文提出了一种基于双重注意力的Dense SUNet(DADSUnet)的鼻咽癌自动切分框架。它是一个编解码器网络，以二维 NPC MRI切片为输入，输出相应的分割结果。我们方法的主要创新有四个方面。首先，不同于传统的基线解码器(U-net)使用上卷积进行上采样，我们认为从低分辨率特征恢复到高分辨率输出应该能够保留与边界定位相关的信息。因此，在我们的模型中，我们使用unpooling作为上采样方法。其次，为了克服消失梯度问题，我们引入了便于特征传播的dense block来代替传统的卷积块。第三，我们在我们的网络中加入了双重注意机制，它模拟了位置和通道维度上的相互依赖关系。第四，只使用二元交叉熵(BCE)作为损失函数可能会带来误判等问题。因此，我们建议使用名为BCEDice的损失函数来训练网络。在内部数据集上进行了广泛的定量和定性比较。实验结果表明，该方法的DSC为0.8050，PM为0.8026，CR为0.7065，与U-net相比，其相对增益分别为5.17%、13.8%和10.3%，表明了该方法的有效性。

Introduction

鼻咽癌(NPC)是鼻咽部最常见的头颈部恶性肿瘤[45]，治疗方法有手术、化疗或放疗。磁共振成像(MRI)是一种非侵入性的治疗性图像处理技术，它利用无线信号和催眠场使图像呈现器官和组织的高对比度[28，4]。与计算机断层扫描(CT，另一种医学成像技术)相比，MRI在检测肿瘤向软组织的延伸、分离肿瘤与粘液以及检测骨髓侵犯方面更具优势[8]。常见的MRI检查包括T1加权、T2加权和对比度增强T1加权，在同一组织中显示不同的信号强度。值得注意的是，与其他MRI方式相比，T1加权MRI具有更好的肿瘤可视性[25]。医生们对鼻咽癌的准确勾画有很高的要求，因为在鼻咽癌治疗的主要环节，即放疗计划中，准确地勾画出将正常邻近组织与病变区域分开的大体肿瘤体积(GTV)被认为是先决条件[6]。此外，GTV也是后续评估的重要指标。然而，目前鼻咽部肿瘤的边界是由肿瘤学家逐层手工勾画的，这有很高的风险，有几个不足之处。首先，取决于操作员的经验和专业知识，操作员内和操作员间的分割可能存在很大差异。其次，由于人工分割速度慢，肿瘤学家和专家经常被这项耗时繁琐的工作困住，导致不可信甚至不正确的分割。第三，考虑到诊断过程中的这种不正确传播，最终的治疗计划和决定可能往往是有偏见的。在这方面，MRI对头颈部肿瘤的自动分割方法提出了很高的要求，以提供高效、准确的放射治疗计划和随访评估。

然而，如图1所示。鼻咽癌与少数正常组织相邻，甚至浸润，如粘膜，其强度范围与鼻咽癌几乎相同[24]。此外，病变的形状和大小因患者而异。除此之外，头颈部肿瘤在MRI上的边界模糊也是一个痛点。因此，开发一种准确和精确的鼻咽癌分割的自动方法仍然是具有挑战性的[27]。

图1.(a)头颈部MRI切片及其(b)鼻咽癌手动分割实例。

为了解决这些问题，人们已经提出了大量的鼻咽癌自动切分方法。例如，周等人[46]开发了一个基于两类支持向量机(SVM)的模型来从MRI中分割鼻咽癌。Tatanum等人[37]提出了一种基于区域生长方法的鼻咽癌CT图像分割框架。Fitton等人[10]在加权的CT-MRI注册图像上使用了一种半自动的、由用户驱动的描绘算法，名为“Snake”。Huang等人[17]首先自适应地计算NPC的位置，然后利用具有最大熵的隐马尔可夫随机场模型进行分割细化。所有这些方法都可以归类为基于统计机器学习的方法。虽然取得了很大的进展，但由于使用简单的机器学习方法很难对临床MRI数据的分布进行预测，所以离临床实际应用还很远。此外，基于机器学习的方法在很大程度上依赖于手工制作的特征。相反，我们的模型是一个深度学习网络，可以自己进行特征提取，并且比上述方法更健壮。

深度学习的出现有望解决医学图像相关的挑战[39，40]。与需要人工提取和选择特征的传统机器学习方法不同，深度学习方法，如LeCun等人[21]提出的卷积神经网络(CNN)和Krizhevsky等人[19]的改进，在从输入中自动学习复杂特征方面具有巨大的优势。因此，CNN在医学图像分割中得到了广泛的应用。例如，Kheraif等人[2]应用了混合图形切割技术和CNN来从放射学2D牙齿图像中检测牙齿疾病。Pereira等人。[32]提出了一种基于CNN的脑肿瘤自动分割方法。

关于鼻咽癌的识别已经提出了几种方法[1，29]。然而，基于深度学习的鼻咽癌切分只能检索到少量的相关研究，这可能是由于其棘手的挑战。Ma等人[24]使用简单的CNN和图割算法实现了MRI中NPC的自动分割。然而，由于他们使用的CNN简单，他们的方法不能有效地克服边界模糊的问题。Ma等人还提出了另一项使用多模态度量学习的研究[25]。然而，它有两个分割子网络，因为网络应该适合两种模式(CT和MRI)，这对于部署来说太麻烦了。与这些模型相比，我们的网络更复杂、更轻便。

综上所述，传统机器学习方法的精确度和鲁棒性不能满足实际应用的需要，而深度学习方法由于计算量大，不能解决边界模糊问题，难以部署。

目前，具有代表性的端到端医学图像分割网络是U-Net[33]，它是一种典型的编解码器体系结构，以其U型对称结构而得名。在U-Net中，Ronneberger等人提出了一种基于级联的跳跃连接策略，其主要思想是将下采样路径中编码器的高分辨率特征和上采样路径中相应解码器的上采样特征进行合并，以实现模型中特征信息的有效重用和多层次特征信息的联合使用。在另一个基于FCN的网络[30]中获得了相同的观测结果，即跳跃连接策略可以充分利用图像的特征并保留边界细节，从而显著提高了网络的性能。

目前，U-Net结构已被广泛应用于医学图像分割中。申克曼等人[35]提出了一种在CT中自动检测和诊断骶髂关节炎的算法，在该算法中，他们使用启发式算法和U-net分类器来计算包括骨盆关节区域在内的初始感兴趣区域(ROI)。Gupta等人[12]应用3通道U-net从MRI生成合成CT图像，用于治疗计划和患者定位。然而，尽管U-Net在图像处理方面有着显著的性能并得到了广泛的应用，但它在应用于核磁共振鼻咽癌分割时仍然不能很好地处理边界模糊问题。

本文主要研究MRI中鼻咽癌的自动分割问题，即开发一种能够解决边界歧义问题、提高分割精度的模型。基于此目的，基于深度学习网络所取得的巨大成功，我们提出了一种基于双重注意力的Dense SU-net(DA-DSUnet)自动网络，用于从MRI中分割鼻咽癌。我们的方法的贡献如下。1)在UNet的基础上，首先采用SegNet[3]中介绍的unpooling策略进行上采样。Unpooling是一种更简单、更有效的上采样方法，它可以帮助克服边界模糊。2)为了缓解参数大幅增加带来的潜在消失梯度问题，同时也为了便于特征传播和重用，我们用Dense block代替了传统的卷积块。3)在我们的网络中加入了一种设计的双重注意机制，该机制模拟了位置维度和通道维度之间的相互依赖关系。4)为了缓解二元交叉熵(BCE)损失带来的潜在问题，同时提高DSU-Net的性能，在模型的训练过程中使用了由BCE损失和DICE损失组成的复合损失函数。与其他最先进的网络相比，我们的方法获得了更好的性能和更高的性能，同时需要的参数更少，计算量更小。

Materials and methodology

提出的基于双重注意力的Dense SUnet(DA-DSUnet)采用UNet作为主干，编解码器结构如图2所示。可以看出，该网络将MRI图像作为输入，并输出分割结果。在编码器中，我们首先使用卷积层从输入图像中提取特征图，然后将特征图馈送到连续的五个Dense block中，然后进行最大池化操作。在解码器中，特征映射的大小逐块恢复。通过跳跃连接传递的特征图被馈送到位置注意模块(PAM)，在位置注意模块中，位置注意特征图是在解码器的特征图的指导下生成的。我们进一步将通道注意模块(CAM)应用于上采样特征图和位置注意特征图，从而得到通道注意特征图。然后，将通道注意力特征图带入Dense block进行分割。最后，在最后一个Dense block上加两层卷积层，得到最终的概率图。

在本节中，我们首先对我们的方法中使用的数据集进行描述。然后对DA-DSUnet网络及其目标函数进行了说明。

图2.基于双重注意力的Dense SUnet(DA-DSUnet)体系结构。蓝框表示卷积运算。黄色框表示2x2的最大值池化，橙色框表示unpooling操作。里面有圆圈和箭头的盒子是Dense block。绿色方框和棕色方框分别是位置注意模型和通道注意模型。黑色虚线箭头指的是复制和拼接操作以及传递池化索引。实心黑色箭头表示特征图的流向。

Data acquisition

在这项研究中，我们使用T1加权MRI图像，因为与其他MRI方式相比，T1加权MRI图像具有更好的肿瘤可视性。图像来自华西医院95名接受放化疗或放疗的患者。男性患者60例，女性患者35例，年龄从21岁到76岁不等。所有MRI图像均由飞利浦Achieva 3T扫描仪获得，大小相同，为160×275×103。由经验丰富的放射肿瘤学家对MRI图像逐层提供手动ground truth注释。

Methodology

Unpooling

我们认为边界模糊是由于池化操作导致位置信息丢失造成的。与传统的基于UNet的分割模型相比，DA-DSUnet的一个创新之处在于它采用了SegNet[3]中引入的一种新的上采样unpooling方法来代替上卷积运算。unpooling的原理如图3所示。保存在编码器阶段的pooling期间计算的最大像素相关的位置索引，并将其传递到相应的解码层。在解码器中，当对输入的特征图进行逐块上采样以恢复图像大小时，除了保存的索引指示的最大位置外，输入的特征图被零填充，从而产生稀疏的特征图。可以看出，以这种方式实现上采样操作不需要学习。如[43]所示，unpooling的优势在于它可以显著地保留由于编码器中连续的下采样操作而丢失的一些边界细节。这些边界细节对于精确分割非常重要。此外，作为一种上采样方法，与上卷积相比，unpooling是一种更容易的方法，因为不需要学习参数。

Dense block

该方法参数数量多，时间开销大，部署困难。因此，过拟合和梯度消失问题可能会对学习过程产生不利影响。针对这种情况，在DenseNet[15]的启发下，我们进一步提出在特征提取和上采样部分使用Dense block而不是卷积块。与一般的卷积神经网络中每一卷积层只取前一层的特征映射作为输入相反，DenseNet将不同层学习的特征映射连接起来，增加了Dense block中后续层的输入变化。事实证明，以前馈方式与其他层共享特征地图对于显著减少要学习的参数数量、鼓励特征重用和缓解消失梯度问题是有益的[44]。

如图4所示，每个Dense block由四层卷积层组成。前三层使用卷积核为3×3，步长为1的核函数逐层提取特征。值得一提的是，我们提出在每个Dense block的末尾使用1×1卷积核来限制Dense block的输出特征映射的个数为k，k表示Dense block的输入和输出特征的个数。在每次卷积之后应用批归一化(BN)[18]和校正线性单元(RELU)[11]来简化深度神经网络的训练。可以很容易地计算出，四层卷积分别以k，2k，3k和4k特征图作为输入，密集块输出的通道数为k。

随着网络的深入，传统卷积块的通道数可能会达到2048个，这就带来了巨大的计算量。幸运的是，从后续的实验中可以看出，Dense block中的通道数k=96明显小于卷积块中的通道数，因此可以大大减少参数数目和计算量。
图4.本文采用的Dense block结构。蓝色方框表示特征图。箭头表示不同的操作。黄色箭头上方的k、2k、3k和4k表示相应操作作为输入的特征地图的数量。

Dual attention mechanism

如第一节所述，跳跃连接将编码层和解码层的特征地图连接在一起，有利于特征重用和边界信息的保存。然而，编码器的特征图也会带来噪声和伪影，即关于背景的信息。而且，不同层次的特征对分割的贡献不同，直接拼接这些特征地图会限制特征的表达。因此，我们引入了双重注意机制，即位置注意模块(PAM)和通道注意模块(CAM)，以使模型集中于与NPC区域相关的特征，并抑制无关特征。下面将分别介绍PAM和CAM的详细信息。
Pisition attention module
在DA-DSUnet中，我们设计并实现了一种新的跳跃连接的位置注意模块(PAM)，进一步增强了细微的、像素级的特征信息提取。PAM的结构如图5所示。

具体地说，给定来自编码层F∈R^H×W×C的低层特征图，其中H、W和C分别是高度、宽度和通道大小。解码器层的高层特征图E∈R^H/2×W/2×C用于提供辅助信息。我们首先对其进行上采样，并将其与F连接。然后在级联的特征图上进行两次3×3卷积运算，使通道数减少到1，然后对得到的特征图进行带有Sigmoid函数的1×1卷积运算，生成最终的关注权重图a。最后，我们对原始F和采集到的数据进行逐个像素的乘法运算，得到位置注意特征图FPAM。FPAM的计算过程可以形式化地表示为

其中φ表示上采样操作，||表示特征映射的级联，θ是由PAM中的三次卷积运算学习的非线性映射
的参数，°是Hadamard乘法。
channel attention module
通道注意模块的结构灵感来源于文献[14]。与位置注意模块试图关注特征地图中与位置相关的信息不同，CAM关注的是通道维度上的特征，以便学习不同通道的特征之间的相互依赖关系，并抑制来自不必要通道的特征。

图6显示了CAM的详细结构。在给定输入特征映射F∈R^H×W×C的情况下，我们首先对其执行全局平均池化(GAP)，从而产生特征向量Z∈R1×1×C。GAP可以形式地定义为

其中Fn是第n个通道特征映射F；n∈{1；2；3…；C}，并且（x，y）是Fn内的一个像素。

然后，为了捕捉通道之间的相互依赖关系，并最终得到关注权重向量S∈R^C，我们使用了两个完全连通的层。第一完全连接层减少了通道的数目至C/r，其中r是比例因子。以及在第二个完全连通的层之后返回到C的通道数。采用第一全连接层之后的ReLU函数来保证可以强调多个通道，并执行第二全连接层之后的Sigmoid函数来产生不同通道之间的非线性关系。这些运算可以形式地表示为公式(3)。

其中W1∈R^C/r×C和W2∈R^C×C/r分别表示两卷积层的权重矩阵，
是RELU函数，σ表示Sigmoid函数。

ObjectIve functions

在UNet中，训练过程中使用了二进制交叉熵(BCE)损失函数，定义为公式(4)。N是MRI切片中的像素数，yⁿt∈{0,1}是第n个像素的ground truth标签。具体来说，0表示正常组织，1表示需要分割的肿瘤，Yn从0到1表示xⁿ属于该肿瘤的相应概率。

如上所述，我们可以观察到不同的类别对熵损失的贡献是相同的。然而，如图1所示。鼻咽癌区域在MRI切片中只占相当小的一部分。前景和背景的这种不平衡使得网络容易预测一个像素作为背景，这在[36]中也已经指出。另外，其他一些研究[26]已经证明二元交叉熵损失可能会导致梯度消失问题。为了处理这些棘手的问题，受[34]的启发，我们在我们的细分网络中引入了另一个流行的损失函数，Dice损失，其定义如下

其中
表示平滑项，通常设置为1。平滑项是数值稳定性所必需的。

因此，我们使用名为BCEDice的复合损失函数，该函数由BCE损失和Dice损失组成，如下所示：

其中λ是平衡这两个项的超参数。

Experiments and Results

Implementation details and preprocessing

我们使用PyTorch实现了我们的框架，代码在PyCharm 2019.1.4中进行了编辑。模型训练和测试在配备了12核Intel Xeon CPU E5-2650 v4和11 GB内存的NVIDIA GeForce GTX 1080 Ti的Ubuntu 16.04上进行。选取60例患者的MRI图像作为训练集，另外15例患者的MRI图像作为验证样本，剩余的20例患者的MRI图像作为测试集。所有MRI图像均经华西医院放射科批准使用。由于所有的MRI都是通过偏置场失真进行调整的，因此针对MRI的Nick的N3洞察力分割和配准工具包实现[38]被用于每个获取的T1-MRI以进行偏差校正。然后，利用[31]中提出的归一化方法，将不同患者之间的对比度和强度范围调整到相似的水平。

请注意，获取的图像是从头部到颈部的大扫描体积，但鼻咽部肿瘤在MRI切片上所占的面积相当小。为了提高计算效率，如图7所示。首先从每个MRI切片的固定位置裁剪出大小为128×128的区域作为感兴趣区(ROI)，其大小足以容纳整个可能的肿瘤区域。然后，将裁剪后的ROI归一化为0到1的范围，并在随后的训练和测试过程中用作输入。在我们的实验中，总共使用了1628个大小为128×128的MRI切片作为训练集，其中374个作为验证集，379个作为测试集。

图7.感兴趣区域的提取。左边的图像是原图。剪辑后的图像显示在右侧。

显然，训练集中可用的数据样本有限，阻碍了模型的有效训练。为了便于训练，本文还通过旋转、平移和翻转等数据扩充方法对训练集进行了扩充。通过这些方法，训练样本的数量增加了5倍，最终获得了8140幅图像来训练网络。采用小批量随机梯度下降(SGD)的自适应矩估计(ADAM)算法对网络进行训练。具体而言，Adam的动量项和初始学习率分别为0.9%和0.001，小批量规模设为32。

为了保证模型的性能和实验结果的合理性，在测试过程中，选择验证集上损失最小的模型作为最终模型对样本进行测试。此外，我们还重复了三次测试，并对评估标准的值进行了平均，以生成最终的测试结果。

Evaluation criteria

对于分割评价，我们使用四个度量来评估区域和边界的相似性，包括Dice相似系数(DSC)、防止匹配(PM)、对应率(CR)和平均对称表面距离(ASSD)。A和B分别表示手动ground truth和自动分割切片。

如公式(7)所示，DSC等于两个集合共有的像素数除以每个集合中的像素数之和的两倍，这表示ground truth A和预测分割B之间的相互重叠。

根据这个方程，很容易发现DSC=1被称为理想分割，而DSC=0表示两个分割没有重叠。根据邹某等人[47]的研究，当DSC值大于0.7时，可以认为分割效果较好。基于重叠的度量通常对分割轮廓不敏感，即高度分割重叠并不意味着它们轮廓之间的临床相关差异小到可以忽略。相反，这些不同之处对放射治疗中的靶点勾画是非常重要的。因此，我们使用一个基于距离的标准，称为平均对称表面距离(ASSD)作为我们的评估度量。它被定义为：

式中，d(a, b)表示a和b之间的欧几里得距离。很明显，较小的ASSD值意味着较高的分割精度。ASSD表示边界区域分割的准确性。

PM是真阳性(TP)与ground truth中肿瘤像素数的比率。CR通过加权TP和假阴性(FP)的重要性来衡量分割结果与ground truth的一致性。PM和CR可以用来衡量过分割和欠分割。它们的正式定义如下：

PM和CR值越大，分别表示分割不足和过度分割越少。

综上所述，在上述四个评价指标中，DSC、PM和CR越大，ASSD越小，分割效果越好，即分割结果越接近ground truth。

Estimation of hyper-parameters

在这一节中，我们进行了一系列实验来估计第二节中使用的最佳超参数，包括Dense block中特征图k的通道数(参见第2.2.2节)、通道注意模块的缩放因子r(CAM，参见第2.2.3节)和损失函数中的平衡项λ(参见第2.2.4节)。在这里，我们以渐进的方式探索了三个最优超参数，即首先基于DSU-Net(没有双重注意模块的网络)计算参数。然后，利用已估计的最优值，基于DA-DSUnet对参数进行估计。最后，基于最优基函数对参数进行估计。

Estimation of k

如第2.2.2节所述，k值决定Dense block作为输入并生成为输出的特征映射的通道数。因此，它对我们提出的DA-DSUnet的性能有很大的影响。在表1和图8中，我们比较了不同k值的DSUNet的分割结果。随着k从24增加到96，包括DSC和CR在内的评价指标以及参数数(PARAM)逐渐增加，而ASSD则逐渐下降。当DSC值为96时，性能达到最好，DSC为0.7854。然而，随着k的进一步增加，我们发现DSU-Net的性能开始下降。因此，综合考虑分割的个数和参数以及分割精度，我们选择96作为DSU-Net中的k值进行鼻咽癌分割。

Estimation of r

如第2.2.3节所述，比例因子是一个超参数，它允许我们改变网络中信道注意力模块(CAM)的容量和计算成本，需要仔细设置。为了研究由r调节的性能和计算负担之间的权衡，我们对一系列不同的值进行了实验。

如表2所示，r值越小，性能越好，这可能是因为r值越大，对特征的挤压就越严重，使得恢复变得更加困难。值得注意的是，当r=4时，DSC、PM、CR的值与r=2时非常接近，但我们得到的参数数量减少了0.092。因此，我们设置r=4在性能和计算负担之间进行权衡。

Estimation of λ

平衡项决定了目标函数中哪个成分更重要，在模型训练中起着关键作用。根据第2.2.4节，Dice损失的范围是从0到1。因此，当Dice损失小于0.01时，骰子损失太小而不能考虑。因此，在我们的实验中，λ设定在0.01到500之间。此外，当λ=0，10，20时(参见表3)得到的结果没有显著变化。因此，我们认为应该使用50而不是10的间隔。表3显示，当λ=100时，该算法产生最佳性能。然而，当增加到100时，DSC、PM和CR逐渐下降。我们推测，当BCE损失相对较大时，BCE损失的贡献被压缩，从而导致性能下降。因此，在接下来的工作中，我们设定λ为100。

Ablation study

在这一部分中，我们使用增量式方法进行消融研究，验证了我们方法中每个组件的有效性。实验细节和结果将在以下小节中描述。

Ablation study on unpooling

为了研究unpooling的贡献因素，我们进行了1)U-net：基本U-net，2)SUNET：U-net+unpool的消融研究。DSC、PM、CR、ASD的平均定量比较如表4所示。由此可见，两种模型都取得了较好的分割效果。与基本U-Net相比，SU-Net的DSC、PM和CR分别提高了约1.34%、5.23%和2.78%。值得注意的是，ASSD下降了0.0677，这表明通过unpooling可以显著缓解边界歧义。

因此，可以得出结论：unpooling比上卷积更适合于鼻咽癌分割。

Ablation study on dense block

我们经验性地设置了k=96，并使用1)SU-Net和2)DSU-Net：U-Net+Unpooling+Dense block进行了实验。表5提供了DSC、PM、CR、ASD的平均定量比较。从中可以看到，DSUNet的DSC、PM、CR分别提高了0.66%、2.27%、1.41%，ASSD下降了0.0365。除了评估指标之外，还需要简化网络结构。值得注意的是，DSUnet的参数个数比SU-Net减少了80%，说明用Dense block代替卷积块是有利的。

Ablation study on dual attention mechanism

为了验证本文提出的双重注意机制的有效性，我们还使用1)DSU-net和2)DA-DSUnet：双重注意机制+DSU-net进行了消融实验。DA-DSUnet中CAM的比例因子设置为4。所有评价指标的取值如表6所示，其中DSC、PM和CR分别比DSU-NET高1.49%、0.92%和1.57%，而ASDD下降3%。实验结果表明，双重注意机制，即PAM和CAM是提高成绩的关键。

为了直观地说明DA-DSUnet的性能，我们在图9中可视化了DA-DSUnet的分割结果。可以看出，分割结果非常接近实际情况，证明了双重注意机制的有效性。

图9.DA-DSUnet的可视化分割结果。第一行中的图像是输入切片。第二行显示了DA-DSUnet的分割结果。最后一排是ground truth。

Ablation study on objective function

为了验证本文提出的复合损失函数(BCEDice Loss)的有效性，我们简要比较了DA-DSUnet与BCEDice Loss和大多数分割任务中使用的BCE Lost的分割精度。表7给出了定量结果，从中可以观察到，与BCE损耗相比，配备BCEDice损耗的DA-DSUnet比DSC、PM和CM分别有1.27%、4.28%和2.31%的增益。ASSD值也下降了3.00%。因此，我们可以得出结论：对于鼻咽癌分割，BCEDice损失比BCE损失更合适。

Comparisons with other methods

Comparison with other sematic segmentation methods

我们将我们的网络与一些著名的语义分割方法进行了比较，包括SegNet、DeepLab(ResNet)[13]、DeepLab(Xception)[7]，以评估DA-DSUnet的优越性。表8给出了定量的评估结果，从表8可以看出，我们提出的方法的所有评估指标都显示出最佳值，表明DA-DSUnet在鼻咽癌切分中取得了显著的改进，并且优于所有其他著名的方法。

图10给出了上述竞争网络与我们的DSU-Net和DADSUnet之间的直观比较结果。通过观察，我们可以直观地看到，与其他方法相比，DSUnet给出的分割是最正确的，因为绿色占据的面积最大，而红色和绿色只占很小的一部分。

图10.分割结果与最先进方法的定性比较。从左到右依次为INPUT IMAGE、SegNet、DeepLab(ResNet)、DeepLab(Exception)、UNET、DSU-Net和DA-DSUnet。绿色部分表示正确的分割区域，红色部分和蓝色部分分别表示过分割区域和欠分割区域。

Comparison with previous studies

为了进一步验证该网络的优越性，我们在这一部分将DA-DSUnet算法与其他已有的鼻咽癌切分方法进行了比较。表9给出了对结果的定量评估，从中我们可以观察到，通过获得最佳值，所提出的方法与其他现有方法相比具有竞争力。可以得出结论，所提出的DA-DSUnet达到了最先进的结果。

Discussion

基于深度学习的方法已经应用于包括医学图像分割在内的许多领域。然而，头颈部肿瘤的MRI轮廓仍由肿瘤学家手工勾画，相当耗时。我们的工作旨在提供一种自动化的方法来提高鼻咽癌切分的准确性，加快切分的进程。虽然以前的工作[30，9]已经通过U-Net实现了自动分割，但[33]中提出的利用BCE损失的想法仍然存在2.2.4节所述的一些缺陷。此外，虽然跳跃连接抵消了这些方法中丢失的边界信息，但鼻咽癌的轮廓仍然模糊，这可能是由于鼻咽癌的性质，如肿瘤大小和形状变化大，正常组织和肿瘤之间的强度差异小等。

在本文中，我们使用了一种名为BCEDice的复合损失来训练我们的模型，以解决这些问题并简化训练过程。3.4.4节中进行的实验证明了BCEDice损失的有效性。对于边界信息的丢失，我们采用了解合并操作，而不是上卷积操作，进一步提高了分割轮廓的准确性。从3.4.1节的实验结果可以看出，采用解合并的SU-Net比U-Net具有更好的分割效果，充分体现了解合并作为上采样方法的优越性。

文献[15]中提出的Dense block首先用于图像分类，但没有用于语义分割。然而，最近研究的一些相关结论[5，41，20]支持了这一应用的合理性，即Dense block在很好地减少参数数目的同时具有增强特征传播的能力。在第3.4.2节中进行的实验表明，我们的DSU-Net具有很好的性能和广阔的潜力。

近年来，受人类视觉感知的启发，注意机制被成功地应用于神经网络[22，23]，因为它有利于特征选择，即注意机制可以帮助模型关注最需要的特征而忽略与分割任务无关的特征，而不是将整个图像编码成静态的表示。然而，这些方法通常直接将相同的注意机制应用于他们的任务。本文设计了一种全新的位置注意模块(PAM)。双重注意机制的贡献已经在第3.4.3节得到了证明。

虽然我们的方法在鼻咽癌切分任务中取得了很大的进步，但仍然存在一些局限性。首先，目前可用的训练样本数量有限。在今后的工作中，将获得更多的MRI图像，以进一步增强模型的泛化能力。其次，我们的模型的过程是二维的，这可能会导致空间信息的丢失。我们下一步的工作将集中在开发利用医学图像空间信息的三维深度网络。第三，我们的模型只考虑了单模态输入(即T1加权MRI)用于NPC分割。从理论上讲，更多的模态将提供更多的补充信息，从而产生更好的分割结果。因此，我们将在以后的工作中考虑将我们的模型扩展到多模态分割任务中。

Conclusion

在这项工作中，我们提出了一个用于头颈部MRI肿瘤分割的优秀网络DADSUnet，它将潜在地促进鼻咽癌患者的健康监测，并为鼻咽癌的准确分期和放射治疗规划提供重要的机会。它还可以显著减轻相关专家的负担，缓解运营商内部和运营商间的差异。与传统的图像分割方法不同，我们利用了unpooling操作对边界细节保留的关键影响。受DenseNet成功的激励，我们还在我们的网络中使用了DenseNet，这有助于获得更好的性能，同时需要更少的额外参数，从而克服了梯度消失的问题。此外，还设计了一种新的双重注意机制来进行特征求精。此外，我们建议使用由BCE损失和Dice损失组成的损失函数，而不是只使用BCE损失。通过与其他竞争方法进行对比实验，验证了该模型的有效性。在实际的医学诊断中，我们的DA-DSUnet可以有效地勾画出鼻咽癌的轮廓，可以用来计算肿瘤的体积，为随访患者的病情评估和放射治疗计划提供依据。然而，仍有一些可能性有待探索。在不久的将来，我们将投入更多的精力来提高分割性能，并将研究我们的网络在一般图像语义分割任务中的潜力。