Clinically applicable deep learning framework for organs at risk delineation in CT images

Clinically applicable deep learning framework for organs at risk delineation in CT images
发表期刊：Nature machine intelligence(Nature子刊)
发表时间：2019年

Abtract

放射疗法是癌症治疗中使用最广泛的疗法之一。放射治疗计划的一个关键步骤是准确描绘所有处于危险中的器官 (OAR)，以尽量减少对周围健康器官的潜在不利影响。然而，基于计算机断层扫描图像手动描绘 OAR 既耗时又容易出错。在这里，我们提出了一个深度学习模型来自动描绘头部和颈部的 OAR，该模型在 215 个计算机断层扫描数据集上进行训练，其中 28 个 OAR 由经验丰富的放射肿瘤学家手动描绘。在包含 100 次计算机断层扫描的保留数据集上，我们的模型在 28 个 OAR 中实现了 78.34% 的平均 Dice 相似性系数，分别显著优于人类专家和之前的最先进方法 10.05% 和 5.18%。我们的模型只需几秒钟即可描绘出整个扫描，而人类专家则需要半个多小时。这些发现证明了深度学习在提高放射治疗质量和减少治疗计划时间方面的潜力。

放射治疗 (RT) 是许多类型癌症的重要治疗选择。它可以用作手术前或手术后的辅助治疗，或作为与化疗联合使用的根治性治疗。然而，由于该区域的解剖结构复杂且重要器官分布密集，照射会导致正常器官（“危险器官”，OARs）的损伤，特别是在治疗头颈癌时。损伤头颈部正常器官可导致一系列并发症，如口干、口腔黏膜损伤、喉水肿、吞咽困难、张口困难、视力下降、听力下降和认知障碍。近年来，随着头颈癌放疗疗效的稳步提高，影响患者生活质量的放疗并发症越来越受到关注。减轻放疗毒副作用的研究可能具有重要的临床和社会意义。

在 RT 计划期间减轻辐射副作用的关键步骤是准确描绘所有 OAR，以便在放疗期间对其进行保护。 OAR 描绘通常由放射肿瘤学家基于计算机断层扫描 (CT) 手动完成，这可能需要大量的时间和精力，具体取决于要描绘的 OAR 的数量和局部解剖结构的复杂性。以头颈部为例，该区域很多肿瘤的治疗范围，比如鼻咽癌，治疗范围都比较大，覆盖的OAR也比较多。由于该区域的解剖复杂性，手动描绘尤其令人生畏。如果这些工具能够在合理的时间内准确地描绘出 OAR，那么自动分割解剖区域的计算工具可以大大减轻临床医生的手动工作。

已经提出了许多计算方法来从 CT 或磁共振成像 (MRI) 图像中描绘出 OAR。传统的 OAR 描绘方法大多是基于图谱的，通过将新图像与一组固定的手动标记图像模板对齐来产生 OAR 分割。然而，基于图集的方法有一些局限性。首先，它们是计算密集型的，通常需要几分钟甚至几小时才能完成，具体取决于硬件和实现。其次，由于对模板的依赖，它们无法充分解释患者之间自然发生的解剖变异或由于肿瘤的生长而导致的解剖变异。

深度学习为 OAR 描绘问题提供了另一种解决方案。深度卷积神经网络 (DCNN) 可以学习直接从数据中提取复杂图像特征的层次结构，并利用这些图像特征来分割解剖结构，而无需将图像映射到模板。 DCNN 已成功应用于分割自然图像中的对象，以及来自 CT、MRI 或显微镜的生物医学图像。现有的作品将 DCNN 应用于头颈部 OAR 描绘。其中大多数应用深度学习来从感兴趣区域周围裁剪的局部补丁中分割 OAR，这可以手动实现，也可以基于图像配准的输出，通过映射到模板或一次描绘一个切片来实现。

最近，还尝试直接从全体积 CT 图像中描绘 OAR，并显示出比基于图谱的方法更好的性能。然而，这些研究的范围和/或规模有限，仅划定了少数 OAR，测试的样本数量有限。更重要的是，以前的研究没有检验这些方法的临床效用，以及这些方法实际上在多大程度上可以帮助临床医生。

在这项研究中，我们试图通过提出一种新的深度学习模型来解决上述问题，该模型可以通过在由拥有超过10年经验的放射科肿瘤科医生收集并仔细注释的215个CT样本上训练以在头部和颈部区域描绘出一套全面的 28 个 OAR（图 1）。我们模型的准确性与之前最先进的方法和放射治疗从业者进行了比较。此外，我们在新患者病例的实际 RT 计划中部署了我们的深度学习模型，并评估了该模型的临床效用。

Fig.1 An illustration of the 28 OARs to be delineated in the head and neck area. Views are from three different orientations. P, R, L, S and I are
orientation axes. P, posterior; R, right; L, left; S, superior; I, inferior.

我们的深度学习模型解决了该领域使用的现有深度学习方法的一些关键限制。大多数现有的 OAR 分割深度学习方法都基于类似 U-Net 的网络架构。 U-Net 由编码器和解码器架构组成，横向连接低级和高级特征图。集成的图像特征融合了低级图像信息和高级语义内容，已被证明对于精确的体素分类非常有效。然而，在不限制 OAR 的大致位置和大小的情况下，U-Net 经常产生许多误报（称为伪热点），分散体素位于 OAR 的正常范围之外（补充图 1）。这些误报在实际临床应用中尤其成问题，因为手动将它们从描绘图中删除需要花费大量时间和精力，并且在一定程度上，它可能会抵消从正确预测中获得的好处。此外，将 U-Net 应用于全体积图像时也存在实现问题。基于整卷输入训练类似 U-Net 的模型需要具有大内存的专用图形处理单元 (GPU)。由于这些原因，大多数现有的深度学习方法都集中在从局部图像块或逐个切片的基础上分割 OAR。

为了应对上述挑战，我们提出了一种新颖的端到端深度学习框架，名为 Ua-Net（attention-modulated U-Net），用于从全体积 CT 图像中分割头部和颈部区域的 28 个 OAR。所提出的框架包括两个阶段：OAR 检测和 OAR 分割。第一阶段包括一个 OAR 检测网络，其目标是识别每个 OAR 的大致位置和大小，并抑制每个 OAR 正常范围之外的假阳性预测。第二阶段包括一个 OAR 分割网络，它利用第一阶段的结果作为指导，并专注于包含 OAR 的区域，以得出每个单独 OAR 的精细分割。这种注意机制允许我们执行局部对比度归一化以增强图像特征，从而改善低对比度 OAR 边界的分割。两个阶段的网络共享相同的基于三维（3D）卷积的底层特征提取主干，允许权重共享并显著降低 GPU 内存成本。通过两阶段设计，可以使用易于访问的商品 GPU 直接在全卷图像上端到端地训练和测试整个模型。

在下文中，我们描述了我们模型的详细设计、我们为训练和测试我们的模型而收集的数据以及通过将其与最先进的方法和放射肿瘤学家进行比较的评估结果。此外，我们对我们的方法的临床效用进行了研究。特别是，我们报告了在 RT 计划期间，在我们的模型的帮助下，临床医生实际上可以节省多少时间。此处介绍的工作提供了对头颈部区域 OAR 描绘的临床适用深度学习模型的研究。

Data

我们在本研究中使用了三个数据集（表 1）。数据集 1 包含 175 次 CT 扫描的内部集合，每次扫描中有 28 个 OAR 注释（图 1）。我们将数据随机分成 145 个用于训练的案例和 30 个用于测试的案例。数据集 2 包含来自癌症影像档案 (TCIA)的两个不同来源的 140 次 CT 扫描。我们在每次扫描中手动描绘了所有 28 个 OAR，并随机拆分数据，其中一半保留用于训练，另一半保留用于测试。总之，这使得用于训练的样本总数达到 215 个，用于测试的样本总数达到 100 个。数据集 3 是一个公开可用的数据集，具有预定的训练（33 个案例）和测试（15 个案例）集，每个数据集有 9 个注释了 OAR。它主要用于评估目的。

数据集 1 包含来自患者头部和颈部区域的 CT 扫描以及放射肿瘤学家在每次扫描中对 OAR 的描绘。数据包括 2016 年至 2018 年接受放疗的头颈癌患者的 175 次 CT 扫描（表 2）。CT 扫描由 GE Discovery 590 RT 生成，扫描条件如下：灯泡电压 120 kV，电流 300 mA ，扫描层厚度 2.5 毫米，扫描视野 (SFOV) 50 厘米，扫描范围从颅骨顶部到气管隆突。

CT 扫描由具有 10 多年经验的放射肿瘤学家手动描绘，使用 Varian Eclipse 10.0 系统进行描绘，并遵循参考文献的指南，必要时借助来自同一患者的 MRI 图像。第二位具有 30 多年 RT 临床经验的专家进一步审查和修订了描述。我们将以这种方式生成的手动描述称为用于训练和测试目的的“黄金标准”，同时注意注释中存在潜在的主观变体甚至错误的警告。

在每次 CT 扫描中描绘了一组临床相关的 28 个 OAR：臂丛神经、脑干、鼻缩肌、耳朵（左右）、眼睛（左右）、垂体、喉、晶状体（左右）、下颌骨、视交叉、视神经（左右）、口腔、腮腺（左右）、左下颌下腺（SMG L）、右下颌下腺（SMG R）、脊髓、舌下腺、颞叶（左右）、甲状腺、左颞下颌关节（TMJ L）、右颞下颌关节（TMJ R）和气管（图1）。

我们将数据集随机分成由 145 个 CT 扫描组成的训练集和由 30 个 CT 扫描组成的测试集。我们验证了性别、年龄和肿瘤部位的分布在训练集和测试集之间大致相等（见表 2）。训练集用于训练我们的模型，测试集用于评估，在训练过程中模型看不到测试集。

从数据中删除了患者身份和其他临床信息。非临床医生只能访问图像数据和相应的 OAR 标签。在研究开始之前，负责监督人类受试者数据的机构审查委员会 (IRB) 对本研究数据的使用进行了审查和批准。

数据集 2 由来自两个来源的 CT 扫描组成：头颈西妥昔单抗 (HNC) 可在 TCIA 和Head-Neck-PET-CT (HNPETCT) 获得，两者都有。 HNC 包含来自 III 期和 IV 期头颈癌临床试验的图像数据，而 HNPETCT 包含来自魁北克四个不同机构的经组织学证实的头颈癌的图像数据。我们按照生成数据集 1 中描述的相同程序在每次 CT 扫描中注释 28 个 OAR。

数据集 3 包含来自称为计算解剖学公共域数据库 (PDDCA) 的公共数据集的 CT 扫描，用于 2015 年 MICCAI 会议的头颈部自动分割挑战。在该数据集中总共注释了 9 个 OAR：脑干、下颌骨、视交叉、视神经（左右）、腮腺（左右）和下颌下腺（左右）。

Model performance

Ua-Net 是一种用于 OAR 描绘的端到端深度学习模型，由两个子网络组成：（1）OAR 检测，其目标是识别每个 OAR 的大致位置和大小；（2）OAR分割，它提取精细的图像特征并执行图像分割，注意力集中在单个 OAR 上（图 2）。它接收全体积图像作为输入，并一次输出所有 28 个 OAR 的预测掩码。它遵循用于特征提取的通用类 U-Net 结构，由编码器（用于提取语义上更复杂的特征的下采样块序列）和解码器（用于提高图像特征分辨率以便进行精细尺度分割的上采样块序列）组成。每个特征提取块由若干个残差子块组成，均基于 3D 卷积以利用体积 CT 图像中的 3D 图像特征。

**Fig.2 ** Ua -Net 概述。 D、H和W分别表示输入CT图像的深度、高度和宽度。每个特征图的大小表示为（批量大小、通道、深度、高度、宽度）。 k 是锚点的数量（本研究中为 12 个）。 FC，全连接层； ROI，感兴趣的区域。所提出的深度学习框架包括两个阶段：OAR 检测和 OAR 分割。 OAR 检测网络输出 CT 图像中 OAR 的位置和大小，然后将其馈送到 OAR 分割网络，使用裁剪的 CT 图像和特征图进行更细粒度的分割。 OAR 检测和 OAR 分割网络共享相同的底层特征提取主干，可以联合优化。整个框架以端到端的方式进行训练。

Ua-Net 与传统 U-Net 模型的主要区别在于 Ua-Net 利用 OAR 检测模块首先识别包含 OAR 的区域，然后仅在检测到的 OAR 区域内对图像特征进行上采样，而不是像U-Net。两阶段设计使模型能够将注意力集中在提取 OAR 周围的高分辨率图像特征上，其优点是减少了 OAR 正常范围之外的误报预测，并大大减少了上采样步骤所需的 GPU 内存消耗.方法中提供了模型的详细描述。

Performance metrics
我们使用体积Dice相似系数 (DSC)和第 95 个百分位 Hausdorff 距离 (95% HD)这两个该领域最常用的指标来评估 OAR 描绘的质量。我们模型的 OAR 分割结果由 28 个二进制掩码表示，每个 OAR 一个。每个二进制掩码是一个与输入 CT 图像大小相同的 3D 数组，其值为 0 或 1，指示底层体素是否是相应 OAR 的一部分。令 Mp 和 Mg 分别是预测掩码和黄金标准掩码中值为 1 的体素集。 DSC 定义为 DSC = 2|Mp ∩ Mg|/(|Mp | + |Mg |)，测量两个掩模之间的体积重叠。除了 DSC，我们还测量了两个掩模边界之间的 HD。让 Cp 和 Cg 分别表示预测和黄金标准掩模的轮廓。定义 max HD 为 max {h(Cp , Cg), h(Cg, Cp)}，其中 h(Cp)=max_a∈Cp min_b∈Cg ||a-b|| 。因为 max HD 对异常值非常敏感，所以使用更常用的度量标准 95% HD，它测量两个轮廓之间的第 95 个百分位距离。

为了评估我们模型的临床效用，我们计算并比较了放射肿瘤学家从头开始或通过修改模型的描绘结果来描绘 OAR 所花费的时间。

Comparison with state-of-the-art methods
Ua-Net 模型在训练集中的 215 次 CT 扫描上进行了训练（来自数据集 1 和 2；有关模型训练的详细信息，请参见补充方法）。接下来，我们在测试集上评估其分割精度，其中包括来自数据集 1 的 30 次 CT 扫描和来自数据集 2 的 70 次 CT 扫描。由于两个测试集来自不同的来源，因此性能评估报告在单独的表格中（表 3 和4 用于数据集 1 和补充表 5 用于数据集 2），用于评估我们的模型在不同数据站点上的稳健性。

我们首先将 Ua-Net 与称为 AnatomyNet的最先进的深度学习模型进行了比较，该模型已被证明能够在准确性和速度方面显着优于传统的基于图集的 OAR 描绘方法。 AnatomyNet 是用于 OAR 分割的类 U-Net 模型的代表，但在其他深度学习模型中脱颖而出，因为它可以直接在全体积 CT 图像上分割 OAR，而不是提取的局部补丁。为了确保一致的比较，我们使用相同的程序在相同的训练数据集上训练了两个模型。

在 DSC 方面，Ua-Net 在 28 个 OAR 中的 27 个中优于 AnatomyNet，在数据集 1 上平均提高了 4.24%（表 3），在数据集2的28 个 OAR 中的 28 个，平均提高了 5.7%（补充表5）。Ua-Net 在正常对比度条件下难以描绘的解剖结构上表现特别好，例如视交叉和舌下腺，这可能是由于 Ua-Net 中实施的局部对比度归一化机制。 Ua-Net 在右耳上的表现略逊于 AnatomyNet，差异相对较小。

在 HD 方面评估时，Ua-Net 相对于 AnatomyNet 的优势更加明显，平均 95% 的 HD 从 21.96 毫米下降到 6.21 毫米。如表 4 所示，AnatomyNet 很容易在 OAR 的正常范围之外产生误报，这是可以预料的，因为它的分割是在全体积图像上执行的，而不是在局部 OAR 区域（如 Ua-Net 中）。这些假阳性在体素数量方面很小，对测量体积重叠的 DSC 的负面影响较小，但它们显著增加了 HD。

接下来，我们将 Ua-Net 与多图集分割 (MAS) 进行了比较，MAS 是一种基于图像配准的经典 OAR 描绘方法（有关 MAS 方法的详细信息，请参见补充方法）。在这两个数据集中，MAS 产生的分数显著降低（与我们的模型相比，数据集 1 的平均 DSC 分数低 15.56%，数据集 2 的平均分数低 23.16%），表明经典方法不如基于深度学习的方法具有竞争力。

最后，我们将模型的性能与之前在 Dataset 3 (PDDCA) 上的最新结果进行了比较。表 5 包含先前报告的描绘结果的摘要，根据数据集 3 测试集中的九个 OAR 的 DSC 进行评估。 Ua-Net 在 9 个 OAR 中的 8 个上获得了最好的描绘结果，在 9 个 OAR 中实现了 81.23% 的平均 DSC 得分，高于以前的所有方法。

Comparison with human experts

在证明 Ua-Net 在 OAR 描绘方面的表现优于经典和最先进的深度学习方法后，我们继续将其性能与人类专家产生的手动描绘进行比较。为此，我们聘请了一位具有 10 多年专业经验的放射肿瘤学家，他没有参与注释训练或测试数据集。放射肿瘤学家根据正常的专业程序，在数据集 1 的测试集中的 30 个 CT 扫描上手动描绘了 28 个 OAR，但没有咨询其他专业人员或寻求其他数据源（如 MRI 图像）的帮助。

在 DSC 方面，Ua-Net 和 AnatomyNet 的表现都优于人类专家。 Ua-Net 在 28 个 OAR 中有 27 个优于人类专家，平均提升 10.15%。人类专家的描绘在视交叉 (28.61)、臂丛 (33.03) 和舌下腺 (35.16) 上的 DSC 得分最低，突出了手动描绘这些体积小且 CT 对比度相对较低的器官的挑战图片。当使用 HD 评估结果时，人类专家与我们的深度学习模型描述之间的差距更小。由于上述原因，人类专家和 Ua-Net 都比 AnatomyNet 做得好得多。 Ua-Net 在大多数 OAR（28 个中的 22 个）上的表现优于人类专家（95% 的 HD 较小），将平均 95% 的 HD 从 8.01 毫米降低到 6.28 毫米（减少了 21%）。由于 HD 对异常值非常敏感，因此对于模型而言，它是一个比人类专家更具挑战性的指标，人类专家的错误大多局限于 OAR 周围的区域。

在实际临床实践中，临床医生还可以在描绘过程中参考 MRI 图像。为了在真实临床环境中对临床医生的勾画质量进行基准测试，我们还要求同一位临床医生根据 CT 和 MRI 图像的输入更新勾画结果。我们观察到几个 OAR 的描绘质量显着改善，尤其是那些 CT 图像对比度低的 OAR，如视交叉和视神经。这导致平均 DSC 增加到 72.17%。我们应该注意到，较低的分数可能是由多种因素造成的，包括观察者间的差异、OAR 描绘中的常见问题，以及技能和经验。

总而言之，上述实验结果表明（1）在 Ua-Net 中实现的两阶段模型有利于提高深度学习模型在 DSC 方面的性能，在 HD 方面也基本上如此，以及（2）该模型还能够提供比人类专家更好的描绘性能。请注意，我们的模型可以在几秒钟内完成案例的整个描绘过程（补充表 7）。相比之下，人类专家平均需要 34 分钟来完成一个案例，突出了深度学习模型的显着优势（表 6）。

Clinical performance
在证明我们的模型可以比最先进的方法和人类专家做得更好之后，我们接下来试图找出它的临床实用性，即该模型实际上可以在多大程度上帮助临床医生。为此，我们进行了一项研究，以比较放射肿瘤学家在两种模式下划定 OAR 所花费的时间——没有或有我们模型的帮助。在第一种模式中，描绘完全是从头开始手动执行的。在第二种模式中，将我们模型中所有 28 个 OAR 的描绘结果提供给临床医生，然后临床医生将验证结果并在必要时修改不正确的描绘。这种情况下的总工作时间包括验证结果所花费的时间，以及修改模型预测所花费的时间。

研究了来自现实生活放射治疗计划的十个新 CT 扫描。我们记录了经验丰富的放射肿瘤学家在上述两种模式下操作的这 10 例病例中每一个描绘 28 个 OAR 所花费的时间。为确保勾画质量，所有勾画结果均由第二位放射肿瘤科医生检查和确认。

在没有模型帮助的情况下，放射肿瘤学家平均花费 33.6 ± 2.55 分钟来描绘一个病例。相比之下，在我们的模型的帮助下，描绘时间大大减少，达到 13.1 ± 3.14 分钟的平均值（表 6），表示时间减少了大约 61%。配对 t 检验证实差异具有统计学意义 (P = 4.5 × 10⁻⁹)。我们注意到，放射肿瘤学家接受了大多数 OAR 的模型描绘结果，无需任何修改。大部分修改时间都花在臂丛和颞叶上，这两个 OAR 体积相对较大。

这项研究证实了我们模型的临床实用性，证明该模型可以很好地推广到以前未见的病例，并且当作为辅助临床医生手动描绘的工具时，可以节省临床医生多达 61% 的时间。

Visualization
我们从保留测试集中随机选择了两个具有代表性的 CT 扫描，以可视化所提出方法的描绘质量。图 3 显示了 28 个 OAR 在轴向平面上的模型预测和人工描绘结果。图 4 显示了头部倾斜的异常情况。在这两种情况下，该模型都能够生成与人类专家产生的结果非常匹配的描述。

Fig.3 从测试集中随机选择一张 CT 扫描的可视化。六行是显示 28 个 OAR 的 CT 图像中的六个代表性轴向切片。第一列是原始 CT 扫描，第二到第四列是原始 CT 图像上白色方框的放大版本。第二列显示了肿瘤学家的描述，第三列显示了所提出的深度学习方法生成的预测，第四列显示了两个轮廓轮廓的比较。 W，窗宽； L，水平（亨斯菲尔德单位）。

Fig.4 从测试集中随机选择的第二次 CT 扫描的可视化。这五行是 CT 图像中的五个代表性轴向切片。第一列是原始 CT 扫描，第二到第四列是原始 CT 图像上白色方框的放大版本。第二列显示了肿瘤学家的描述，第三列显示了所提出的深度学习方法生成的预测，第四列显示了两个轮廓轮廓的比较。该 CT 是在患者头部倾斜时拍摄的。然而，所提出的框架仍然可以生成准确的分割，证明了框架的鲁棒性。

Discussion
在这项研究中，我们提出了一种新的深度学习模型来自动描绘头部和颈部区域的 OAR。我们已经证明，就 DSC 得分而言，新模型比最先进的方法将描绘精度提高了 5.18%，在 HD 方面则显著提高。此外，我们已经证明，该模型的表现也比放射肿瘤学家更好，在 28 个 OAR 上进行平均时，DSC 提高了 10.15%，95% HD 降低了 1.80 mm。

该模型的成功可归功于其两阶段设计。与该领域现有的大多数基于 U-Net 或其变体的深度学习模型不同，Ua-Net 首先识别包含 OAR 的区域，然后专注于提取这些焦点区域周围的图像特征。这种设计有几个优点。首先，它允许模型在每个检测到的解剖结构内执行局部对比度归一化，我们注意到这对描绘具有低 CT 图像对比度的解剖结构具有显着影响。此外，训练和强制模型学习更好的特征来分割 OAR 的边界变得更加有效，因为分割损失函数现在仅限于局部 OAR 区域。其次，该设计显着减少了误报，有效地消除了 OAR 正常范围之外的异常值。这反映在 HD 分数的提高上。第三，该设计减少了 GPU 内存消耗，计算效率更高。在体积 CT 图像上训练深度神经网络是计算密集型的，并且需要具有大 GPU 内存的硬件，这已成为该领域许多深度学习应用的瓶颈。在为 OAR 描绘开发的模型中，大部分 GPU 内存消耗发生在最后几层，其中图像特征图被上采样以具有与原始 CT 图像相同的空间分辨率。我们的模型仅对包含 OAR 的特征图进行上采样，因此能够大幅减少 GPU 内存消耗。使用我们的模型，仅使用商品 GPU（例如，具有 11 Gb 内存）从全体积 CT 图像中描绘所有 28 个 OAR 变得可行，我们认为这对于能够在实际诊所中部署的方法很重要。

这项研究有几个重要的局限性。首先，我们的模型仅使用 CT 图像来描绘 OAR。一些解剖结构，例如视交叉，在 CT 上的对比度较低，仅基于 CT 模态难以描绘。将来自其他模态（例如 MRI）的图像集成到深度学习框架中以进一步提高描绘精度非常重要。其次，尽管我们在生成黄金标准注释（参见数据部分）方面非常小心，但这些注释仍然由人类专家手动执行，并存在潜在的主观变化甚至错误的警告。我们表明，独立人类专家在数据集 1 的测试中仅达到 70.38% 的平均 DSC 分数（如果人类专家除了 CT 之外还参考 MRI 图像，则为 72.17%）（表 3）。其中一些差异可归因于专家之间的观察者间差异，尽管他们已接受过培训以遵循相同的描述指南和程序。在这方面，未来有必要进一步提高注释质量并生成全行业的标准化数据集。尽管如此，我们的研究表明，深度学习模型为标准化描绘过程和确保跨机构和个人的一致结果提供了一个有吸引力的解决方案。第三，这里使用的数据集相对较小，用于深度网络训练。在处理这种约束时，我们限制了层数和自由参数的数量来控制模型的复杂性，并通过仿射和弹性变换（补充方法）增加了训练数据。但是，需要从更多样化的来源收集更多数据来改进模型的跨域适应和泛化。

总之，我们已经证明，我们提出的深度学习方法可以准确地描绘头部和颈部的 OAR，其准确度可与经验丰富的放射肿瘤学家相媲美。它具有临床适用性，并且已经可以节省临床医生在 OAR 勾画上花费的大约三分之二的时间。随着模型和数据的进一步改进，可以想象，对于 RT 规划至关重要的耗时的 OAR 描绘过程可以通过深度学习方法完全自动化。

Methods
Ua-Net 由两个子模块组成——一个用于 OAR 检测，另一个用于 OAR 分割。 OAR 检测模块的目标是从 CT 图像中识别每个 OAR 的位置和大小，而 OAR 分割模块的目标是在每个检测到的 OAR 区域内进一步分割 OAR。网络架构整体图如图2所示。

OAR detection module
OAR 检测模块接收全体积 CT 图像作为输入（尺寸为 D × H × W，分别表示深度、高度和宽度），并通过一系列下采样块提取图像特征，然后是上采样块。每个下采样块由两个残差子块组成，均基于 3D 卷积，每次下采样后沿每个轴将分辨率降低一半。最后一个下采样块通过转置卷积和连接来自相应下采样的相同大小的特征图，上采样到大小为 D/8 × H/8 × W/8 的 64 个通道的最终特征图（图 2 中的 feature_map_8）。 OAR 候选筛选是基于这个最终的特征图进行的，一个头用于边界框回归，一个头用于二元分类（下文详述）。检测到的 OAR 候选边界框进一步经过 3D ROI-pooling步骤以生成固定大小的特征图，然后将其用于进一步的边界框回归和多类分类，以识别与每个 OAR 关联的类标签。

为了生成 OAR 候选者，我们将检测模块的最终特征图（图 2 中的 feature_map_8）分支为两个独立的头——一个用于边界框回归，另一个用于二元分类，每个头随后进行 3×3×3 卷积和1 × 1 × 1 卷积。每个边界框由一个矩形长方体表示，由六个参数 t = (x, y, z, d, h, w) 定义，其中 (x, y, z) 表示其中心，(d, h, w) 表示其在原始CT图像中的深度, 高度和宽度。总体而言，12 个锚点用于在每个滑动窗口生成 OAR 候选。锚点的选择及其大小在补充方法中进行了描述（没有很懂）。

锚点生成候选边界框列表。设 ti∈R⁶是与第 i 个锚相关联的边界框参数，由回归头预测，Pi 是锚是 OAR 的概率，由分类头预测。我们最小化多任务损失函数

其中第一项是分类损失，第二项是回归损失，λ 是平衡这两个损失的超参数（在本研究中设置为 1）。 Ncls 和 Nreg 分别是分类和回归损失计算中包含的锚的总数。如果第 i 个锚不包含任何 OAR，则 P^*i 为 0，否则为 1。 t^* i 是 ground truth参数。 ti 和 t^* i 都相对于锚框的大小进行参数化（详见补充方法）。我们对 Lcls 使用加权二元焦点损失，对 Lreg 使用smooth l1损失。

为了给每个 OAR 提议分配一个类标签，我们对从 feature_map_8 中提取的图像特征应用一个 ROI 池化步骤，在其预测边界框指定的区域中提取一个具有固定维度的特征图。随后应用两个全连接层将每个 OAR 提议分类为 29 个类别之一（28 个解剖结构加一个背景），并进一步回归其边界框的坐标和大小偏移。我们使用用29个类别的加权交叉熵损失替代Lcls的损失函数最小化与等式 (1) 类似的多任务损失函数，而回归损失保持不变。 OAR检测网络的最终输出是预测的边界框在原始图像中的坐标（^x； ^y; ^z; ^d; ^h; ^w），每个 OAR 都有相应的类标签 ^c。

OAR segmentation module
分割模块的目标是分割检测模块返回的每个 OAR 区域。该模块将每个 OAR 的边界框和类标签作为输入，并生成二进制掩码以在原始图像分辨率下描绘 OAR。它首先从 feature_map_8 裁剪特征图，其位置和大小由预测的边界框指定。随后通过一系列上采样块对裁剪后的特征图进行上采样，以得出原始 CT 分辨率（即从 1/8× 到 1× 分辨率）的最终特征图集。每个上采样块由三线性上采样组成，然后是 3D 卷积和局部对比度归一化。为了结合精细尺度的局部图像特征，我们还从边界框指定区域中的下采样块（在检测模块中）派生的特征图中裁剪图像特征，并将它们连接到相应上采样块的特征图中。最终的分割特征图由 64 个通道组成，大小为 ^d ^h ^w，与预测边界框的尺寸相同。最后我们应用一个 1 × 1 × 1 的 3D 卷积（根据类标签 ^c 选择到这个最终的特征图，然后进行 sigmoid 变换，以生成预测的掩码 m，一个由体素坐标索引的集合，其中 mi 表示体素 i 是 OAR前景的概率。在 CT 扫描中对每个检测到的 OAR 应用相同的过程。与 OAR c 相关联的最终预测掩码 mc 被视为预测 OAR 类别标签为 c 的所有 mi 的并集。

与一次 CT 扫描相关的分割损失定义为

其中 I© 是指示函数，如果 OAR c 被检测模块检测到则取 1，否则取 0。 g^c 表示 OAR c 的ground truth二进制掩码：如果体素 i 在 OAR 内，则 g^c i = 1，否则为零。 ϕ(m, g) 计算预测掩码 m 和ground truth g 之间的软 Dice 分数：

其中 i 是体素索引，N 表示体素的总数。术语
可以分别理解为软假阳性和软假阴性。参数 α 和 β 控制惩罚假阳性和假阴性的权重，在本研究中设置为 0.5。添加 ε 项以确保损失函数的数值稳定性。

Local contrast normalization

为了促进分割模块的训练，我们将我们称为“局部对比度归一化”的响应归一化步骤应用于上采样块的特征图。它将每个 3D 响应图标准化为所有体素的零均值和单位方差。更具体地说，设 x ∈ R^C×D×H×W 是具有 C 个通道且维度为 D × H × W 的特征图。局部对比度归一化步骤将映射转换为 y ∈ R^C×D×H×W

其中 μc 和 σc 是特征图 x 的第 c 个通道内的体素强度的平均值和标准偏差。我们发现局部对比度归一化步骤不仅可以通过使其更快收敛来促进训练，而且还可以提高分割精度（详见补充讨论）。

在高层次上，Ua-Net 与 Mask-RCNN和特征金字塔网络 (FPN) 有相似之处。但是，总体目标和实施细节却大相径庭。首先，Ua-Net 的最终目标是分割，而 Mask-RCNN 的目标既是目标检测又是分割。因此，Mask-RCNN 有两个同样重要的并行头——一个用于检测，另一个用于 ROI 对齐后的分割。相比之下，Ua-Net 是一个两阶段模型，第二阶段只有分割头。其次，Ua-Net 旨在对原始图像分辨率进行分割。它与 FPN 的不同之处在于（1）它不像 FPN 那样执行多尺度分割，并且（2）它的自下而上（上采样）路径和自上而下路径的横向特征连接仅涉及裁剪包含检测到的 OAR 的图像/特征图区域，与 FPN 不同，自下而上和自上而下的路径都在整个图像/特征图上。这些设计考虑使模型能够将注意力集中在每个单独的 OAR 的精细和详细的分割上。