Automatic Segmentation of Head and Neck Tumors and Nodal Metastases in PET-CT scans

PET-CT扫描中头颈部肿瘤和淋巴结转移瘤的自动分割

摘要

放射组学是利用医学图像中的定量图像生物标记物来预测疾病特征，它依赖昂贵的感兴趣区域(ROI)人工注释来集中分析。本文提出了一种从FDG-PET和CT图像中自动分割头颈部肿瘤和淋巴结转移的方法。使用放射肿瘤学家手动描绘的ground truth感兴趣区，在PET-CT图像上训练全卷积神经网络(2D UNet和3D V-Net)，用于202名患者。结果表明，这两种模式具有互补性，在统计学上有显著改善，分别从仅使用CT和PET的分割的48.7%和58.2%的Dice Score系数(DSC)提高到双模态晚期融合方法的60.6%。我们还注意到，在这项任务中，2D实现的性能略优于类似的3D设计(最佳结果分别为60.6%和59.7%)。早期融合方法是将PET和CT图像作为一个图像的两个通道，晚期融合方法是先分别对PET和CT图像进行处理，得到两种图像的预测结果，然后分别乘以一定的权重计算得到最后的结果

方法

在这一部分中，我们描述了为H&N肿瘤的3D自动分割开发的数据集和算法。

数据集

该数据集是在放射组学研究的背景下在(Vallieres等人，2017年)中提出的，并可在癌症成像档案馆(TCIA)上获得(Clark等人，2013年；Vallieres等人，2017年)。在我们的分割、训练和评估中，放射治疗轮廓被用来作为ground truth。他们是由专家放射肿瘤学家绘制的，或者直接在PET-CT研究的CT上(31%的患者)，或者在专门用于治疗计划的不同的CT扫描上(69%)。(TCAI中一共有300例患者，其中31%共93名患者的放射线轮廓直接再PET-CT扫描的CT上绘制，用于治疗计划。69%共207名病人，在专门用于治疗计划的不同CT扫描上绘制放射线轮廓，并使用基于强度的自由形式可变形配准。将其放射/重采样至PET-CT扫描参考系。)在后一种情况下，轮廓被登记到PET-CT扫描(更多细节见(Valli`eres等人，2017年))。最初，一项PET-CT研究，以及一项专门的放射治疗计划CT，适用于魁北克四个机构的300名组织学证实的H&N癌患者。在我们的研究中，我们重点研究了202名患者的口咽肿瘤。每个中心的病例分布分别为72例、57例、54例和19例。集中在口咽部的动机是在受控的解剖学背景下操作。我们使用留一中心交叉验证（一共有四个机构，每次选取一个机构作为测试集，另外三个机构作为训练集）来估计对看不见的中心的概括。

预处理

使用三线性插值将CT和PET体积重采样为各向同性的1×1×1 mm体素间距。CT体积被限制在**[−150,150]霍斯菲尔德单位(HU)的范围内。然后，每个图像被裁剪成包含所有肿瘤(原发肿瘤和转移淋巴结)的144×144×144体素**的体积，并通过围绕包含这些肿瘤的最小边界框以体积为中心来包括口咽区域。每个样本获得单个ground truth mask，作为GTV和转移淋巴结的结合，并进一步与PET和CT图像类似地重采样到各向同性体积。所有CT和PET体积都如(NY‘ul et al.，2000)所建议的那样标准化，即对于给定的分割，从训练集学习平均直方图映射，并用于将所有训练和测试集的体素映射到标准化版本。(不是很懂，计算训练集的平均直方图映射，然后将测试集的体素也设置为计算得到的值？)

网络结构

我们使用NiftyNet(Gibson等人，2018年)来实现3D V-Net(Milletari等人，2016)和2D版本(称为2D V-Net，因为为了公平比较，它具有与3D V-Net类似的架构)。V-NET是一种3D体积全卷积CNN，基于并改进了2D对应的(U-NET)(Ronneberger等人，2015年)。该结构由四个下采样块(压缩)、四个上采样块(解压缩)和一个最终预测残差卷积块组成。下采样和上采样由卷积层执行(分别使用2×2×2滤波器的卷积和转置卷积，步长为2)，总共30个卷积层，具有RELU激活和最终的Softmax激活。在我们的实验中，输入和输出尺寸为144×144×144(2D版本为144×144×1)（自己的实验中，裁剪完的的体积大小也是144x144x144，但是在训练之前又在z轴进行了裁剪，最终的输入大小为48x144x144）。我们要么使用PET和CT作为多个输入通道的双模网络(称为早期融合)，要么使用单个通道作为输入。我们还通过平均两个不同的PET和CT网络的体素概率输出来评估晚期融合预测。

训练计划

我们使用标准的培训方案和超参数，如下所述。用于计算梯度的损失是二进制Dice相似系数(DSC)和交叉熵(CE)损失的组合，在(Isensee等人，2018年)中定义，并计算为LDSC+LCE。这种双重损失得益于交叉熵损失的平滑和有界梯度，以及用于评估的Dice分数的显式优化，以及它对类别失衡的稳健性。交叉熵损失的计算公式为
其中，ˆy∈[0，1]是Softmax输出，y∈{0，1}是ground truth mask，并计算所有体素的总和。Dice损失计算如下

翻译：

我们用Adam优化器(Kingma和Ba，2014年)训练网络，批大小为12, 200次迭代的学习率为0.0003，对应于训练损失平稳期。对于2D实现，迭代次数和批大小被增加到1000和36，以说明与全体积(3D中的每个迭代的全体积)相比更多的切片数量(在2D情况下为每次迭代单个切片)。使用NVIDIA Tesla V100 32 GB以及上述设置和超参数，2D和3D多模态V-Net(早期融合)的训练时间分别为4：47和0：49小时。同样，19个案例(即四个中心之一)的推理时间分别为17秒和16.8秒。

评估

为了评估模型的性能，我们使用了留一个中心交叉验证，即对于每个中心，我们将该中心作为测试集，其余三个中心作为训练集。我们报告所有患者的DSC为10次交叉中心验证运行的平均值。我们通过计算交叉中心验证来评估分割算法对未知中心的普适性，根据每个中心的案例数进行加权。报告的95%可信区间(CI)考虑了所有个体病例，与中心无关，并根据10次测试的平均分数计算。请注意，运行之间的差异来自网络的初始化和训练批次中观察的顺序。类似地，使用配对t检验对202例患者的平均DSC分数进行统计分析（t配对检验只是统计学的一种分析方法，和网络的训练没有关系）。（10次交叉中心验证：3个机构作为训练集，1个机构作为测试集，训练好的模型在测试集上运行10次，10次的平均值作为测试集的训练结果，10次运行之间的差异在于网络的初始化和训练批次中观察的顺序。）
为了减轻数据集与注释(在第4节中提到)相关的一些限制，我们评估了当从ground truth mask和预测中(例如，我们将阈值设为-150HU)移除低HU时的分割结果，因为CT下界限幅。

实验结果

定量分析

性能结果如表1所示。在单模态(PET或CT)上训练的网络与双模方法(早期或晚期融合)进行了比较。我们还将其与2D和3D实施进行比较。虽然在z轴(垂直于轴面)上的重采样对于2D分析是不必要的，但是我们观察到结果的改进，因为它确实起到了数据增强的作用。

结果表明，基于PET的分割效果明显优于基于CT的分割，且两者的晚期融合，分割效果更好。晚期融合方法(2D和3D V-Net)的DSC评分明显高于相应的PET和CT方法，经配对t检验p<0.05。3D架构的召回率高于2D架构(69.1%比62.1%，后期融合的召回率为62.1%)，而准确率较低(62.8%比69.4%)，反映了更大的3D预测。相应的1.4%和1.1%的平均预测利息量证实了这一点。过分割或欠分割是任务相关的，也可以由输出概率的判决阈值控制。为了进一步比较2D和3D架构的性能，我们基于后者的大小(即直径小于或大于4 cm，对应于T2和T3 TNM分期之间的界限)对它们进行评估(Huang and O‘Sullivan，2017)。我们注意到2D方法在小肿瘤上的表现尤其好于3D方法(+16%的DSC，+15%的精确度和+3%的召回率)，而这两种方法在较大的肿瘤上的DSC表现相当。
平均每个中心2D DSC评分分别为61.9%、59.8%、63.3%和51.0%(对应病例数分别为72、57、54和19例)。基于视觉检查，最后一个中心(代表最少)特别需要ground truth注释的质量控制，并且可能需要更多类似于该中心的训练数据来更好地概括。图1显示了后期融合2D V-Net为所有测试用例获得的DSC得分直方图，显示DSC模式在70%左右，几个DSC得分接近于零，使得平均DSC下降到60.6%。我们对低DSC异常值的内部视觉分析激发了对数据集的精选，以供将来分析(参见图4和第4节)。

在图2中，我们改变了晚期融合中PET和CT预测的权重，以调查这两种模式各自的相关性。对于每个体素，预测值计算为Ppred=α·Pct+(1−α)·Ppet，其中Pct和Pp
et是肿瘤预测的概率。请注意，表1中报告的结果是预测概率的平均值(α=0.5)，因为我们不想根据测试结果优化超参数。因此，图2仅用于探索和说明这两种模式的互补性，当α=0.4时获得最佳性能，并且当更加重视CT预测时，精度会大幅下降。

定性分析

在图3中，我们展示了分割结果的示例，并与基本事实注释进行了比较，以说明结合CT和PET模式的好处。图3(a-c)说明了在PET模式中检测到的假阳性的例子，通过在早期融合中包括CT信息来校正。类似地，图3(d-f)说明了CT模式中的大的过度分割的例子，通过使用PET进行了正确的校正。在图4中，我们提出了另外两个用PET和CT模式(热色PET)叠加的晚期融合分割结果的例子。图4(A)显示了PET诱导的假阳性示例，而图4(B)显示了不准确的地面真相示例，其中气管是肿瘤分割的一部分。该算法学会了(从其他训练样本中)丢弃这样一个不属于肿瘤的区域，并且在这个例子上的预测似乎比基本事实注释更好地分割了肿瘤。这也激发了定量结果中报告的ground truth和预测的阈值掩膜的评估。

讨论和结论

结果表明，PET-CT图像在放射组学研究中自动分割H&N肿瘤和转移淋巴结的潜力很大，也可能用于治疗计划(如放射治疗)。采用双峰(PET和CT晚期融合)2D V-net方法获得的结果最好，平均DSC为60.6%。通过分别关注代谢和形态学组织属性，PET和CT模式包括用于癌症病变分割的互补和协同信息。这种互补性在定量结果和图3中的定性结果中得到突出，其中CT、PET和PET-CT模式的DSC得分分别为48.7%、58.2%和60.6%(p值分别为3.2ePET-CT和单独模式之间的配对t检验的p值=3.2e−39和0.000052)，以及图3中的定性结果。2D和3D方法之间没有显著差异。使用3D方法的一个困难是z轴上的低分辨率，我们对z轴进行上采样以获得具有各向同性体素尺寸的输入(所有CT扫描在x轴、y轴和z轴上的原始平均像素间距分别为1.09、1.09、2.75 mm)。
注意，在(Gudi等人，2017年)中，CT和PET-CT分别获得了57%和69%的观察者间共识DSC，并有三位放射肿瘤学家的注释。虽然这些数据与本文使用的数据不同，但它提供了对任务难度的洞察，并表明自动切分可以从多个注释器学习稳健的策略。

值得一提的是数据集的局限性(图4(B)中所示的一个例子)，在大多数情况下在规划CT上进行注释，然后注册到FDGPET和CT卷。鉴于这些结果和局限性，这项工作为未来更大规模的研究奠定了道路，包括对当前数据集的数据管理，纳入我们计划在不久的将来开发的不同中心的其他数据集，以及比较各种最近的架构和融合策略。还将开发一种在全身扫描中检测口咽区域的自动管道，以绕过拟议方法的限制，即将输入体积集中在肿瘤周围。

在未来的工作中，我们还将分别分析肿瘤和转移结节的性能，并评估自动分割算法在放射组学研究中的可用性，首先比较人工标注和自动分割的感兴趣区提取的特征。从自动分割中提取的特征随后将在标准放射组学研究中进行评估，以试图揭示和预测疾病特征。最后，在MICCAI2020的HECKTOR挑战赛的背景下，将对这些数据的分割算法进行广泛的比较。