论文阅读：Inferring the 3D Standing Spine Posture from 2D Radiographs

Inferring the 3D Standing Spine Posture from 2D Radiographs

从2D x光片推断三维站立的脊柱姿势

前提：这篇论文网络细节不是很明确，作者将论文扩展发到了一个四区的SCI上，有兴趣可以去看看。

摘要

治疗退行性脊柱疾病需要在3D中了解单个脊柱的解剖结构和曲率。在自然负重下的脊柱直立姿势(即站立)对于这种生物力学分析是至关重要的。对躺卧的患者进行3D体积成像(如CT和MRI)。另一方面，x光片是在直立姿势拍摄的，但结果是2D投影。这项工作旨在整合这两个领域，也就是说，它将x光片显示的脊柱垂直曲率与CT成像显示的脊柱三维形状相结合，从而合成自然加载的脊柱垂直三维模型。具体来说，我们提出了一种新的椎体神经网络架构，称为TransVert，通过正交2D x线片推断脊柱的3D姿势。我们在数字化重建x线片上验证了我们的架构，实现了95.52%的3D重建Dice，表明几乎完美的2d - 3D域转换。将我们的模型应用于临床x光片，我们首次成功地合成了全3d、直立、患者特有的脊柱模型。
关键词:三维重建·全卷积网络·脊柱姿势·数字重建x线片

1、介绍

脊柱的生物力学研究及其在直立状态下的负荷分析是一个活跃的研究课题，特别是在脊柱疾病[1]病例中。最常见的脊柱负荷评估方法是使用所有患者的通用脊柱计算模型，或者从磁共振成像(MRI)或计算机断层扫描(CT)[3]中获取受试者特定模型（subject-specific models）。虽然这些典型的3D图像采集方案获取了丰富的3D解剖学信息，但它们要求患者俯卧或仰卧位(胸部或背部躺卧)，以便对脊柱进行成像。但是，分析脊柱的形状和椎体的排列需要在承受重量的情况下，在生理上直立站立的位置进行，这使得二维平片成为事实上的选择。这两个领域的结合对于全面评估生物力学情况具有临床意义，即在站立姿势下捕捉患者特有的复杂病理脊柱排列，并具有3D信息[2,3,8]。
在文献中，已经提出了许多基于配准的方法来关联二维x线片和三维CT或MR图像。在[8]中，作者建议对腰椎的三维数据和二维矢状位片进行粗略的人工配准。为了同样的目的，在[4]中，椎体的人工标注作为在直立站立位置测量椎体方向的指南。这些方法费时费力，容易出错。此外，这两项研究都只使用矢状位片（ sagittal radiographs ）来定位椎体，而忽略了冠状位（coronal）的改变，冠状位的改变是脊柱自然曲率的一个强有力的指标。针对这一目标，[9]引入了一种自动3D-2D脊柱配准算法，其中作者提出了一种基于多阶段优化的配准方法，通过引入一个度量来比较CT投影和x线片。然而，这个度量是手工制作的，有大量参数，并不是基于学习的，因此限制了它的可推广性。在[10]中，脊柱的三维重构是使用名为“EOS”的双平面x光设备重建的。阻碍其适用性的是高昂的设备成本和缺乏其存在的临床常规。近年来，利用深度学习的方法来研究二维图像的三维重建问题。Ying等人[12]提出了一种与我们最接近的方法，他们引入了一种深度神经网络，使用对抗网络来合成给定正交x线片的3D CT图像。然而，这个模型是高度记忆密集型的，并不能在3D中合成较小的解剖结构，如椎骨。此外，它仅在数字重建x线片(DRR)上进行评估，其临床适用性仍有待验证。
Motivation从二维x线片图像中以解剖直立的位置对脊柱进行三维重建的问题依赖于从x线片中检索信息，这是一个三维物体的二维投影。脊柱的矢状面（sagittal ）重塑以椎体和椎体的形状及其在矢状(左右)轴周围的方向的形式捕捉关键信息。

斜体原文：Spine’s sagittal reformation captures crucial information in the form of the vertebral body’s and process’ shape and its orientation around the sagittal (left-right) axis.

sagittal radiographs 是脊柱腰区的侧视图，或称矢状面图像

coronal是脊柱的正面图，也称冠状面

然而，其围绕颅尾轴和前后轴的方向是模糊的(见Fig.1)。

二维图像到三维形状的转换。网络输入是二维正交视图（orthogonal view）椎体patches和表示感兴趣椎体的质心（VBC：椎体中心）。

当结合矢状面和冠状面重建(或侧位和a.p. x线片)时，可以得到这些信息。为此，我们提出了一种完全监督，计算效率和无配准的方法，结合矢状和冠状二维图像来合成椎体的三维形状模型。具体地说:

我们引入了一种新颖的全卷积网络(FCN)架构，用于融合正交x线片生成三维形状。
我们确定了一种方法，通过CT三维椎体的监督，在CT生成的x线片上训练网络。
为了验证了我们的方法，我们在数字重建x线片上获得了95.52%的骰子得分。我们还成功地在真实的临床x光片上重建了患者特有的三维脊柱模型。

2、方法

从二维信息生成三维形状是一个不适定问题。为了解决这个问题，我们利用来自两个正交的x线片和对感兴趣的椎体的注释信息，同时依赖于通过网络学习的先验形状。

2.1、TransVert: Translating 2D Information to 3D Shapes

TransVert:将2D信息转换为3D形状
2d-to-3d合成的网络需要满足以下要求:

首先，需要将矢状面和冠状面投影中的信息进行适当的组合来恢复三维信息。
第二，从二维投影中恢复三维形状本质上是一个不适定的问题，需要整合先验知识。
最后，由于伽玛射线源的锥形束，某些椎体(靠近扫描外围)在x线片上的尺寸比它们的真实尺寸更大。在重建三维模型时，要消除这种影响，即不能单纯以图像为基础进行映射。

我们通过提出TransVert来解决这些需求。

Overview

TransVert需要四个二维输入，矢状和冠状的椎体图像补丁和它们对应的标注图像表示感兴趣的椎体(VOI)。

我们预期的锥体3D形状，y，as a discrete voxel-map:

G表示TransVert的映射

X_S：2D锥体的侧面

X_c：2D锥体的正面

y_s，y_c：侧面和正面的VOI

在我们的案例中，VOI注释图像是通过在椎体质心周围放置一个半径为1的椎形心（the vertebral centroid）获得的。我们分析了更密集的注释选择(椎体和全椎体轮廓：vertebral body and full vertebral masks)。理想情况下，训练TransVert 需要x射线图像和相应的“真实世界”3D脊柱模型。然而，这种对应并不存在，事实上，这正是我们想要解决的问题。因此，TransVert在由CT图像构建的矢状和冠状面数字x线片(DRR：digitally reconstructed radiographs)上训练。该算法由相应CT图像的体素级、椎体分割掩模（voxel-level, vertebral segmentation masks）进行监督。由于DRR在外观上与真实的x光片相似，DRR训练的TransVert 结构以及健壮的训练机制，可以很容易地部署在临床x光片上。

Architecture
TransVert由三个区块组成:

一个2D矢状encoder，
一个2D冠状encoder
一个3Ddecoder。
这三个区块由一个map&fuse区块组合。参考图2.

TransVert的体系结构。我们的模型是由矢状和冠状的2D编码器(红色：self-attention 模块)，a ‘map&fuse’ block，和一个3D解码器组成。(颜色图在线)

map&fuse块负责将每个矢状和冠状视图的2D表示映射为中间3D潜在表示，然后通过通道级联将它们融合为单个3D表示。

The map&fuse block is responsible for mapping 2D representations of each the sagittal and coronal views into intermediate 3D latent representations followed by fusing them into a single 3D representation by channel-wise concatenation.

这个3D表示被解码器解码成可行的三维体素化（ 3D voxelized ）表示。请注意，中间的3D表示是由正交视图构造的。因此，map&fuse块由各向异性的卷积组成（anisotropic convolutions），在需要扩展的维度上具有各向异性。例如:冠状面需要扩大前后尺寸。因此，卷积步幅和填充方向对每个视图都是正交的。在网络编码器的输入，椎体图像和VOI-注释的结合使用自我注意层（self-attention layer）。研究发现，注意机制比单纯融合具有更好的表现。

This representation is then decoded into a viable 3D voxelized representation by the decoder. Note that the intermediate 3D representation is constructed from orthogonal views. Therefore, map&fuse block consists of anisotropic convolutions, with an anisotropy along the dimensions that need to be expanded. For example: the anterior-posterior dimension needs to be expanded for a coronal view.Consequently, the convolutional strides and padding directions are orthogonal for each of the view. At the network encoders’ input, the vertebral images and VOI-annotations are combined using a self-attention layer. It was empirically observed that the attention mechanism yielded a better performance than a naive fusion by concatenating them as multiple channels.

Loss
单独使用回归损失会导致收敛到一个平均(或中间)形状预测的局部最优，特别是在椎体的高度变化区域，如椎突。通过在全局范围内检查预测有效性的对抗部件，来增加损失，从而达到纠正。因此，TransVert通过优化基于L₁距离的回归损失和基于最小二乘GAN (LSGAN[5])的对抗性损失组合，在完全监督的方式下进行训练。形式上，通过最小化以下损失来训练TransVert和判别器组合:

D：判别器网络

G：TranVert

α_G和α_D：损失权重。固定值：α_G=10，α_D=0.1
y：y是包含{0,i}的二值，i∈{8,9,…24}被定义为从T1到L5的椎体指数。

迫使网络预测椎体指数隐含地合并了与椎体指数形状相关的额外先验。关于判别器结构和对抗性训练制度的细节在补充材料中提供。该网络是在Quadro P6000 GPU上使用Pytorch框架实现的。使用初始学习率为0.0001的Adam优化器训练直到收敛。

3、结论

在本节中，我们描述了DRR的创建，提出了一项消融研究，定量分析了各种结构构件的贡献，比较了各种VOI-注释类型，并最终在真实的临床x线片上部署TransVert。

3.1、数据

回想一下，TransVert的工作有两种数据模式:它在CT图像中提取的DRR上进行训练，同时由相应的3D分割面具进行监督，并应用在临床x片上。
CT data
我们使用两个数据集:一个公开可用的用于肺结节检测的数据集，有800个胸部CT扫描[13]，一个内部数据集，有154个CT扫描。总之，我们使用约12 k的椎骨分割5:1形成训练和验证集，3-fold交叉验证结果。值得注意的是，由于腰椎位于肺中心，可见度低。
数据准备:使用[11]对CT扫描进行分段，生成的mark由经验丰富的神经放射科医生进行验证，以便在研究中只考虑准确的masks。这些椎体mask用于监督。使用射线投射方法[7]生成相应的数字重建x线片(DRR)，其中，从辐射源(焦点)到数字重建x线片(DRR)图像上的每个像素画一条线，并计算这条线上的CT强度积分。这过程的参数包括辐射源到探测器(=180厘米)和辐射源到目标的距离(=150厘米)。在生成矢状面和冠状面数字重建x线片(DRR)后，在每个椎体质心周围提取大小为64×64的patches，构成TransVert图像输入。第二个输入，即VOI-注释，可以从投影分割mask中提取出来。

临床放射学我们对30例患者的相应侧位和前后位(a.p.)投影进行临床验证。源到探测器和源到目标的距离等采集参数与生成DRR时使用的参数相似。使用[6]在两个视图上自动生成 VOI-annotations 所需的椎体质心。

数据归一化TransVert在DRRs训练，并在临床x光片上进行测试。这些数据形式有不同的强度范围，需要标准化。我们观察到z-score标准化工作得很好。

U_I是均值

σ_I是标准差

3.2、实验

我们进行了三组实验来验证我们提出的方法，旨在分析TransVert的结构、输入到其中的数据，以及最后它在临床环境中的适用性。需要注意的是，只有在处理DRRs和CT图像的实验中才能进行与ground truth的定量比较。通过计算CT掩模预测的3D椎体掩模与其ground truth之间的Dice系数和Hausdorff距离，比较各种设置的性能评价。

分析TransVert的架构提出的TransVert包括以下结构选择:

融合矢状和冠状视图， map&fuse块中的各向异性卷积，
结合图像和 VOI-annotation的self-attention layer，
最后，损失函数上的一个对抗成分。
对这些成分的消融研究报告在表1中。

tabel1：结构消融研究:随着每个组件的添加，性能逐步提高。(椎体质心是这里的VOI-annotations ）

首先，我们需要两个视图吗？
为此，我们评估了试图仅从矢状面图像重建三维形状的模型的性能

观察到，简单的视图融合已经优于“仅矢状面”（sagittal only）重建。

我们需要anisotropic convolutions吗？
为此，我们比较了两个版本的map&fuse:一个具有简单的外积，用于组合正交视图(朴素视图-融合：Naive View-Fusion (Outer Product))，另一个具有anisotropic convolutions (TransVert)。

此外，各向异性卷积（anisotropicconvolutions）优于使用外积的视图融合（outer-products）。这可以归因于后者涉及的2d -to- 3d学习组件。

我们需要在TransVert之上的self-attention layer吗？

观察到在编码器和对抗性训练制度中合并自我注意层逐步提高了性能，结果是95.5%的Dice和5.11毫米的Hausdorff Distance。

图3显示了使用提出的重建的三维形状模型。

在DRRs上进行TransVert形状建模:

第一列表示图像输入。

第二和第三列显示ground truth (GT)椎体面具，

第四列显示预测的3D形状模型。

最后一列显示GT点云和预测之间的重叠倒角距离地图

从这些形状中提取一个点云(有2048个点)，我们还演示了一个点方向的倒角距离地图（point-wise Chamfer distance map）。观察椎体后部区域(椎突)在输入的图像中几乎不可见。尽管如此，TransVert有能力恢复这个过程，尽管在预测和ground truth之间存在一定的分歧。

**Analysing VOI-Annotation Type.**回想一下，除了图像输入外，TransVert还需要一个指示感兴趣椎体的辅助输入。我们认为椎体质心就足够了。在本研究中，我们表明我们对椎体质心的选择在一个水平上可与表2中表格的密度更大的全椎体注释相媲美。

tabel2： VOI annotation研究:从密集标注(V2V)到稀疏标注(C2V)的性能下降幅度较小，同时标注工作减少了多样性。

我们将我们的 centoids-to-vertebra (C2V)设置与另外两个更密集的注释进行比较:一个是椎体在DRR中注释(B2V)，另一个是整个椎体注释(V2V)。作为基线，我们包括一个没有任何 VOI-annotation 的设置作为辅助输入。注意，注释输入可以使Dice系数提高大约20%。我们可以看到，最密集的V2V标注与我们的C2V标注相比，只有<1%的差异。因此，C2V是一个明显的选择，因为它易于标记质心，更因为现有的自动标签方法。

临床x线片的2d - 3d转换 TransVert将单个椎体图像及其质心一起运行。将预测的三维脊椎模型叠加在相应的三维质心位置即可构建出脊柱的三维模型。椎体沿轴向和冠状轴的位置是由侧面面改造得到的，侧面面位置是由正面面变形得到的。图4阐明了这一过程。

图4：完整的三维脊柱模型(:第一行)基于DRR的脊柱模型重建与CTground truth mask的比较。
(第一行)由真实临床x光片构建的3D患者特异性脊柱模型。(放大观看效果最佳)

第一行显示了基于2D DRRs的三维脊柱重建，并将其与ground truth进行了比较。更重要的是，第二行描述了在重建患者特有的直立脊柱的3D姿势时成功使用TransVert的情况。注意，这些情况下不存在3D ground truth脊柱模型。我们可视化了射线图上的2D分割叠加以及3D形状模型的矢量图和冠状图，前者（指2D分割叠加）同样出现在X射线图上。观察3D模型的姿势与x光片的姿势匹配。

4、结论

我们提出了TransVert，一种新的架构，训练用于从2D矢状和冠状x线片和稀疏质心注释推断全3d脊柱模型。我们确定了一种在完全监督的方式下在DRRs上进行全监督的方法。在对TransVert的架构组件进行烧蚀研究的同时，我们展示了在真实临床x线片上部署它的成功用例。