数据集

肺结节,PE肺栓塞,肝脏,PD肺部疾病
CIMT RoI: 脑肿瘤

LUNA16数据集是最大公用肺结节数据集LIDC-IDRI的子集,LIDC-IDRI它包括1018个低剂量的肺部CT影像。LIDC-IDRI删除了切片厚度大于3mm和肺结节小于3mm的CT影像,剩下的就是LUNA16数据集了。

奇怪数据集:来自“亚临床动脉粥样硬化发病率作为退役职业足球运动员心血管风险的指标”论文 研究中风上肢偏瘫患者进行强制性使用运动疗法(constraint-inducedmovement therapy , CIMT)

(intinma-media interface segmentation)内中膜界面分割

CIMT定义为颈动脉远端管腔内膜和中膜外膜界面之间的距离。CIMT测量是通过手动追踪感兴趣区域ROI(region of interest)中的腔内膜和中外膜界面,然后计算被追踪界面之间的的平均距离。本文将此界面分割任务制定为3类分类问题,其中目标是将ROI中的每个像素分为3类:腔内膜界面上的像素,中-外膜界面上的像素,接口像素。(3分类)

迁移学习

医学图像分析和自然图像分析在方法上出入不大,都是用目前最流行的深度神经网络来做分类,分割,检测等等。和自然图像比,医学图像一个很棘手的问题是标注起来很困难,往往在大多数的情况下,数据规模很难和自然图像数据库相匹及。

迁移学习”是一种很流行的方法,因为这样模型不是从零开始学习,而是从大量的数据集中预训练得到的模型开始。这样,你就可以利用以前的学习成果,让模型从一个更优的起点开始训练,稳赢在起跑线上。迁移学习可以让我们在他人训练过的模型基础上进行小改动便可投入使用到自己的问题中来。在计算机视觉领域,ImageNet数据集会被广泛用作预训练,因为它规模足够大(超过1400万张标记的图片),其中120万个图像分为1000个类别有助于训练一个普适模型。这1,000个分类基本上都来源于我们的日常生活,比如说猫猫狗狗的种类,各种家庭用品,日常通勤工具等等。在迁移学习中,这些预训练的网络对于ImageNet数据集外的图片也表现出了很好的泛化性能,也包括医学图像。事实上,在医学影像处理中,从ImageNet的预训练模型开始做迁移学习已经成为了一个标配,编程实现也非常简单,那些预训练好的模型结构和权重都可以直接下载使用。

从ImageNet预训练的模型在迁移到医学影像中存在两个问题:

  1. 模型的输入必须是二维的。为了使用预训练好的模型,下游的图像应该尽量保持预处理和ImageNet一致。ImageNet中的自然图像都是二维的RGB图,而大多数的医学影像都是三维的,比如CT,核磁共振(MRI),长宽高中包含了大量的空间结构信息。如果用ImageNet中的预训练模型,势必要把三维的影像切开成一片片的二维图,然后输入到模型中去训练,这样做确实利用了迁移学习的优点,但是破坏了大量有用的,并且对于医学影像来说很独特也很重要的空间信息。

  2. 医学图像和自然图像差别太大。ImageNet的预训练模型在同样是自然图像的数据集中迁移学习表现卓越,那是因为大多数常见的物品都能被预训练所涵盖,只需要稍做微调,模型就可以适用于其他特定的任务。但对于医学影像,它们的成像原理和自然图像完全不同,图像的明暗有着特殊的含义,图像中包含的人体内部结构也是自然图像数据集中完全没有的。因此,从自然图像迁移学习到医学影像的效果并没有像自然图像之间的迁移学习那么的明显。

一般而言,用3D的神经网络直接处理三维的图像信息效果会好于2D的网络。我们发现,对于三维的医学影像,目前还没有普遍可用的3D预训练模型。由于模型参数多,数据量小,从头开始训练一个3D的模型又很难收敛,容易过拟合或者欠拟合。

为何不像ImageNet一样预训练一些普遍适用的3D模型,专门用于下游的三维医学影像处理呢?

要回答这个问题并不容易,要知道像ImageNet这样规模的标记数据集是很难在医学影像上实现的。即便是猫啊狗啊这样的标签,人工地标记1400万张图也能花费大量的时间和资金,而像医学影像这类的,如何去设计一个个的标签?本身医生在很多情况下也吃不准,需要用到活体检验来取得比较客观的疾病标签。并且有那么繁杂疾病类别,大类里面还细分小类,很容易出现标签的不平衡问题。总之,医学影像的ImageNet还是很难建的,很期待这样大规模的标记医学数据集能早日问世。在大规模标记的医学影像数据集问世之前,也不是什么也做不了。

我们在寻找一个不需要任何人工标签,也能让深度模型从数据本身直接学习到视觉信息的方法。自监督学习(self-supervised
learning)可以被看作是深度学习(“人工智能”)的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。在计算机视觉,尤其是自然图像处理方面,自监督学习已经受到了广泛的关注,大量的自监督学习方法的提出,使得预训练的模型能几乎和ImageNet预训练相媲美(Goyal et al. arXiv 2019)。(Goyal, P.,
Mahajan, D., Gupta, A. and Misra, I., 2019. Scaling and benchmarking
self-supervised visual representation learning. arXiv preprint
arXiv:1905.01235.)值得注意的是,自监督学习完全不需要人工标签数据,它的“人工”智能体现在我们如何去设计这个自监督的机制。我们认为自监督学习能在医学影像处理提供强有力的支持是基于两点:

  1. 医学影像数据本身不比自然图像少。

  2. 模型可以直接在医学影像数据上学习特征。

刚才讲到如何去设计自监督机制是非常考验创造力的,通过这样一个机制,模型可以从多源的数据中,学习到普适的视觉特征,能很好地泛化到多个任务。因此自监督学习花心思到点不在于数据收集和专业标注上,而是设计有效的自我学习机制。我们提出的自监督学习方法归纳起来就是在原图上做一些改动,然后让模型去还原原图。如此一来,原图本身成为了监督模型训练的标签,符合自监督学习的初衷,从数据中直接学习特征。

框架结构

在图像恢复任务中,我们将L1-norm distance L1范数距离用作损失函数。

我们统一的自我监督学习框架概述。给定一个图像,我们首先从随机位置提取任意大小的补丁X,然后如图4所示对它们进行变换。ModelGenesis通过从变换后的X中恢复原始补丁X来学习视觉表示

我们提出的自我监督学习框架由两个部分组成:图像转换(图4中所示)和图像恢复,其中采用编码器-解码器体系结构的Models Genesis通过还原原始补丁X,从转换后的补丁〜X进行训练,旨在学习通用的视觉特征

对于CT和MRI中的3D应用,我们研究了基于2D切片的解决方案和基于3D体积的解决方案的功能;对于X射线和超声中的2D应用,我们将Model Genesis与ImageNet的随机初始化和微调进行了比较。

3D U-Net体系结构6用于五个3D应用程序中。带有ResNet-18编码器7的U-Net架构用于七个2D应用程序中。

非线性变换

大家应该很熟悉在美图秀秀或者Photoshop里面调色彩曲线,这个在自然图像中非常常见,如果曲线调的好,由于不同的光线组合,很可能让你觉得调完后的照片比原图还逼真。但是医学影像和自然图片不同,拿CT举例,首先它们是没有光照这一说的,更重要的是,CT中的像素值是和人体内的结构有着很大的联系的。请看下面这张表,它反应了CT中的像素值,英文叫Hounsfield Units,与人体中的空气,脂肪,水,骨骼,以及各个重要器官的对应关系。请问看完这张表你有什么想法呢?

CT值 相对强度值传达了有关基础结构和器官的重要信息

我们提出了一种基于非线性的新型自监督训练方案,该模型可以学习恢复使用一组非线性函数转换后的输入图像的强度值the
intensity values。基本原理是CT扫描中的绝对强度值(即Hounsfield单位)或其他成像方式中的相对强度值传达了有关基础结构和器官的重要信息[2,5]。因此,该训练方案使模型能够学习图像中存在的解剖结构的外观。空气 脂肪 水 骨质疏松 皮质,,实质肺 肾脏 肝脏 淋巴结 肌肉

因为对于CT来说,引入非线性变换有了这个特性,对于各个人体结构,相当于我们有了精确到像素级别的标签了。如果我们对原来的CT做一点手脚,比如把空气的像素值变到水的像素值范围,把水变成骨骼,把血管变成肌肉等等,输入到模型中。注意哦,我们只是对像素值做了手脚,各个组织的外观特征还在那儿,比如血管还是那样子,只是像素范围已经不是血管应该有的范围了。那么如果模型看完以后感觉到不对,并且能根据这个组织的外观把像素还原到正确的范围,是不是相当于它认出来了这个组织的类别?非线性变换的方法应运而生!

实现的方法非常简单,就是随机生成色彩变换曲线,加到原来的图片中,就能得到一张经过非线性变换的图片。这里要注意的点是:这个色彩变换曲线需要是单调的,单调递增还是递减无所谓。为什么非得是单调的呢?因为需要在变换后的图像与原图之间建立起一一对应的关系,不然模型很难恢复的。举一个非常极端的例子,如果变换曲线是一条平躺的直线,也就是不管原像素值是什么,都变换到一个固定的值,那变换后的图就是一张灰图了,里面没有什么信息。另外,这个方法其实是让模型根据图中的纹理信息和像素值的相对信息来学习特征,也就是学习了一条色彩曲线反函数,那么函数的定义就是一个任何x只能对应一个y,所以反函数的话就是一个y只能对应一个x。因此,这个色彩曲线必须是单调递增或者单调递减的。随机生成这样的变换曲线有很多不同的方法,我们使用的是Bezier Curve,用两个控制点来保证曲线在[0, 1]区间内的单调性质。理论上对于一幅图,可以生成无穷多个变换。

为了保持可感知的解剖结构的外观,我们使非线性强度变换函数保持单调,从而可以为不同值的像素分配新的不同值,为了将变换函数应用于CT图像,我们首先将HU值裁剪为[-1000,1000]的范围,然后针对每个CT图像切片将其归一化为[0,1]。相反,将X射线图像直接归一化为[0,1],而没有强度限幅。

为了实现这个想法,我们使用Bézier曲线[14],这是一个平滑且单调的变换函数,我们利用等式中的四个控制点(P0-P3)。 1修改变换函数的形状(P0= P1and P2=
P3时变换函数是线性函数P0“=(0,0)
and P3=(1,1)设置为递增函数(如示例1、3和5所示),相反,将其设置为递减函数(如示例2、4和6所示) 。控制点是随机生成的,以提供更多方差。

其中t是沿线的长度的分数

动图:一阶意义:由 P0 至 P1 的连续点, 描述的一条线段

由 P0 至 P1 的连续点 Q0,描述一条线段。

  由 P1 至 P2 的连续点 Q1,描述一条线段。 由 Q0 至 Q1 的连续点 B(t),描述一条二次贝塞尔曲线



像素重组

这个方法的思路来源于自然图像处理,其中有两篇论文比较相关的前期工作,一篇是自然图像的(Kang et al. arXiv 2017),另一篇是医学影像的(Chen et
al. MedIA 2019)。同样是像素位置的打乱,我们的方法和(Kang et al. arXiv
2017)最大的不同在于

我们的方法直接作用在原图上,并没有对特征图做像素打乱

他们们的打乱窗口是有规律的sliding window,我们是随机的确定窗口的大小和位置

他们的目的是正则化模型的训练,但是我们是为了训练视觉特征

和(Chen et al. MedIA 2019)的区别是

他们更像是patch shuffling,patch内的像素是不打乱的,并且两个patches之间的距离可以很远,而我们只是打乱局部的像素,是pixel
shuffling

方法层面很容易理解,如下图所示,确定一个小框,打乱这个框框内的像素位置,多次重复这个过程,就得到了一幅变换后的图像了。为什么要强调“局部”打乱呢?

卷积层的感知域大小是有限的。如果打乱的像素距离过远,复原原图的难度就会增加,如果距离实在太大,那模型就只能凭空预测像素值了。我们希望经过这个变换后,图像的全局信息能保留下来。也就是模型可以看到这个结构的大概形状,然后学习复原这个结构的细节纹理和边缘信息。

提供了使用在CT(行1-2)和X射线(行3-4)图像上应用的多个窗口大小(第2-7列)的局部像素混洗的示意图

。窗口大小可以控制失真程度。。当应用5ˆ5窗口时,形状会得到很大的保持;当窗尺寸等于20 ˆ 20时,肋几乎看不见。此外,窗的各种长宽比在不同方向上也带来更多局部变化。以最后两列中还原的X射线补丁为例,窗口大小为h《w(第6列)扭曲了脊椎的边界,同时保留了肋骨的整体外观。另一方面,当h》w(第7列)时,几乎看不见肋骨,但脊柱和心脏的宽度几乎不变。我们提出局部像素改组以丰富补丁的局部变化,而不会显着损害补丁的整体结构,这鼓励模型学习对象的形状和边界以及对象不同部分的相对布局。具体来说,对于每个输入色块,我们从色块中随机选择1,000个窗口,然后按顺序对每个窗口内的像素进行混洗。在数学上,让我们考虑一个大小为mˆn的小窗口W

向外填充

作为一种新的自我监督学习训练方案,这使模型可以学习器官的整体几何形状和空间布局。提供了在CT(第1-3行)和X射线(第4-6行)图像中使用各种窗口大小进行外涂的转换示意图。第一列和最后一列分别表示原始补丁和最终转换的补丁。从第2列到第6列,我们生成一个新窗口(红色框)并将其与现有窗口合并。此外,为防止任务过于困难甚至无法解决,我们将遮罩的周围区域限制为整个补丁的1 /4。

我们生成了任意数量小于10)的具有各种大小和纵横比的窗口,并将它们彼此叠加,从而形成了一个形状复杂的单个窗口。将合并的窗口应用于补丁时,我们将窗口内部的补丁区域暴露在外,并用随机数掩盖其周围。

向外填充就是把原图的边缘一圈给遮住,然后让模型填充;向内填充就是把原图的中间一些区域遮住,让模型填充。遮住的方法是用一些随机的数替代原来的像素值。从难度来讲,向外填充比向内填充更难,原因是向内填充,被遮住的区域的四周是知道的,模型至少可以用简单的差值来填充,但是向外填充,就一边的结构是知道的,外面就全靠猜了,或者说就只能先“分析”里面已知的结构来推测外围的结构。实验结果也表明,向外填充学习到的视觉特征更强。

学习方法的运用

上面介绍了四种不同的图像变换形式,我们可以很容易地将它们合起来用。给定一幅图,可以同时经历一个或者多个变换。这个自监督学习框架妙就妙在这一点,它可以收纳大量的图像变换,最终把它们都吸收成一个“图像恢复”任务,给模型去学习视觉特征。所以这个框架的包容性是很强的。

自监督学习的研究其实到目前为止是有很多不同的方法被提出(Jing et al. arXiv 2019),但是它们之间都不太好融合,原因是用于训练网络拓扑结构不太一样,或者网络的输入和输出不一样,举例来讲:

  1. 拼图游戏(Noroozi
    et al. ECCV 2016)需要孪生网络结构才能训练

  2. 上色游戏(Zhang
    et al. ECCV 2016)需要一个类似全卷机的结构能训练

  3. 旋转游戏(Spyros
    et al. ICLR 2018)的输入是经过旋转的图像,输出是角度预测

用我们的方法,所有的融合都发生在训练网络之前,所以能做到非常好地融合各种有效的图像变换。在本次工作中,我们的做法是给每个图像变换设置一个发生的概率,给定一幅图,就能实现一个或者多个变换复合应用在图像上了。当然也不排除什么变换都不发生的情况。需要特意指出的是,我们规定向内填充和向外填充是不能同时发生的,原因是我们怕它们同时出现的话,留下的图像信息太少了。

每个变换都以预定义的概率独立应用于补丁,而画外和画内被认为是互斥的。因此,除了四个原始的单个转换之外,此过程还产生了另外八个以红色框起的转换,包括一个标识映射(即V:无,表示未选择四个单个转换)和七个组合的转换,每个转换下均指示以红色框住的补丁

为了清楚起见,我们进一步将训练方案定义为使用上述十二种转换中的任何一种转换补丁并训练模型以从转换后的补丁中恢复原始补丁的过程。为了方便起见,我们将个体训练方案称为使用一个特定个体转换的方案。最后,我们的统一学习框架随机利用所有具有预定义概率的变换,并训练模型以从经历任何可能变换的补丁中恢复原始补丁

实验结果

目标图像分类和分割任务的性能分别通过至少10次试验分别由AUC(曲线下面积)和IoU(联合上的交点)衡量。我们报告了具有均值和标准差的性能指标,并根据独立的两样本t检验two-sample t-test.进一步提出了统计分析。independent samples t-test( unpaired two sample t-test),用来比较两组独立样本平均值;

多角度学习比较

消融研究:从多个角度学习可得出可靠的模型

肺结节,PE肺栓塞,肝脏,脑肿瘤(MRI)

(PD肺部疾病,CIMT RoI: 没用)

我们的统一框架与针对五个3D目标任务的每个建议的自我监督计划之间的比较。统计分析在每列中以红色突出显示的前2个模型之间进行。虽然没有明确的赢家

图是结果,实验表明融合多个不同的变换,不一定能在不同的下游任务中都取得最好的结果,但是融合的方法是效果最稳定的,不是第一就是第二,并且第一和第二没有统计上的差别(p-value>0.05)。这个结果是说得通的,因为不同的图形变化我们有提到,模型学到的视觉特征是有差异,从non-linear学到的特征可能就适用于这个下游任务,但不一定适合另外的任务。和ImageNet比较的话,可以这么理解:从ImageNet中得到的预训练模型之所以适用于那么多的下游任务,就是因为ImageNet里面的目标类别丰富。它一共有1000个物体的类,从不同的类中学到的视觉特征是有差异的。试想如果ImageNet就只有两类(猫和狗),从这个数据集中训练的模型就不那么鲁棒了。

但我们的统一框架在所有目标任务上都更加强大,既可以产生最佳结果,也可以提供与最佳模型相当的性能(p±0.05),可以产生最佳结果或与最佳模型可比的性能在以红色突出显示的每一行的前2个模型之间进行了统计分析。

p-value>0.05:无统计学差异

预训练与从头开始训练比较

肺结节,PE肺栓塞,肝脏,脑肿瘤(MRI)

证明了从Genesis Chest CT进行微调的模型始终优于从头开始训练的模型。我们的统计分析表明,对于所研究的所有目标任务,性能提升都非常显著。

我们的模型是在肺部CT中进行预训练的,我们来看一下他在这五个目标任务中分别变现如何

具体来说,对于目标任务和代理任务在同一域中的NCC和NCS,与从头开始训练相比,Genesis Chest CT的初始化分别使AUC和IoU得分分别提高4和3分。对于ECC,在影响器官的疾病和数据集本身方面,目标任务和代理任务都是不同的。然而,Genesis Chest CT比从头开始训练方面取得了显着改善,AUC增加了8点。创世纪胸部CT继续为LCS和BMS带来可观的IoU增益,即使它们与代理任务的域距离最大。据我们所知,我们是第一个研究医学影像中跨域自我监督学习的人。鉴于Genesis Chest CT仅在Check CT上进行了预训练,因此值得注意的是,我们的模型可以推广到不同的疾病,器官,数据集甚至模式。

这是最基本的结果了,3D模型由于模型参数大,一般来说没有像2D的模型那么容易训练。我们对每个3D的任务都分别做了10次的训练,比较平均值和方差,发现从头开始训练的3D模型和预训练后的3D模型相比,得到的效果不够稳定(方差很大),从而导致均值也较低。对每个任务的结果做t-test分析后,我们发现预训练的效果是十分显著的。这里要提一嘴的是我们只预训练了一个3D模型,并没有根据下游的任务数据集,特意去预训练不同的模型。也就是说,这个预训练模型是对迁移学习来说是通用的。为什么要强调这个呢?因为这个直接就把我们的工作和至今为止几乎所有的自监督学习的论文区分开了。一般来说,自监督的论文都是在下游的数据集上直接预训练。

优于其他2D模型

包括1. ImageNet(最新技术)2.模型Genesis 2D(已降级)•Genesis X射线2D:在NIH
X射线数据集上经过预训练•Genesis CT 2D:在LUNA-2016数据集上经过预训练

说完对于从头训练的3D模型优势,我们当然还应该去关注一下2D的模型能达到的最高效果。需要论证的是:3D模型能在3D的医学影像中取得比2D模型更好的效果。不然费这么大劲去设计一个3D的预训练模型就没有意义了。在医学影像中,2D的迁移学习最强的一定就是ImageNet无疑了,怎么用这个2D模型去处理3D的数据就有讲究了。一般有两种方法:

相邻的3层当作RGB三通道输入(2D)

相互正交的x,y,z面上的三层作为RGB三通道输入(2.5D)

还有一个比较高级的,先对3D的cube校准,然后把相互正交的x,y,z面上的三层作为RGB三通道输入(VIOR)。这个方法是今年(2019)刚被收录在医学影像处理顶级期刊Medical Image Analysis中(Tajbakhsh et al. MedIA 2019)。

我们都拿出来比较了,结果如上图所示,预训练后的3D模型完胜2D的最强迁移学习。

又训练了两个副产品与此同时,还更进一步,我们用提出的自监督学习的框架降维用在2D图像中,分别包括一层一层地训练2D的CT和训练2D的X-ray图像。得到的预训练模型分别叫它们Genesis CT 2D和Genesis X-ray。

处理医学成像中有限数据的一种常用技术是将3D数据重新格式化为2D图像表示,然后对预训练的ImageNet模型进行微调[7,9]。这种方法将训练示例增加了一个数量级,但是却使3D上下文变得模糊。比较Genesis Chest CT与该二维实际标准的比较很有趣。为此,我们从ImageNet预训练模型[7]中采用训练后的2D模型来执行NCC,NCS和ECC的任务。通过从体积数据集中提取轴向切片来获得2D表示。表4比较了2D和3D模型的结果。请注意,3D模型的结果与表2中报告的结果相同。正如我们的统计分析所证明的那样,从Genesis Chest CT训练的3D模型明显优于从ImageNet训练的2D模型,从而实现了更高的平均性能和更低的标准偏差(请参见表4和附录4
H)但是,相同的结论不适用于从头开始训练的模型-3D刮擦模型在三个目标任务中只有两个要胜过2D刮擦模型,并且表现出不希望的更大的标准偏差。我们将3D刮擦模型的混合结果归因于目标任务中的大量模型参数和有限的样本量,这一起阻碍了3D上下文的充分利用。实际上,3D刮擦模型的不良性能凸显了Genesis Chest CT的有效性,从而释放了3D模型用于医学成像的功能。

mG(2D具有与监督的Imagenet预训练模型相同的性能

单独分析了几种2D的效果

这两个副产品很重要,同样是2D的预训练,它们和ImageNet相比就能知道自监督和监督下的特征学习的相对效果如何了。上图的结果告诉我们,在医学影像下的自监督和在自然图像下的监督学习,学到的特征在下游医学影像任务中的效果很相似,并没有统计上的差异。当然,我们不能否认ImageNet在迁移学习过程中,预训练和目标任务的数据差异很大。所以,客观地讲,如果能在医学影像领域做大数据集下的监督训练,效果应该会很不错。

如果只是用于预训练
包括1. ImageNet(最新技术)2.模型Genesis 2D(已降级)•Genesis X射线2D:在NIH
X射线数据集上经过预训练•Genesis CT 2D:在LUNA-2016数据集上经过预训练

降级的Models Genesis 2D可以提供与模态内ImageNet的最新微调相同的性能,在很大程度上优于随机初始化,这是一项重大成就,因为我们的产品注释成本为零。

(对于3D应用程序,我们还检查了NiftyNet5进行微调的有效性,NiftyNet5并非专为迁移学习而设计,而是唯一可用的受监督的预训练3D模型。与从头训练相比,微调的NiftyNet的NCS,LCS和BMS任务分别减少了3.37、0.18和0.03点(在附录4第I节中详细介绍),这表明对带有有限批注数据的强大监管不能保证良好的可传输性,例如ImageNet。相反,“模型创世纪”受益于大规模的未标记数据集和专用代理任务,这对于学习通用视觉表示至关重要。)

并非取代Medical Imagenet 而是帮助

尽管Models Genesis具有出色的性能,但仍然非常需要用于医学图像分析的大型,带批注的数据集,例如用于计算机视觉的ImageNet [4]。在计算机视觉方面,在撰写本文时,没有任何一种自我监督的学习方法能胜过从ImageNet [10,3,12]预训练的微调模型。我们开发Models Genesis的目标之一就是帮助创建如此大的,带有强烈注释的医学图像分析数据集,因为基于少量专家注释,从Models Genesis进行微调的模型将能够帮助快速生成初始毛坯。未标记图像的批注供专家审阅,从而减少了批注工作,并加速了大型,带批注的医学ImageNet的创建。总而言之,Model Genesis并非旨在取代医学图像分析之类的大型,标注强烈的数据集,例如用于计算机视觉的ImageNet,而是帮助创建一个数据集。

结论

Autodidactic—requiring
no manual labeling. 自动教学-无需手动标记。

对Genesis模型进行自我监督,并使用大量未标记的图像数据集进行培训,要求零专家注释工作。因此,模型创世纪与ImageNet [7,9]提供的传统监督转移学习有很大不同

Eclectic—learning from multiple perspectives. 折衷—从多个角度学习。我们的统一方法从多个角度(外观,纹理,上下文等)训练“模型创世纪”,从而在所有目标任务上产生更强大的模型,我们将统一方法与单独的方案进行了比较。这种折衷的方法将多个任务合并到一个图像恢复任务中,使Models Genesis能够学习更全面的表示

Scalable—eliminating proxy-task-specific heads. 可扩展-消除特定于代理任务的头。整合到单个图像恢复任务中,我们新颖的自我监督方案在训练期间共享相同的编码器和解码器。由于GPU上的内存有限,如果每个任务都需要自己的解码器,那么我们的框架将无法容纳大量的自我监督任务。通过将所有任务统一为一个图像恢复任务,可以轻松地将任何有利的转换修改到我们的框架中,从而克服了与多任务学习相关的可伸缩性问题[2],在该问题中,网络负责人要承担特定的代理任务。

Generic — yielding diverse applications通用-产生各种应用程序。

模型创世纪学习通用的图像表示形式,可将其用于各种目标任务。具体来说,模型创世纪可用于初始化用于目标分类任务的编码器,以及初始化用于目标分割任务的编码器-解码器,而现有的自我监督方法主要集中在仅提供编码器模型上[4]。如表2所示,M G可以概括为通用的疾病(例如结节,栓塞,肿瘤),器官(例如肺,肝,脑)和模式(例如CT,X射线,MRI)行为使我们与文献中所有以前的作品不同,后者是通过特定的自我监督任务学习的;因此缺乏普遍性。这样的特定方案包括预测从同一大脑随机采样的两个斑块的距离和3D坐标[8],确定两次扫描是否属于同一个人,预测椎体的水平[3]以及最后由Tajbakhsh进行的系统研究等。 [10]其中,针对一组目标任务研究了个性化的自我监督计划。

思考

【2】扩展

我们目前在论文中提供的模型的名字叫做Genesis Chest CT,因为它是从Chest CT图像中预训练得到的,也就是公开数据集LUNA-2016,仅限于CT,限于肺部位置。不过它已经在众多医学影像任务中表现出了很明显的优势,

一个简单的方向就是训练多个Genesis,可以专注于不同的医学影像模态。比如下载全网所有的关于CT的数据集,训练一个通用于CT的Genesis
CT,或者下载全网所有的关于MRI的数据集,得到一个通用于MRI的Genesis MRI。当然也可以专注于不同的人体部位。比如下载全网所有关于肺部的医学影像(不限于LUNA-2016),得到一个通用于所有下游的肺部疾病的Genesis Lung。最理想的情况是什么?当然是医学影像的集大成者,把全网所有的3D模态的医学影像全部用起来,训练一个模型,它超级通用,跨疾病,跨数据集,跨人体部位,跨模态,一个模型解决一切的医学影像3D模型的初始化问题。这就是真正意义上的Models Genesis。

未来的重要工作是将我们的模型创世纪扩展到面向模式的模型,例如创世纪MRI和创世纪超声以及器官面向模型,例如“创世纪”脑和“创世纪”心。实际上,我们预想到,模型创世纪可以作为3D医学成像应用(尤其是注释数据有限)的转移学习的主要来源。

【1】  官网第一名:3DCNN用于肺结节检测中的假阳性减少

(平安科技(深圳)3D卷积神经网络 U-net结构

肺结节的诊断大致可分为三个步骤:肺区域提取,肺结节检测,假阳性减少。本文重点介绍我们团队在检测肺结节方面的第三部分:假阳性减少。,我们使用两个3DCNN分类器来确定哪些候选项为假阳性。

在“减少假阳性”挑战赛中,我们的任务是设计一个强大的分类器,以区分真假阳性之间的微小差异。最终图像像素值被裁剪为[-1200,600],然后缩放为[0,255]。。预处理可以消除噪声,例如骨骼的亮点,CT床的金属线。

训练数据集具有极高的假阳性与真阳性比率(735418:1557)。This network contaih stage contains two 3D convolutional 卷积layers, followed by 归一化, Rectified Linear
Unit (ReLU) activation激活 layers, and 3D max-pooling 池化layers. 在每个阶段的最后,添加辍学层以避免过度拟合。在最后一个阶段,它包含三个完全连接的层,然后是辍学层。所使用的3DCNN的详细架构如图1所示。

In the LUNA16 challenge, performance is evaluated using
the Free-Response Receiver Operating Characteristic (FROC) analysis [1]. The sensitivity
is defined as the fraction of detected true positives divided by the number of
nodules. In the FROC curve, sensitivity is plotted as a function of the average
number of false positives per scan (FPs/scan). The average FROC-score is
defined as the average of the sensitivity at seven false positive rates: 1/8,
1/4, 1/2, 1, 2, 4, and 8 FPs per scan.在LUNA16挑战中,使用自由响应接收器工作特性(FROC)分析[1]来评估性能FROC(free-response
operating characteristic)。灵敏度定义为检测到的真实阳性率除以结节数量。在FROC曲线中,将灵敏度绘制为每次扫描的假阳性平均数(假阳性 /扫描)的函数。平均FROC得分定义为在七个假阳性率下的灵敏度平均值:每次扫描1 / 8、1 / 4、1 / 2、1、2、4和8个假阳性。

[2] B. Wu, Z. Zhou,
J. Wang and Y. Wang, “Joint learning for pulmonary nodule segmentation,
attributes and malignancy prediction,” 2018 IEEE 15th International Symposium on Biomedical
Imaging (ISBI 2018), Washington, DC, 2018, pp. 1109-1113.

Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis精读相关推荐

  1. 自监督医学图像Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis论文精读笔记

    目录 Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis 背景 贡献 方法 总体框架 Learning ...

  2. Paper--Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis

    文章链接:https://arxiv.org/pdf/1908.06912.pdf Abstract 从自然图像到医学图像的转移学习已被确立为医学图像分析深度学习中最实用的范例之一.但是,要适应这种范 ...

  3. Medical Diffusion - Denoising Diffusion Probabilistic Models for 3D Medical Image Generation

    Medical Diffusion - Denoising Diffusion Probabilistic Models for 3D Medical Image Generation 论文链接:ht ...

  4. 用于三维医学图像检测的半监督学习——FocalMix: Semi-Supervised Learning for 3D Medical Image Detection

    本文记录下阅读 CVPR2020论文 其中的<FocalMix: Semi-Supervised Learning for 3D Medical Image Detection>,更新于2 ...

  5. [深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

    UNETR: Transformers for 3D Medical Image Segmentation UNETR:用于三维医学图像分割的Transformer Published: Oct 20 ...

  6. 【论文】医学影像 | Elastic Boundary Projection for 3D Medical Image Segmentation 论文汇报 (CVPR 2019)

    医学影像 | Elastic Boundary Projection for 3D Medical Image Segmentation 论文汇报 (CVPR 2019) 原创 联系邮箱:xiangc ...

  7. A Survey on Deep Learning in Medical Image Analysis

    A Survey on Deep Learning in Medical Image Analysis Abstract 深度学习算法特别是卷积神经网络已经快速成为分析医疗图像的一种方法.本文总结了与 ...

  8. [Style Transfer]——GANs for Medical Image Analysis

    论文阅读之GANs for Medical Image Analysis Abstract 生成对抗网络及其变体在医学图像去噪.重建.分割.生成.检测及分类等任务中均有诸多应用,此外,GAN强大的生成 ...

  9. MEDICAL IMAGE ANALYSIS文献跟踪

    MEDICAL IMAGE ANALYSIS文献跟踪 2021年12月 •  40卷 • 第10期 可视化分析: 实验方式: 实验定位: 文献名/代码开源/推荐 研究部位及方向 数据集 对象 实验环境 ...

最新文章

  1. java 变量作用域 c语言_java - 数据结构 c语言 作用域问题
  2. 每天一个linux命令(14):head 命令
  3. 【干货】美拍App是如何9个月做到用户过亿的
  4. App主流UI框架结构
  5. 找出一个字符串中出现次数最多的字_Day34:第一个只出现一次的字符
  6. 平庸技术流,用 WebApi +AngularJS 实现网络爬虫
  7. Linux学习Vim使用及账号用户管理
  8. NSA 分享植入 web shell 的常用漏洞列表
  9. 网警已进入本群代码_“闯黄灯”记3分罚200元?沈阳网警这样回应
  10. 记一次oracle安装错误:INFO: //usr/lib64/libstdc++.so.5: undefined reference to `memcpy@GLIBC_2.14'...
  11. KEmulator 屏蔽内存查看器功能
  12. vba随机抽取人名不重复_用vb编写个随机滚动抽取人名的抽奖系统,怎么样做到不重复并添加一个记录显示已抽到的人名...
  13. ENVI国产卫星插件
  14. inteli211网卡linux驱动,Windows Server 2019安装Intel I211网卡驱动
  15. 裸机嵌入式开发和操作系统嵌入式开发
  16. “打开文件所在位置”提示“找不到应用程序”的解决方案
  17. 清朝十二帝记忆顺口溜
  18. python中ndarray对象_学习python的第二十二天(numpy模块(对矩阵的处理,ndarray对象)
  19. python爬虫之静态网页——全国空气质量指数(AQI)爬取
  20. 非托管代码转换成托管代码

热门文章

  1. 央行修法,币圈利空?并非如此
  2. conda创建环境后一个库都没有解决办法
  3. python可以制作游戏脚本吗_如何用python制作游戏脚本?
  4. 【2022年博士招聘—鹏城联培】南方科技大学张建国教授团队2022年招聘计算机视觉、人工智能和医学图像处理方向博士
  5. 小工具,大用处:让网吧线路可以自由切换(转)
  6. 图论模板,随缘不定期更新
  7. android 对象的创建,android – 如何使用嵌套对象创建一个类Parcelable
  8. desktop remote 不锁屏_microsoft remote desktop (RD Client) 手机远程桌面控制电脑没声音...
  9. bp神经网络是用来干嘛的,bp神经网络的应用领域
  10. Chrome插件无法引用外部Vue等js