本文介绍由哈佛大学计算机科学系Rayan Krishnan 等人发表在 Nature biomedical engineering 上的一篇综述《Self-supervised learning in medicine and healthcare》。常规的深度学习模型需要大量标注的数据作为训练集,例如计算机视觉常用的数据集 ImageNet 包含了 21,000 类 1600 万张图片。然而对于医疗数据来说,想要获取这样规模的标注数据是非常困难的。一方面,标注医疗图像需要拥有专业的医疗知识;另一方面,不同于普通物体,我们一眼就可以分辨,医疗图像往往需要医学专家花费数分钟进行确认。因此,如何利用大量的无标签数据对于 AI 医疗的发展至关重要。自监督学习通过构建一系列的自监督任务来进行预训练,使得模型可以提取到更有用的特征,然后在有标签的数据集中进行进一步训练,使得模型在标注数据较少的条件下也能获得较好的泛化能力。文章展望了自监督学习应用于AI医疗的发展趋势,并介绍了两类近年来被广泛研究的用于 AI 医疗的自监督的预训练方法:对比学习和生成学习。

未来的发展

1、多模态数据可以得到充分利用,从而得到效力更好的模型。例如:同一病例的 X 光图像和放射透视报告可以形成正样本对;视网膜眼底图像和视网膜厚度值可以形成正样本对。通过自监督学习,来自不同医学测试的多维度数据可以更好地融合进而提高模型效果。

未来的医疗模型可能会有两个发展趋势:第一,更多地使用多模态数据。例如,患者的常规体测数据如年龄、体重、血压等可以与心电图融合在一起训练,这两类数据提供了不同的诊断支撑。第二,未来的模型可能会在预训练阶段引入更加广泛的医疗测试数据,使得模型可以“理解”潜在的疾病。某些非常规的医学测试数据是非常稀缺的,例如视网膜厚度测量数据,使用这类数据进行医疗预测就变得十分困难。在预训练中引入大量的、广泛的医学测试数据,或许可以使模型“理解”各类数据和疾病之间的潜在关系,使得模型在有限测试数据的条件下表现得更好。

2、自监督学习将会越来越多地应用到医学领域地其它任务上。例如:利用有限的标注数据按疾病的严重程度对病患进行分组,从而更好地分配医疗资源和进行针对性的治疗;预测病患对特定治疗手段的接受程度,从而优化治疗方案。另外,针对于患者个体的模型目前很少被研究,这类模型或许也将得到发展,从而可以为患者定制个性化的医疗保健方案。

3、自监督学习可能会用到时序多模态数据上。例如:病患不同时间段的医疗测试数据可以帮助模型理解疾病的各种变化;各种智能穿戴设备提供了大量有时序的体质检测数据,这些数据可以为医疗保健提供数据支撑。这类多模态数据提供了更加全面完整的医疗信息,使模型可以获得更加可靠的预测。

4、现在的模型都是基于已经收集好的数据,这些数据往往存在偏置(bias)。训练在偏置数据(biased data)上的模型往往是具有某种偏好的,这种偏好可能呈现出对某些药物的过度依赖甚至对特定人群的歧视。因此,未来需要有更好的方法和措施来收集大规模的、高质量的非偏置数据。例如,可以优化工作流程,使得医生可以在为患者诊断的过程中标注数据,而不是在诊断完成之后进行标注;可以在工作流程中按照自监督任务对数据进行标注;可以针对不同的人群训练不同的模型从而消除模型对人群的偏好。

两种预训练方法

对比学习

对比学习的核心思想是构建正负样本对,正样本代表两个样本属于同一个类别,负样本对表示两个样本属于不同类别。第一,构建正负样本对的方法有很多种。例如:图1-c从上往下依次展示了5种方法构建正样本对,分别是旋转图像、同一部位的不同角度的图像、不同时刻的心电图、拥有类似图结构的分子和多模态数据(X片和其文字描述)。第二,正负样本对有很多种用法。例如:图1-a中,输入  是一张眼底视网膜图像,将原图旋转  度之后得到一个新的图 ,将这图  输入到模型中预测其与原图的角度;图1-b中,将原图  旋转180度得到新的图 ,将这两张图分别输入到两个不同的编码器中得到两张图的 embeddings,拉近这两个 embeddings 之间的距离。

图1

生成学习

生成式预训练方法在自然语言处理方向得到了广泛的应用。这类方法的核心思想是遮盖住样本的一部分数据,然后用这个样本的其余部分对缺失的数据进行预测。例如,图2-a中,句子“It is a beautiful day outside”中的“day”被遮住,然后对这个句子进行编码得到一个隐藏特征,最后把隐藏特征输入到一个解码器希望可以还原出原始的句子。通过这种预训练方式得到的编码器可以处理一些特定的医疗任务,例如在图2-b,利用训练好的编码器,模型可以从文字描述获得诊断信息。图2-c展示了近年来已经用于生成式预训练模型的几种医疗数据,从上往下分别是:医学文字描述和电子病历、蛋白质序列、波形序列。这几类数据都可以非常直观地使用遮罩地思想进行预训练。

图2

总结

利用大量无标签数据进行预训练可以显著提高机器学习模型的表现能力,尤其对于医学数据来说,获得大量的标注数据十分困难,自监督方法在AI医疗上拥有广阔的应用前景。未来在更多AI医疗的场景上,利用自监督学习融合多模态数据来提高模型质量会是一个重要的研究方向。此外,新的数据收集的流程和方法或许也将会被提出。

参考资料

Krishnan, Rayan, Pranav Rajpurkar, and Eric J. Topol. "Self-supervised learning in medicine and healthcare." Nature Biomedical Engineering (2022):

https://www.nature.com/articles/s41551-022-00914-1

Nat. Biomed. Eng.| 综述:医学和医疗保健中的自监督学习相关推荐

  1. 人工智能会话代理在医疗保健中的有效性:系统综述

    #论文泛读 ##The Effectiveness of Artificial Intelligence Conversational Agents in Health Care: Systemati ...

  2. 【强化学习-医疗】医疗保健中的强化学习:综述

    Article 作者:Chao Yu, Jiming Liu, Shamim Nemati 文献题目:医疗保健中的强化学习:综述 文献时间:2020 文献链接:https://arxiv.org/ab ...

  3. 神码ai人工智能写作机器人_机器学习与医学:人工智能在医疗保健中的陷阱

    神码ai人工智能写作机器人 Bias in Artificial Intelligence (AI) is the most dangerous factor in the development o ...

  4. 深度学习在医学超声图像分析中的应用综述

    深度学习在医学超声图像分析中的应用综述 关键词 摘要 1.引言 2. 常用深度学习结构 2.3 模型训练的困难及其应对策略 3. 深度学习在医学超声图像分析中的应用 3.1 分类 3.2 检测 3.3 ...

  5. 转录组的技术应用 (生物学、医学、农学中的应用)

    转录组的技术应用 序言 转录组技术在生物学.医学.农学中的应用 随着第二代测序技术的迅猛发展,其高通量.快速.低成本的特点成为越来越多的生物学研究者在解决生物学问题时的首选,尤其在转录组测序方面更显示 ...

  6. 大数据在医疗保健中的真正愿景

    从可穿戴技术的影响到促进癌症研究的潜力,医疗保健领域的大数据技术引起了很多热议.然而,大数据在医疗保健中的真正愿景不在于个人数据收集或使用不同的应用程序,而在于结合医疗保健数据为医生创造新资源的潜力. ...

  7. 物联网在医疗保健中的应用

    数字健康革命分为四个部分,即: 1.  获取信息(互联网时代) 2.  相互访问(社交网络) 3.  接触自己(通过移动和可穿戴健康技术量化自我) 4.  了解每一个人(大数据的后续开发和应用) 有趣 ...

  8. 人工智能在医疗保健中的应用与创新

    引言 随着科技的不断发展,人工智能(AI)逐渐在各个领域展现出巨大的潜力,特别是在医疗保健行业.人工智能技术的引入为医疗保健领域带来了创新的诊断和治疗方法,提高了病患的生活质量和医疗保健效率.本文将探 ...

  9. 医疗保健数据接口_医疗保健中的人工智能

    医疗保健数据接口 Introduction 介绍 Artificial intelligence refers to simulating the behavior of humans, so tha ...

最新文章

  1. html5语音对讲,c#语音对讲demo
  2. mysql版本选择最终建议
  3. Java的不同版本:J2SE、J2EE、J2ME的区别
  4. spring-boot的spring-cache中的扩展redis缓存的ttl和key名
  5. C#中容器控件GroupBox、Panel、TabControl
  6. 软件定义汽车带来的困境---如何破局?
  7. Android 平台视频播放器demo
  8. POM文件详解(如何组织POM文件)
  9. 良心安利游戏音效素材网站
  10. 局域网弱口令扫描工具_“菜鸟黑客”必用兵器之“扫描篇”
  11. java jdom 类_JDOM 介绍及使用指南
  12. 16、小程序OCR字体识别
  13. clickhouse 如何使用SQL 管理用户和角色
  14. 三阶段面试题——vue
  15. 鸿蒙系统投影仪,投影仪有系统和无系统的区别 当贝OS好在哪里?体验完明白了!...
  16. 如何健壮你的后端服务?
  17. nas 软件 性能测试,五款NAS存储性能测试_企业存储数据保护-中关村在线
  18. 小程序怎么搭建?学会这些技巧,开启创业之路
  19. ATmega128 串口使用注意事项
  20. 俞军产品方法论|第一章 什么是产品经理 |摘要笔记

热门文章

  1. 全面了解SEO网站的站外优化
  2. [spring处理webservice报文] 4 soap报文解析
  3. 语音识别技术分类与总结
  4. 基于微信积分兑换商城小程序系统设计与实现 开题报告
  5. android10蓝牙搜不到ble设备_Android 6.0 蓝牙 找不到设备问题
  6. 手机自带便签怎么找,怎么恢复以前的便签
  7. 车辆排队管理小程序开发制作功能
  8. 福禄克FLUKE BT508|BT510|BT520|BT521蓄电池分析仪技术参数 与配件详情 报价分析
  9. 标签打印软件如何制作三角形合格证 1
  10. 【数据结构】【顺序表】 SqList *L与SqList*L的区别