MIMIC-III数据库的应用现状

  • 摘要
  • 一、引言
  • 二、MIMIC数据库简介
  • 三、基于统计方法的数据分析
  • 四、基于机器学习的数据分析
    • 4.1死亡风险预测
    • 4.2再入院风险评估
    • 4.3疾病预测
  • 六、总结
  • 参考文献

一篇综述,希望可为研究者们提供一些应用上的帮助。MIMIC数据库应用广泛,可以为医疗数据相关模型性能对比提供帮助。
目前已经发布MIMIC-IV,可以在physionet网站中进行研究者认证并进行下载。Physionet中还有MIMIC-IV其他数据,可自行搜索。各数据集的说明可在MIMIC官方网站进行查找阅读。
值得一提的是,MIMIC-IV中加入了x光片影像数据供大家使用。

摘要

数字健康系统近些年来发展迅猛,并被各大医院广泛应用。即使如此,因为安全性等一些原因,这些信息难以被集成并应用到科研当中。MIMIC-III(Medical Information Mart for Intensive Care)的发布解决了这一问题。它整合了波士顿Beth Israel Deaconess医疗中心的患者数据,并可以免费访问和使用。自发布至今,它已被广泛应用于科研领域,为患者结局预测、实体识别等方面的研究和发展做出了贡献。本文列举和分析了MIMIC-III在各领域的应用,并提出了一些问题。

一、引言

近些年来,数字健康记录系统在各大医院得到广泛使用。在2008-2014的7年中,拥有基本数字系统的非联邦急性护理医院的数量从9.4%增加到75.5%[1]。尽管如此,数字系统的互操作性依旧是一个问题,为数据集成带来了不小的挑战。此外,在科研方面,针对医疗数据分析的实验缺乏可重现性。因此,需要一个开放的、集成性强、信息丰富的医疗信息库为研究者们提供信息来源。于是,Johnson等人发布了MIMIC-III (Medical Information Mart for Intensive Care)数据库,这也是对MIMIC-II(Multiparameter Intelligent Monitoring in Intensive Care)数据库的更新[2].

二、MIMIC数据库简介

MIMIC-III整合了波士顿Beth Israel Deaconess医疗中心已确认身份的患者的临床数据,包括病人基线信息,实验室信息,诊断报告等不同方面,可以用于探讨诸如预测患者结果的机器学习方法、血压监测技术的临床含义以及非结构化患者笔记的语义分析等主题。并根据数据使用协议,使国际研究人员能够免费的获取这些数据并进行研究。Kurniati等人[3]对MIMIC-III提供的数据质量进行了评估发现,数据库中提供的全面数据可以有效的帮助研究者们进行研究。较好的数据清理和整合可以将其效果发挥到最好。
此外,在科研领域,研究者们对科学成果可重现性的担忧日益突出[4]。为此,Johnson等人在MIMIC-III数据库的基础上,开发了与其配套的代码库(Mimic Code Repository)。该代码库是开源的,包括SQL、Python和R等语言的标准化脚本。它为研究者们提供了一个交流社区,研究者们可以将代码上传交流,并可以由其他研究者下载副本,确保各项应用MIMIC-III的研究具有可比性和可重现性[5]。

三、基于统计方法的数据分析

基于统计方法的数据分析,意为应用MIMIC-III的数据,在已知患者结局的情况下,用统计学方法探究两个或多个因素的相关性,如药物使用对检验指标的影响,某医疗手段对死亡率的影响等。以此探究不同医疗决策对患者结局的影响,为预测模型所需的特征提取提供理论基础。
在药物使用方面,Wang等人[6]提取MIMIC-III中包括白蛋白、动脉O2饱和度、血尿素氮、肌酐等22个属性变化与普通肝素(Unfractionated Heparin ,UFH)的注射情况,使用统计学方法,探究了各属性和UFH注射的相关性,并分析了影响的时间延迟,证明了UFH注射在影响患者生命体征方面的作用。
在生命指标方面,Vincent等人[7]使用MIMIC-III数据,使用统计学方法对不同平均动脉压(Mean Arterial Pressure,MAP)分级及其维持时间对死亡率的影响,结果表明当低血压在<80mmHg时,低血压会使死亡率明显升高。
在设备使用方面,Serpa等人[8]从MIMIC-III中提取使用呼吸机超过48小时的患者数据,运用统计学方法,探究了患者呼吸机的机械功率(Mechanical Power,MP)与死亡率之间的关系,结果发现,使用呼吸机时间与死亡率成正比例关系,这为对死亡风险的预测提供了新的特征指标。

四、基于机器学习的数据分析

患者结局,如住院时间、再入院、出院类型等都被认为是临床治疗过程中需要评价的重要指标[9]。现有研究大多是采用数据挖掘、机器学习或深度学习的方法对某一特定类型的临床结局生成预测模型[10]。目前,已经有许多研究者使用机器学习,深度学习等方法对患者结局进行预测,有着不错的结果。Lee等人[11]研究表明,使用机器学习等方法进行患者结局预测可以帮助临床医生更好地进行临床决策。Sanjay等人[12]也在MIMIC-III数据集上证明了使用机器学习算法进行患者结局预测的可行性。

4.1死亡风险预测

死亡是非常常见的,也是最为严重的ICU(Intensive Care Unit)患者结局,对死亡风险的准确评估有利于及时的临床干预和资源分配[13]。针对于死亡风险的预测,最初使用的绝大多数预测模型都是基于总体基线患者特征。这些系统通常依赖于特征的加权线性组合,例如年龄、入院类型和生命体征测量。如改良早期预警评分(Modifide Early Warning Score,MEWS)[14]、序贯器官衰竭评估(Sepsis-related Organ Failure Assessment,SOFA)[15]和简化急性生理学评分(Simplified Acute Physiology Score,SAPS II)[16]。Davoodi等人[17]提出了一种基于深度规则的模糊分类系统(Deep Rule-Based Fuzzy System,DRBFS),对MIMIC-III中又用的数据进行提取,利用大量的输入变量对ICU患者的住院死亡风险进行准确的预测。并应用了朴素贝叶斯(Naive Bayes,NB)、决策树(Decision Tree,DT)、梯度提升(Fradient Boosting,GB)、深度信念网络(Deep Belief Nets,DBN)等常用分类器对其方法进行评估,证明了方法的可行性。但是患者的各项指标在住院期间并不是固定的,因此这些基于基线数据的分析在临床应用中并不理想[18]。
为了解决这个问题,Jensen等人[19]提出了时间疾病轨迹的概念来模拟患者随时间的预期进展,从而从时间上绘制患者轨迹,来进行其他方面的预测。Jones等人[20]在预测患者轨迹的基础上,应用MIMIC-III数据,使用两种深度学习技术,即无监督自动编码器(Unsupervised Autoencoders)和长短期记忆网络(Long Short-term Memory,LSTM)来预测ICU护理结果和存活率,应用时间序列(Time Series)进行预测,较传统机器学习方法取得更准确的结果。

4.2再入院风险评估

重症监护病房(ICU)再入院是一个重要的临床问题,因为它们与患者伤害、效率低下和更高的费用相关[21]。而且,再次入院ICU的患者会经历更多的不良事件,住院死亡率最高可达未再次入院患者的6倍[22]。因此,若可以预测患者的再入院并加以干预,便可以减少再入院的几率并减少死亡率。Mcwilliams等人[23]便通过运用随机森林(Random Forest,RF)[24]和一个逻辑分类器(Logistic Classifier,LC)[25]算法,使用MIMIC-III数据,建立了患者出院决策模型,帮助医决定是否让患者出院。
预测再入院的传统方法是使用回归模型对再入院概率进行预测,而近些年来Churpek等人[26]使用机器学习的方法分析再入院得到了比回归模型更好的结果。在此基础上,等人改进了机器学习算法,利用从MIMIC-III中提取的患者特征、护理评估、药物、重症监护病房干预、诊断测试等一系列患者特征,建立梯度增强机器模型,得到了比之前模型更好的预测结果。

4.3疾病预测

败血症(Sepsis)是部分复杂疾病的总称,在Sepsis-3 [27]中被定义为由于宿主对感染的反应失调导致危及生命的器官功能障碍。由于疾病的异质性和宿主反应的多样性,这些疾病长期以来一直难以被医生识别和诊断。因此若可以准确预测败血症,便可以有针对性的进行临床决策。目前也有很多有关预测败血症的评分系统如SOFA评分[16]、MEWS评分[17]等。Desautels等人[28]在传统方法的基础上提出了insight机器学习模型,在MIMIC-III中提取数据,应用insight评分和SOFA、MEWS评分等传统评分方法预测在是否会在固定时间内发生败血症,结果显示insight具有更好的性能。为了提升预测性能,Nemati等人[29]提出了将动态时间序列应用于预测败血症的机器学习模型,使用埃默里大学医院的数据建立模型,使用MIMIC-III数据进行验证,证明了该算法的可用性。
急性肾损伤也是一种常见于ICU,且与再入院,死亡等患者结局密切相关的复杂疾病[30]。Zimmerman等人[31]使用MIMIC-III的数据,排除了入院时已有肾损伤的病人后,提取了包括患者年龄、肌酐、尿量等特征,使用包括Logistic回归(Logistic Regression,LR)、RF和人工神经网络(Artificial Neural Network,ANN)在内的机器学习模型进行分析,证明了该算法在预测患者急性肾损伤方面的实用性。
五、基于自然语言处理的数据分析
在医疗保健系统中,患者的病历是一个大数据源。但很多情况下,利于医生笔记,影像报告等都是由非结构化的文本组成的。这种数据不能够直接使用统计工具进行分析,因此,就需要使用命名实体识别(Named Entity Recognition,NER)的方法对其进行处理。
基于神经网络的嵌入极大地推进了自然语言处理(Natural Language Processing,NLP)的发展。Devlin 等人[32]在MIMIC-III的报告中使用长短期记忆网络(LSTM)和条件随机场(conditional random field,CRF)的机器学习方法提取标签,取得不错的效果。最近,更先进的嵌入方法和表示(如ELMo[33]、BERT[34])进一步推动了NLP的发展.但是这些方法没有很好的实践于临床概念提取中。Si等人[35]将传统的词嵌入(Word Embedding)和上下文嵌入(Contextual Embedding)方法应用于MIMIC-III数据集中,证明了其在临床概念提取中的可行性。
此外,国际疾病分类(international Classification of diseases,ICD)编码已经被广泛用于描述患者的诊断[36]。人工编码低效繁琐,如果使用深度学习方法则可以大大提高编码效率。Li等人[37]很好的在MIMIC-III应用深度学习的方法提取特征进行ICD-9编码,并验证了它的可靠性。

六、总结

MIMIC-III提供了ICU患者各个方面的信息,免费开放给研究者们使用。自发布以来,由于其提供患者信息的丰富性,被广泛的应用于于建立预测患者结局的模型、建立可应用于临床医学病例的实体识别模型、进行探究患者各属性之间关系的回顾性研究。其中,在患者结局预测方面应用较多,而死亡是其最为重要的结局。
在疾病方面,目前使用MIMIC-III的研究主要针对败血症和肾功能疾病为主。而心肌梗死导致ICU病人死亡的一个重要因素[38],在此方面应用MIMIC-III的研究却很少。基于MIMIC-III数据库信息的多样性,我们也可以应用MIMIC-III,研究有关心肌梗死患者结局预测,一方面丰富了MIMIC-III的应用方向,另一方面也可以为心肌梗死患者的临床决策提供依据。

参考文献

[1] Charles D,King J, Patel V,Furukawa M. Adoption of Electronic Health record Systems among U.S[J]. ONC Data Brief ,2013,9: 1–9.
[2] Johnson A E W ,Pollard T J ,Shen L ,et al. MIMIC-III,a freely accessible critical care database[J]. Scientific Data,2016,3:160035.
[3] Kurniati A P ,Rojas E ,Hogg D ,et al. The assessment of data quality issues for process mining in healthcare using Medical Information Mart for Intensive Care III,a freely available e-health record database[J]. Health Informatics Journal,2019,25(4):1878-1893.
[4] Baker Monya. 1,500 scientists lift the lid on reproducibility[J]. Nature,2016,533(7604):452-454.
[5] Alistair-E-W Johnson,Stone David-J,Celi Leo-A,et al. The MIMIC Code Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics Association,2018,25(1): 32-39.
[6] Wang H,Yang H. Statistical Analysis of Inter-attribute Relationships in Unfractionated Heparin Injection Problems[J]. Annu Int Conf IEEE Eng Med Biol Soc,2020,2020:5374-5377.
[7] Vincent J,Nielsen N D,Shapiro N I,et al. Mean arterial pressure and mortality in patients with distributive shock: a retrospective analysis of the MIMIC-III database[J]. Annals of Intensive Care,2018,8(1):107.
[8] Neto A S ,Deliberato R O ,Johnson A ,et al. Mechanical power of ventilation is associated with mortality in critically ill patients: an analysis of patients in two observational cohorts[J]. Intensive Care Medicine,2018,44:1914–1922
[9] Huang Z ,Juarez J M ,Duan H ,et al. Length of stay prediction for clinical treatment process using temporal similarity[J]. Expert Systems with Applications,2013,40(16):6330–6339.
[10] Outcome Prediction in Clinical Treatment Processes[J]. Journal of Medical Systems,2016,40(1):1-13.
[11] Lee J . Is Artificial Intelligence Better Than Human Clinicians in Predicting Patient Outcomes?[J]. Journal of Medical Internet Research,2020,22(8):e19918.
[12] Sanjay P ,Chuizheng M ,Zhengping C ,et al. Benchmarking deep learning models on large healthcare datasets[J]. Journal of Biomedical Informatics,2018,83:112-134.
[13] Siontis G C M ,Tzoulaki I ,Ioannidis J P A . Predicting death: an empirical evaluation of predictive tools for mortality.[J]. Archives of Internal Medicine,2011,171(19):1721-1726.
[14] Subbe C P ,Slater A ,Menon D ,et al. Validation of physiological scoring systems in the accident and emergency department[J]. Emergency Medicine Journal Emj,2006,23(11):841.
[15] Vincent J L ,Moreno R ,Takala J ,et al. The SOFA (Sepsis-related Organ Failure Assessment) score to describe organ dysfunction/failure[J]. Intensive Care Medicine,1996,22(7):707-710.
[16] Le,Gall,J,et al. A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study[J]. JAMA: The Journal of the American Medical Association,1993,270(24):2957-2963 .
[17] Davoodi R ,Hassan Moradi M . Mortality Prediction in Intensive Care Units (ICUs) Using a Deep Rule-based Fuzzy Classifier[J]. Journal of Biomedical Informatics,2018:48-59.
[18] Calvert J ,Mao Q ,Hoffman J L ,et al. Using electronic health record collected clinical variables to predict medical intensive care unit mortality[J]. Annals of Medicine and Surgery,2016,11:52-57.
[19] Jensen A B ,Moseley P L ,Oprea T I ,et al. Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients[J]. Nature Communications,2014,5:4022.
[20] Beaulieu-Jones B K ,Orzechowski P ,Moore J H . Mapping Patient Trajectories using Longitudinal Extraction and Deep Learning in the MIMIC-III Critical Care Database[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing,2018,23:123-132.
[21] Kramer A A ,Higgins T L ,Zimmerman J E . The association between ICU readmission rate and patient outcomes[J]. Critical Care Medicine,2013,41(1):24-33.
[22] Van Sluisveld N, Bakhshi-Raiez F, de Keizer N, et al. Variation in rates of ICU readmissions and post-ICU in-hospital mortality and their association with ICU discharge practices.[J]. BMC Health Services Research, 2017,17(1):281.
[23] McWilliams C J, Lawson D J, Santos-Rodriguez R, et al. Towards a decision support tool for intensive care discharge: machine learning algorithm development using electronic healthcare data from MIMIC-III and Bristol, UK[J]. BMJ Open, 2019,9(3):e25925.
[24] Liaw A ,Wiener M . Classification and Regression by randomForest[J]. R News,2002,2:18-22.
[25] Dreiseitl S, Ohno-Machado L. Logistic regression and artificial neural network classification models: a methodology review[J]. JOURNAL OF BIOMEDICAL INFORMATICS, 2002,35(5-6):352-359.
[26] Churpek M M ,Yuen T C ,Winslow C ,et al. Multicenter Comparison of Machine Learning Methods and Conventional Regression for Predicting Clinical Deterioration on the Wards[J]. Critical care medicine,2016,44(2):368-374.
[27] Rather A R ,Kasana B . The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3)[J]. J Med,2015,18(2):162-164.
[28]Desautels T ,Calvert J ,Hoffman J ,et al. Prediction of Sepsis in the Intensive Care Unit With Minimal Electronic Health Record Data: A Machine Learning Approach[J]. JMIR Medical Informatics,2016,4(3).
[29] Nemati S ,Holder A ,Razmi F ,et al. An Interpretable Machine Learning Model for Accurate Prediction of Sepsis in the ICU[J]. Critical Care Medicine,2017:1.
[30]Ali T, Khan I, Simpson W, et al. Incidence and outcomes in acute kidney injury: a comprehensive population-based study[J]. Journal of the American Society of Nephrology : JASN, 2007,18(4):1292-1298.
[31] Zimmerman L P ,Reyfman P A ,Smith A D R ,et al. Early prediction of acute kidney injury following ICU admission using a multivariate panel of physiological measurements[J]. BMC Medical Informatics and Decision Making,2019,19(S1):6.
[32] Jauregi Unanue I ,Zare Borzeshi E ,Piccardi M . Recurrent neural networks with specialized word embeddings for health-domain named-entity recognition[J]. Journal of Biomedical Informatics,2017,76:102-109.
[33] Peters ME, Neumann M, Iyyer M., et al. Deep contextualized word repre-Sentations[J] Proceedings of NAACL-HLT, 2018: 2227–2237.
[34] Devlin J, Chang M-W, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, 2019: 4171–4186.
[35] Si Y, Wang J, Xu H, et al. Enhancing clinical concept extraction with contextual embeddings[J]. Journal of the American Medical Informatics Association, 2019,26(11):1297-1304.
[36]Peter B. Jensen,Lars J. Jensen,Søren Brunak. Mining electronic health records: towards better research applications and clinical care[J]. Nature Reviews Genetics,2012,13(6):395-405.
[37] Li M, Fei Z, Zeng M, et al. Automated ICD-9 Coding via A Deep Learning Approach[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019,16(4):1193-1202.
[38] Mei Z, Ti-gang H, Guang-ping L, et al. Comparable analysis of in-hospital mortality in patients with acute myocardial infarction[J]. Zhonghua Xinxueguanbing Zazhi, 2005,33(9):796-800.
.

MIMIC-III数据库的应用现状(综述)相关推荐

  1. 本地Windows MIMIC III数据入库

    目录 一.下载mimic数据 二.安装前的软件准备 三.MIMIC III数据库导入 一.下载mimic数据 链接:https://pan.baidu.com/s/174E6r84o2MN_6_GFr ...

  2. MIMIC IV数据库衍生表格配置

    文章目录 一.MIMIC IV数据库衍生表格(mimic_derived)简介 二.衍生表格示例 三.衍生表格配置 一.MIMIC IV数据库衍生表格(mimic_derived)简介 MIMIC I ...

  3. 基于图像的数据增强方法发展现状综述

    基于图像的数据增强方法发展现状综述 人工智能技术与咨询 2022-03-22 20:57 点击蓝字 · 关注我们 来源:< 计算机科学与应用> ,作者冯晓硕等 关键词: 数据增强:图像数据 ...

  4. 铁道中文应用开发现状综述

    铁道中文应用开发现状综述 2006年8月 An Interim Report of Ruby on Rails Applications and Development in Chinese Stat ...

  5. 计算机数据库技术的应用现状,数据库技术发展现状及趋势.doc

    数据库技术发展现状及趋势 数据库技术发展现状及趋势 摘要:数据库技术已发展成为信息科学里一项十分重要的技术,其应用领域之宽引人瞩目.本文介绍了数据库技术发展的现状及最新研究动态. 关键词:数据库技术 ...

  6. Postgres安装及MIMIC IV数据库的载入(Windows 10)

    Postgres安装及MIMIC IV数据库的载入(Windows 10) 上PostgreSQL官网,选个合适自己电脑的版本,下载,安装,没什么问题: 注意:中间会要求设置密码,记住自己的密码! 接 ...

  7. 读数据库论文-- 多核处理器下事务型数据库性能优化技术综述》

    论文:多核处理器下事务型数据库性能优化技术综述 https://wenku.baidu.com/view/102b5939f61fb7360a4c65bd.html

  8. 校园请假信息管理系统的背景分析,所涉及问题在国内外的研究现状综述

    校园请假信息管理系统是为了方便学生进行请假申请,方便学校对请假信息进行管理而设计的一种信息管理系统.该系统可以提高请假效率,降低学生请假的时间成本,同时可以有效减轻教师.辅导员等管理人员的工作压力.本 ...

  9. MIMIC III数据集详细介绍

    文章目录 1. 概述 2. 字典信息辅助表 D_CPT(目前使用医疗服务术语表) D_ICD_DIAGNOSES (ICD病情确诊词典表) D_ICD_PROCEDURES (ICD医疗过程词典表) ...

最新文章

  1. C语言再学习 -- 关键字void
  2. 2020 华为杯 数模 B题 数据挖掘
  3. 手机被锁在耳机模式了
  4. unity collider rigidbody zz
  5. 周三晚八点直播丨如何通过APEX 实现自动化运维
  6. azure机器学习_如何在Azure机器学习中使用JSON数据
  7. 电脑格式化的危害_防止硬盘被格式化的六大方法
  8. 【python】socket编程常量错误问题-1 'AF_INET'
  9. scala循环 方法与函数
  10. mysql使用Navicat 导出和导入数据库
  11. android 聊天动态表情包,gif表情包制作app下载-GIF表情包 安卓版v1.0-PC6安卓网
  12. 软件测试人员可以考哪些证书?
  13. 基于51单片机MAX31865的PT100铂电阻测温设计
  14. 儿童吹泡泡水简单配方_请问儿童吹泡泡液如何制作?
  15. autojs各种插件以及教程模板
  16. 网络管理员学习笔记_第三章 局域网技术与综合布线_003_局域网基础03
  17. WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK
  18. 清华同方主机装系统过程中进不去bios
  19. 倍加福UB300-18GM40-U-V1超声波传感器
  20. Android-AQS

热门文章

  1. CorelDRAW X7中相机滤镜呈现出的复古照片效果
  2. python内存管理及释放_python的内存管理
  3. 你考虑GitHub的企业。不喜欢on - prem托管。你并不完全讨厌云……
  4. css滑动门技术的应用,css 滑动门技术的介绍及实例分享
  5. linux文件名长度限制6,linux和windows文件名长度限制问题
  6. 用matlab求解线性代数方程
  7. 范围查找(比如日期范围)下查询出现全表扫描MySQL数据库索引失效
  8. linux卸载命令6,小编为你叙述linux卸载命令【操作流程】
  9. python图书馆抢座代码_“我去图书馆”公众号代码抢座的实现
  10. 由初速度和仰角求射程