让机器“读懂”放射学报告
[在Qure,我们建立了深度学习模型来检测放射影像中的异常。这些模型需要大量的标记数据来学习诊断异常。因此,我们从医院和门诊放射中心收集了一个大型数据集。这些数据集包含相关的临床放射学报告。
目前,当我们训练深度学习算法以识别放射学图像的异常情况时,我们使用放射科的医师报告作为最佳标准。这是目前最好的方式,因为这可以提供以百万计的图像以实现高精度的分类算法。
这些报告通常以自由格式文本而不是结构化格式编写。所以,为了从这些非结构化报告中自动提取结果,我们设计了一个基于规则的自然语言处理(NLP)系统。如下所示:
CT SCAN BRAIN - PLAIN STUDY
Axial ct sections of the brain were performed from the level of base of skull. 5mm sections were done for the posterior fossa and 5 mm sections for the supra sellar region without contrast.
OBSERVATIONS:
- Area of intracerebral haemorrhage measuring 16x15mm seen in left gangliocapsular region and left corona radiate.
- Minimal squashing of left lateral ventricle noted without any appreciable midline shift
- Lacunar infarcts seen in both gangliocapsular regions
- Cerebellar parenchyma is normal.
- Fourth ventricle is normal in position and caliber.
- The cerebellopontine cisterns, basal cisterns and sylvian cisterns appear normal.
- Midbrain and pontine structures are normal.
- Sella and para sellar regions appear normal.
- The grey-white matter attenuation pattern is normal.
- Calvarium appears normal
- Ethmoid and right maxillary sinusitis noted
IMPRESSION:
- INTRACEREBRAL HAEMORRHAGE IN LEFT GANGLIOCAPSULAR REGION AND LEFT CORONA RADIATA
- LACUNAR INFARCTS IN BOTH GANGLIOCAPSULAR REGIONS
这是一篇简短的放射学报告,从中我们可以提取如下结果:
{
"intracerebral hemorrhage": true,
"lacunar infarct": true,
"mass effect": true,
"midline shift": false,
"maxillary sinusitis": true
}
为什么是基于规则的NLP系统?
基于规则的NLP系统可以解析无组织内容并对其进行组织。另一方面,基于机器学习(ML)的NLP系统则在大型数据集上训练时自动生成规则。
与基于ML的方法相比,基于规则的NLP系统具有多重优势:
1.临床知识可以手动合并到基于规则的NLP系统中。然而,在基于ML的NLP系统中捕获这些知识,需要大量的注释。
2.基于ML的NLP系统自动生成的规则难以解释。
3.基于规则的NLP系统可以容易地添加或修改,以适应系统中新目标的发现。4.以往的临床报告分析报告表明,基于ML的NLP系统的结果不如基于规则的NLP系统。
基于规则的NLP开发
由于从多个中心收集了报告,因此有多个报告标准。因此,我们在手动读取大量报告后构建了一组规则来捕获这些变化。其中,我举两种常见的规则类型例子:
1.发现检测
在报告中,同样的发现可以用几种不同的格式来记录,这些包括同义词的定义。例如,blunted CP angle可以通过以下任一方式表示:
1.CP angle is obliterated
2.Hazy costophrenic angles
3.Obscured CP angle
4.Effusion/thickening
我们收集了可用于报告调查结果的所有措辞,并为每项调查结果制定了一条规则。以下是blunted CP angle的规则。
((angle & (blunt | obscur | oblitera | haz | opaci)) | (effusio & thicken))
3c4579accd5b7e82d3a6f831f21225694184dcb6
如果在一个句子中有angle 、blunted、effusion和thickening 或其同义词,则该句子将满足这个规则。
另外,研究结果可以有一个层次结构。例如,如有任何像edema, groundglass, consolidation等其他近似blunted CP angle的病理情况都可以被认为满足规则。因此,我们还创建了一个关于处理这个层次结构的规则。
[opacity]
rule = ((opacit & !(/ & collapse)) | infiltrate | hyperdensit) hierarchy = (edema | groundglass | consolidation | ... )
2.否定检测
上述规则用于检测报告中的发现。但这些不足以理解报告。例如,考虑以下句子:
- Intracerebral hemorrhage is absent.
- Contusions are ruled out.
- No evidence of intracranial hemorrhages in the brain.
虽然intracerebral hemorrhage, contusion 和intracranial hemorrhage等词语都是在上述句子中提到的。但是它们是不确定的,实际上应该不满足上述我们提到的规则,可是由于存在相应的关键字,会造成干扰。因此,除了发现之外,我们还需要否定一些句子。
我们手动读取几个表示否定的句子,并根据它们的结构对这些句子进行分组。检测否定的规则是基于这些句子创建的。其中一个如下所示:
(<finding>) & ( is | are | was | were ) & (absent | ruled out | unlikely | negative)
3c615b301be6835ed931c9523c91bf192a2e64a9
我们可以看到上述例子的第一句和第二句与这条规则相符,因此我们可以推断出这些句子是否定的。
Intracerebral hemorrhage is absent ⟶ intracerebral hemorrhage negative.
Contusions are ruled out ⟶ contusion negative.
结果:
我们在一个数据集上测试了我们的算法, 其中包含1878份头部 CT 扫描的临床放射学报告。我们手动阅读所有的报告用来创造最佳标准。我们用灵敏度和特异性作为评价指标。所得结果如下表所示。
查找
结果
敏感度
(95%CI)
特异度
(95%CI)
颅内出血
207
0.9807
(0.9513-0.9947)
0.9873
(0.9804-0.9922)
实质内出血
157
0.9809
(0.9452-0.9960)
0.9883
(0.9818-0.9929)
脑室内出血
44
1.0000
(0.9196-1.0000)
1.0000
(0.9979-1.0000)
硬膜下出血
44
0.9318
(0.8134-0.9857)
0.9965
(0.9925-0.9987)
硬膜外出血
27
1.0000
(0.8723-1.0000)
0.9983
(0.9950-0.9996)
蛛网膜下腔出血
51
1.0000
(0.9302-1.0000)
0.9971
(0.9933-0.9991)
断裂
143
1.0000
(0.9745-1.0000)
1.0000
(0.9977-1.0000)
颅骨骨折
89
0.9888
(0.9390-0.9997)
0.9947
(0.9899-0.9976)
中线轮班
54
0.9815
(0.9011-0.9995)
1.0000
(0.9979-1.0000)
质量效应
132
0.9773
(0.9350-0.9953)
0.9933
(0.9881-0.9967)
在本文中,作者使用基于ML的NLP模型来提取头部CT临床放射学报告的结果。他们报告的平均敏感度和平均特异度分别为0.9025和0.9172。在评估的目标结果相同的情况下,我们使用基于规则的NLP算法,报告的平均敏感度和平均特异度分别为0.9841和0.9956。因此,我们可以总结基于规则的NLP算法在临床报告上比基于ML的NLP算法表现更好。
数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!请添加链接描述](http://click.aliyun.com/m/48921/)
转载于:https://blog.51cto.com/11778640/2113532
让机器“读懂”放射学报告相关推荐
- 机器“读懂”放射学报告
在Qure,我们建立了深度学习模型来检测放射影像中的异常.这些模型需要大量的标记数据来学习诊断异常.因此,我们从医院和门诊放射中心收集了一个大型数据集.这些数据集包含相关的临床放射学报告. 目前,当我 ...
- 公开课 | 让机器读懂你的意图——人体姿态估计入门
机器视觉的主要任务是让机器看懂世界,而世界的主要组成是人类社会.我们一直在围绕物和人的识别展开研究:物品检测识别.行人检测与跟踪.人脸识别. 事实上,行人检测是人的整体粗粒度识别,人脸识别是人的局部特 ...
- 让机器读懂文章: pLSA模型推导及实现
让机器读懂文章: pLSA模型推导及实现 概述 pLSA模型 pLSA的EM算法推导 pLSA的实现 总结 参考文献 概述 人类读懂文章是一个很自然的行为,当我们读完一篇<背影>的时候,我 ...
- 让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘
背景 随着4G的普及和5G的推出,内容消费的诉求越来越受到人们的重视.2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为"行业黑洞"抢夺用 ...
- 让机器读懂人类:探索问答系统和机器阅读理解
学习内容来自 : CSDN在线直播教程 林德康 一.问答系统概念 问答系统在搜索引擎中的应用 略- 基于知识图谱的问答系统 high precision great for head queries ...
- 让机器读懂用户--大数据中的用户画像
欢迎访问网易云社区,了解更多网易技术产品运营经验. 一.用户画像的定义 用户画像(persona) 的概念最早由交互设计之父Alan Cooper 提出: "Personas are a c ...
- 计算机是如何读懂高级语言的——编译过程简述
<计算机是如何读懂高级语言的--编译过程简述>源站链接,阅读体验更佳~ 前面的文章中我们简单介绍了高级语言的五大语法元素,以及这些语法元素是如何构成表达式,构成语句最终构成可执行的代码的. ...
- python attention机制_[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心)...
[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心) 笔者在[深度概念]·Attention机制概念学习笔记博文中,讲解了Attention机制的概念与技术细节,本篇内 ...
- 从2022投影行业最新报告,读懂2022年家用智能投影仪该怎么选!
2022年投影仪行业趋势如何?2022年新款投影仪怎么选合适呢?读懂这篇文章,能给你意想不到的答案. 2022年,家用智能投影仪品牌先后推出新品,产品性能持续优化迭代的同时,也给消费者带来了更优质的产 ...
最新文章
- Android - MVP个人愚见
- python 基本模块 random、os、sys
- 聊一聊:Service层你觉得有用吗?
- Day 11 权力核金钱是成功得标志吗
- 7张图揭晓RocketMQ存储设计的精髓
- 工作96:当前页面拿id
- 计算机桌面图标变成腾讯图标,桌面图标变成了未知图标
- 信息学奥赛一本通 1131:基因相关性 | OpenJudge NOI 1.7 03
- HttpResponse对象
- 谈谈复杂多分类问题上的一些个人理解
- 1.3 更多边缘检测内容
- java正向最大匹配算法_java中文分词之正向最大匹配法实例代码
- 事务失败返回_分布式事务方案 TCC
- Navicat for mysql 远程连接 mySql数据库10061、1045错误
- 800元以内创建的双路CPU主机
- 关于电的计算机公式,关于电的计算公式 所有注意,是所有!什么功率、电流、电阻、.对不起,我要的是全部,而且不要光是字母公式,而且请注明单位...
- windows 2003 directx 3D加速 开启
- ChatGPT注册全流程
- ubuntu 卡死安全重启
- 2021爱智先行者—记录一次 Spirit 1 和 IoT Pi 开发板的实战经历
热门文章
- C盘瘦身:通过python文件读写将qq里的缓存图片移到D盘
- 捕鱼达人的算法猜测—较色碰撞算法
- mtk LK流程简介
- 太原计算机学校专科代码,(全国高等院校学校代码查询).doc
- linux命令中插入制表符,linux 中grep 匹配制表符 和 换行符的命令
- 全球与中国1,2,6-己三醇市场深度研究分析报告
- w ndows8重装,如何重装windows8系统-系统城
- 任正非:华为要的是全世界
- java安全架构____MD5加密原理和简介
- 普元元数据产品如何安装到普元应用服务器AppServer上