CBLUE中文生物医学语言理解评价

英文题目：CBLUE: A Chinese Biomedical Language Understanding Evaluation
中文题目：CBLUE：中文生物医学语言理解评价基准
论文地址：https://arxiv.org/pdf/2106.08087.pdf
领域：自然语言处理，知识图谱
发表时间：2021年
作者：医渡云、平安医疗科技、阿里夸克、鹏城实验室、北京大学、哈尔滨工业大学(深圳）、同济大学、郑州大学等共同协办
出处：ACL（自然语言处理顶级会议）
被引量：3
数据：https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414 (需要提交申请)
代码：https://github.com/CBLUEbenchmark/CBLUE
阅读时间：2022.05.09

读后感

训练和评测数据非常全面，还可以在天池打榜。

介绍

之前生物医学方面数据以英文为主，本文收集了真实世界的生物医学数据，提出了第一个中文生物医学语言理解评估标准CBLUE。其内容覆盖命名实体识别，知识抽取，诊断标准化，句子分类，以及对在线辅助医疗系统的评测。并评测了11个预训练的中文模型，对比了模型与人类水平的差异。

CBLUE概览

任务

CBLUE共包含8个任务

CMeEE

中文医疗命名实体识别，数据起源于CHIP 2020（中国健康信息处理会议）。通过从句子里提取实体，归类到九个类别：疾病、临床表现、药物、医疗设备、医疗程序、身体、体检、微生物和科室。

CMeIE

中文医疗信息抽取，数据起源于CHIP 2020。目标是在遵循约束的句子中识别实体和关系。数据包含53种关系，其中10个同义子关系，43个其他子关系。

CHIP-CDN

CHIP 临床诊断规范化，将医生书写的诊断匹配到ICD-10标准化。

CHIP-CTC

CHIP 临床试验分类，用于评价受试者是否符合临床试验，共定义了44个类别。

CHIP-STS

CHIP 文本语义相似度，主要用于中医疾病问答数据，在病种间迁移学习。它的训练集和数据集针对不同疾病，模型用于评价两个句子的相似度。

KUAKE-QIC

KUAKE（阿里夸克）问询意图分类任务，包含11种意图：诊断、病因分析、治疗计划、医疗建议、检测结果分析、疾病描述、后果预测、预防措施、预期效果、治疗费用。

KUAKE-QTR

KUAKE 查询标题相关性任务，给出一个查询，目的是找到相关的标题。

KUAKE-QQR

KUAKE 查询相关性，计算两个查询的相关性，类似QTR任务，该任务应用于搜索引擎。

数据总结

功能分类

医学信息抽取
医疗术语标准化
医学文本分类
句子语义匹配
对话的理解和生成

数据来源

CHIP 中国健康信息处理会议
KUAKE 阿里夸克
IMCS21 复旦大学
MedDG 中山大学&腾讯天衍实验室

数据收集

数据源如下：

数据临床实验：从ChiCTR（中国临床试验注册中心）获取，供CHIP-CTC任务使用。
电子健康记录：获取了几家三甲医院的病历最终诊断，从不同的医疗科室抽取了诊断项，构建CHIP-CDN数据集，诊断项目是从常见医学同义词词典未涵盖的项目中随机抽样的。
医学论坛和教材：新冠流行后，在线医疗咨询增多，用线上问题生成CHIP-STS数据集时发现，很多是投诉。为了保证语料库的权威性和实用性，还选择了儿科学、临床儿科学和临床实践6的医学教材。主要用于构建CMeIE和CMeEE数据。
从搜索引擎日志中收集：利用夸克搜索引擎，先过滤出医学标签数据，所有的文档分为高、中、尾三类，然后对数据进行统一采样，以保证多样性。供KUAKE-x使用。

标注

每个样本由三到五名领域专家进行注释，并采用投票最多的注释来估计人类的表现。去掉了训练阶段低水平的人，以保持严格和较高的标准，随机审查每人至少10个样本，作为评价。最终，使用Kappa分数计算注释者的一致性，发现六个注释中有五个显示出几乎完美的一致性(κ=0.9)。

特点

匿名化同时保证效果
采样符合真实世界分布：保持长尾分布，支持标签粗细粒度的层次。

多样化的任务设置

排行榜

参与者提交对测试集的预测结果，评价系统给出得分。且阿里云平台提供60小时GPU训练时间，以训练模型。

维护

CBLUE 1.0 在2021年4月1日发布，开始支持8项任务，持续更新中。
目前已更新致 CBLUE 2.0，共建单位新增了“复旦大学”、“腾讯天衍实验室”和“中山大学”，任务种类增加到15个。

新增任务如下：

CHIP-CDEE：临床发现事件抽取
CHIP-MDCFNPC：医疗对话临床发现阴阳性判别
IMCS21：智能对话诊疗数据集（含四个子任务）
- IMCS-NER 命名实体识别
- IMCS-SR 症状识别
- IMCS-MRG 医疗报告生成
- IMCS-IR 意图识别
MedDG：蕴含实体的中文医疗对话生成

实验

基准结果

使用多个预训练中文模型评测，对每个任务外加一个层来精调预测训练模型。结果如下：

效果分析：大的模型效果更好；使用全词并不是在所有任务中表现都好；小的模型 Albert-TINY 在有些领域中表现也不是太差（CDN、STS、QTR和QQR）；用医疗数据训练出来的模型 PCL-MedBERT 效果没有预想中那么好。

人的表现

业余人士经过训练后标注效果如下，和机器相比，人标注效果更好。

个案分析

错误原因分析如下：