英文题目:CBLUE: A Chinese Biomedical Language Understanding Evaluation
中文题目:CBLUE:中文生物医学语言理解评价基准
论文地址:https://arxiv.org/pdf/2106.08087.pdf
领域:自然语言处理,知识图谱
发表时间:2021年
作者:医渡云、平安医疗科技、阿里夸克、鹏城实验室、北京大学、哈尔滨工业大学(深圳)、同济大学、郑州大学等共同协办
出处:ACL(自然语言处理顶级会议)
被引量:3
数据:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414 (需要提交申请)
代码:https://github.com/CBLUEbenchmark/CBLUE
阅读时间:2022.05.09

读后感

训练和评测数据非常全面,还可以在天池打榜。

介绍

之前生物医学方面数据以英文为主,本文收集了真实世界的生物医学数据,提出了第一个中文生物医学语言理解评估标准CBLUE。其内容覆盖命名实体识别,知识抽取,诊断标准化,句子分类,以及对在线辅助医疗系统的评测。并评测了11个预训练的中文模型,对比了模型与人类水平的差异。

相关工作

自然语言评测数据从GLUE开始;SuperGLUE进一步提出更难的任务以及排行榜;另外,还有DecaNLP问答评测,以及SentEval评测固定大小的句子嵌入。 CLUE是用于评测中文NLP的数据集,它包含9项任务。文中提出的医学评测CBLUE与CLUE对比如下:

在生物医疗领域的数据集有评测问答的PubMedQA,评测阅读理解的的BioRead。与一般语料不同的是,生物医学语料库的标注需要专家介入,费时费力,且大多基于英文,泛化到其它语言有难度。

CBLUE概览

任务

CBLUE共包含8个任务

CMeEE

中文医疗命名实体识别,数据起源于CHIP 2020(中国健康信息处理会议)。通过从句子里提取实体,归类到九个类别:疾病、临床表现、药物、医疗设备、医疗程序、身体、体检、微生物和科室。

CMeIE

中文医疗信息抽取,数据起源于CHIP 2020。目标是在遵循约束的句子中识别实体和关系。数据包含53种关系,其中10个同义子关系,43个其他子关系。

CHIP-CDN

CHIP 临床诊断规范化,将医生书写的诊断匹配到ICD-10标准化。

CHIP-CTC

CHIP 临床试验分类,用于评价受试者是否符合临床试验,共定义了44个类别。

CHIP-STS

CHIP 文本语义相似度,主要用于中医疾病问答数据,在病种间迁移学习。它的训练集和数据集针对不同疾病,模型用于评价两个句子的相似度。

KUAKE-QIC

KUAKE(阿里夸克)问询意图分类任务,包含11种意图:诊断、病因分析、治疗计划、医疗建议、检测结果分析、疾病描述、后果预测、预防措施、预期效果、治疗费用。

KUAKE-QTR

KUAKE 查询标题相关性任务,给出一个查询,目的是找到相关的标题。

KUAKE-QQR

KUAKE 查询相关性,计算两个查询的相关性,类似QTR任务,该任务应用于搜索引擎。

数据总结

功能分类

  • 医学信息抽取
  • 医疗术语标准化
  • 医学文本分类
  • 句子语义匹配
  • 对话的理解和生成

数据来源

  • CHIP 中国健康信息处理会议
  • KUAKE 阿里夸克
  • IMCS21 复旦大学
  • MedDG 中山大学&腾讯天衍实验室

数据收集

数据源如下:

  • 数据临床实验:从ChiCTR(中国临床试验注册中心)获取,供CHIP-CTC任务使用。
  • 电子健康记录:获取了几家三甲医院的病历最终诊断,从不同的医疗科室抽取了诊断项,构建CHIP-CDN数据集,诊断项目是从常见医学同义词词典未涵盖的项目中随机抽样的。
  • 医学论坛和教材:新冠流行后,在线医疗咨询增多,用线上问题生成CHIP-STS数据集时发现,很多是投诉。为了保证语料库的权威性和实用性,还选择了儿科学、临床儿科学和临床实践6的医学教材。主要用于构建CMeIE和CMeEE数据。
  • 从搜索引擎日志中收集:利用夸克搜索引擎,先过滤出医学标签数据,所有的文档分为高、中、尾三类,然后对数据进行统一采样,以保证多样性。供KUAKE-x使用。

标注

每个样本由三到五名领域专家进行注释,并采用投票最多的注释来估计人类的表现。去掉了训练阶段低水平的人,以保持严格和较高的标准,随机审查每人至少10个样本,作为评价。最终,使用Kappa分数计算注释者的一致性,发现六个注释中有五个显示出几乎完美的一致性(κ=0.9)。

特点

  • 匿名化同时保证效果
  • 采样符合真实世界分布:保持长尾分布,支持标签粗细粒度的层次。

  • 多样化的任务设置

排行榜

参与者提交对测试集的预测结果,评价系统给出得分。且阿里云平台提供60小时GPU训练时间,以训练模型。

维护

CBLUE 1.0 在2021年4月1日发布,开始支持8项任务,持续更新中。
目前已更新致 CBLUE 2.0,共建单位新增了“复旦大学”、“腾讯天衍实验室”和“中山大学”,任务种类增加到15个。

新增任务如下:

  • CHIP-CDEE:临床发现事件抽取
  • CHIP-MDCFNPC:医疗对话临床发现阴阳性判别
  • IMCS21:智能对话诊疗数据集(含四个子任务)
    • IMCS-NER 命名实体识别
    • IMCS-SR 症状识别
    • IMCS-MRG 医疗报告生成
    • IMCS-IR 意图识别
  • MedDG:蕴含实体的中文医疗对话生成

实验

基准结果

使用多个预训练中文模型评测,对每个任务外加一个层来精调预测训练模型。结果如下:

效果分析:大的模型效果更好;使用全词并不是在所有任务中表现都好;小的模型 Albert-TINY 在有些领域中表现也不是太差(CDN、STS、QTR和QQR);用医疗数据训练出来的模型 PCL-MedBERT 效果没有预想中那么好。

人的表现

业余人士经过训练后标注效果如下,和机器相比,人标注效果更好。

个案分析

错误原因分析如下:

CBLUE中文生物医学语言理解评价相关推荐

  1. 【工大SCIR】首次探索中文词信息增强中文口语语言理解!

    论文名称:Injecting Word Information With Multi-Level Word Adapter for Chinese Spoken Language Understand ...

  2. 实在智能参与中文自然语言理解评价标准体系(CLUE)阶段性进展回顾

    「实在智能」简介 「实在智能」(杭州实在智能科技有限公司)是一家人工智能科技公司,聚焦大规模复杂问题的智能决策领域,通过AI+RPA技术打造广泛应用于各行业的 智能软件机器人,即"数字员工& ...

  3. NLPer福利-中文语言理解基准测【CLUEbenchmark】

    NLPer福利-中文语言理解基准测[CLUEbenchmark] 公众号:ChallengeHub 官方链接:https://www.cluebenchmarks.com Github链接:https ...

  4. c语言平时作业完成的评价,C语言作业评价标准 - osc_fmg49rzg的个人空间 - OSCHINA - 中文开源技术交流社区...

    C语言作业评价标准 作业内容: 每周作业分为基础作业.挑战作业和预习作业: 基础作业为本周所学内容的巩固: 挑战作业包括但不仅限于所学知识的综合运用: 预习作业为下周所学内容的任务单,要求必须在课前完 ...

  5. StructBERT:将语言结构纳入深度语言理解的预训练中——中文翻译

    STRUCTBERT:将语言结构纳入深度语言理解的预训练中 Wei Wang, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Jiangnan Xia, Liwei Pen ...

  6. 谁说GPT只擅长生成?清华研究力证:GPT语言理解能力不输BERT

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者|张倩.小舟 来源|机器之心 一直以来,GPT 模型的语言生成能 ...

  7. 斯坦福SAIL负责人Christopher Manning:语言理解是人机灵魂的桥梁

    自然语言处理是人工智能的重要领域,伴随着2020年的到来,我们也正翘首以盼这个领域将发生哪些重要变化.为此我们特别推荐斯坦福大学人工智能实验室负责人Christopher Manning去年10月底在 ...

  8. FAIR重磅发布大规模语料库XNLI:解决跨15种语言理解难题

    作者 | Facebook AI 研究院和纽约大学研究团队 译者 | 盖磊 编辑 | Vincent AI 前线导读:自然语言处理系统依赖于使用基于标注数据的有监督学习提高模型的处理能力.目前,许多模 ...

  9. 干货!任务型对话中语言理解的鲁棒性测试 |清华刘劼西

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本期AI TIME PhD直播间,我们邀请到了清华大学计算机科学与技术系的硕士生--刘劼西,带来分享--<任务型对话中语言理解的鲁 ...

最新文章

  1. (转)mq经验总结-转
  2. 公司内部流量控制案例
  3. 开发日记-20190609 关键词 记录一次失败,感悟,畅想未来
  4. .NET Core微服务系列基础文章索引(目录导航Final版)
  5. 白屏优化_今日头条品质优化 图文详情页秒开实践
  6. config设置源 使用pip_python pip源配置
  7. 学习记录——DSIC与IC的区别
  8. linux dd克隆系统后,Ubuntu14.04 dd命令克隆系统镜像安装到另一台机器上
  9. asyncio 文件io高并发_python教程:使用 async 和 await 协程进行并发编程
  10. 手写笔记软件评测Notability、GoodNotes、MarginNote、OneNote
  11. Python入门之函数调用
  12. 使用Simple Allow Copy插件在网页内复制文字
  13. sql 根据身份证号码计算年龄
  14. 11月最新WIFI大师小程序源码/支持无限部署
  15. Vuepress Reco主题备忘
  16. 焦虑症和抑郁症的区别
  17. Danar程序员之家在CSDN安家落户啦
  18. STM32F407ZGT6芯片介绍
  19. woo如何监听目录和文件变动,woo目录中的文件被改变,监听文件被修改权限
  20. Vue+Element 实现订单列表【管理端】02

热门文章

  1. weui 加载提示_JQuery WEUI的分页加载
  2. Egg + Puppeteer 实现Html转PDF(已开源)
  3. 315曝光机器人打骚扰电话 科大讯飞:未参与璧合科技运营,反对各种滥用技术...
  4. 「勿忘初心」TDD,Dont DDT
  5. 使用jquery中$.each()方法来循环一个数据列表
  6. 记录--uniapp 应用APP跳转微信小程序
  7. npm和npx的区别
  8. sql附加数据库——5120错误
  9. 如何用python自动化微信小程序
  10. 腾讯云云硬盘快速入门-创建云硬盘