本文基于调研的 14 篇医疗预训练语言模型的论文,总结了目前设计医疗领 域预训练语言模型的方法,这些方法主要可以分为三类:1)基于医疗领域数据 进行继续预训练;2)基于医疗领域数据从头进行预训练;3)基于医疗领域设计 的自监督任务进行预训练。

1   继续预训练

BioBERT通过BERT初始化权重,基于生物医学领域语料库进行继续预训练;BlueBERT 通过 BERT 初始化权重,基于 PubMed 摘要和 MIMIC-III 临床笔记进 行继续预训练;ClinicalBERT 通过 BERT 初始化权重,基于临床笔记语料进行继 续预训练;SciBERT 采用了两类预训练方法,一类是基于 BERT 在领域语料继续 预训练,一类是基于领域语料自建词表从头预训练,其中的语料库包括 18%来自 计算机科学领域的论文全文和 82%来自广泛的生物医学领域的论文全文。

2   从头预训练

PUBMEDBERT 基于领域语料从头进行预训练;BioELECTRA 基于领域语料 从头进行预训练,一方面引入了替换 token 预测预训练任务,该任务训练模型以 区分真实输入 token 和合成生成的 token,在输入文本中选择随机词,并用小型 生成器网络生成的 token 替换,然后,鉴别器网络预测输入 token 是原始的还是 替换的,另一方面去除了下一句预测任务;DiLBERT 从 ICD-11、PubMed 和 Wikipedia 构建词表并从头预训练模型。

3   域自监督预训练

MC-BERT 模型将实体和语言领域知识注入表示学习中进行继续预训练,其 中掩码策略采用 whole entity masking 和 whole span masking,并使用 NSP 任务。whole entity masking 是掩码医学实体,这些医学实体是利用中文生物医学知识图 谱和生物医学命名实体识别来获得的。whole span masking 是掩码医学短语,这 些医学短语是通过 Autophrase 和阿里巴巴认知概念图谱获得的;SMedBERT 将 知识图谱中的医疗实体和实体关系中的结构化语义信息同时引入到预训练模型 中。一方面利用 Mention-neighbor Hybrid Attention 获取 linked-entity 的相邻实体 信息,分别引入 type-level 和 node-level 学习相邻实体对于 linked-entity 的重要程 度,同时将结构化语义知识注入编码层。另一方面利用 Mention-neighbor Context Modeling 引入链接实体所在上下文的信息,同时对相邻实体也做 mask 处理。最 后使用 SOP 和 MLM 构成总的损失;diseaseBERT 将 BERT 与疾病知识相结合, 利用维基百科的结构作为一种弱监督信号,将医学术语及其类别作为标签进行预 训练;EMBET 是一种实体级知识增强的预训练语言模型,它通过三个自监督的 任务捕获医学术语之间的细粒度语义关系,包括 i)上下文实体一致性预测(在 给定的特定上下文中,实体是否在意义上等价),ii)实体分割(将实体分割为 细粒度语义部分)和 iii)双向实体掩蔽(预测长实体的原子或形容词术语),在 这个任务中,屏蔽其中一个组件,并根据另一个组件进行预测,反之亦然;BERT-MK 将知识图谱中的任意子图作为训练示例,子图中的关系和实体被视为 等价的节点以进行嵌入的联合训练,通过类似于训练语言模型的方式将每个节点 的更全面的上下文信息合并到所学习的知识表示中。在模型预训练的过程中,首 先,在 UMLS 三元组和 PubMed 语料库上训练医学 ERNIE(MedERNIE)模型, 继承了 ERNIE-Tsinghua 中使用的相同模型超参数,此外,通过上述 KRL 方法学 习的实体嵌入被集成到语言模型中来训练 BERT-MK 模型;UmlsBERT 通过一种 新的知识增强策略,在预训练过程中集成了领域知识。更具体地说,使用统一医 学语言系统(UMLS)元叙词表对 UmlsBERT 进行扩充,方式包括:(i)连接 在 UMLS 中具有相同基本“概念”的单词(ii)利用 UMLS 中的语义类型知识 创建具有临床意义的输入嵌入;SAPBERT 是一种生物医学实体表征的自对齐预 训练方案。通过利用现有的 BERT 模型,学习将生物医学名称与 UMLS 知识图谱中 的同义词对齐,并通过在线样本挖掘在一个小批量中找到难的正/负对或三元组, 以便进行有效的训练。

参考资料

[1]Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[2]Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: an evaluation of BERT and ELMo on ten benchmarking datasets[J]. arXiv preprint arXiv:1906.05474, 2019.

[3]Huang K, Altosaar J, Ranganath R. Clinicalbert: Modeling clinical notes and predicting hospital readmission[J]. arXiv preprint arXiv:1904.05342, 2019.

[4]Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[J]. arXiv preprint arXiv:1903.10676, 2019.

[5]Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computing for Healthcare (HEALTH), 2021, 3(1): 1-23.

[6]raj Kanakarajan K, Kundumani B, Sankarasubbu M. BioELECTRA: pretrained biomedical text encoder using discriminators[C]//Proceedings of the 20th Workshop on Biomedical Language Processing. 2021: 143-154.

[7]Zhang N, Jia Q, Yin K, et al. Conceptualized representation learning for chinese biomedical text mining[J]. arXiv preprint arXiv:2008.10813, 2020.

[8]Zhang T, Cai Z, Wang C, et al. SMedBERT: A knowledge-enhanced pre-trained language model with structured semantics for medical text mining[J]. arXiv preprint arXiv:2108.08983, 2021.

[9]He Y, Zhu Z, Zhang Y, et al. Infusing disease knowledge into BERT for health question answering, medical inference and disease name recognition[J]. arXiv preprint arXiv:2010.03746, 2020.

[10]Cai Z, Zhang T, Wang C, et al. EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham, 2021: 242-257.

[11]Roitero K, Portelli B, Popescu M H, et al. DiLBERT: Cheap Embeddings for Disease Related Medical NLP[J]. IEEE Access, 2021, 9: 159714-159723.

[12]He B, Zhou D, Xiao J, et al. Integrating graph contextualized knowledge into pre-trained language models[J]. arXiv preprint arXiv:1912.00147, 2019.

[13]Michalopoulos G, Wang Y, Kaka H, et al. Umlsbert: Clinical domain knowledge augmentation of contextual embeddings using the unified medical language system metathesaurus[J]. arXiv preprint arXiv:2010.10391, 2020.

[14]Liu F, Shareghi E, Meng Z, et al. Self-alignment pretraining for biomedical entity representations[J]. arXiv preprint arXiv:2010.11784, 2020.

END

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码:

【NLP】调研|医疗领域预训练语言模型设计方法相关推荐

  1. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  2. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  3. 超越谷歌BERT!依图推出预训练语言理解模型ConvBERT,入选NeurIPS 2020

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  4. pytorch微调bert_小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace 尝 ...

  5. bert预训练模型解读_超越谷歌BERT!依图预训练语言理解模型入选NeurIPS

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  6. R语言作加权最小二乘_超越谷歌BERT!依图预训练语言理解模型入选NeurIPS

    机器之心发布 机器之心编辑部 在本文中,本土独角兽依图科技提出了一个小而美的方案--ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的 ...

  7. 小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    转载:https://tech.ifeng.com/c/7pqoBttuWS0 选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「 ...

  8. 无需「域外」文本,微软:NLP就应该针对性预训练

    在生物医学这样的专业领域训练NLP模型,除了特定数据集,「域外」文本也被认为是有用的.但最近,微软的研究人员「大呼」:我不这么觉得! 什么是预训练? 这是一个拷问人工智能「门外汉」的灵魂问题. 生而为 ...

  9. NLP 中的语言模型预训练微调

    1 引言 语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布.具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性.在实践中,如果 ...

最新文章

  1. PTA 基础编程题目集 7-24 约分最简分式 C语言
  2. unsupported operand type(s) for + NoneType and int
  3. 函数如何实现“多个返回值”?
  4. redis安装redis集群
  5. ionic 上拉加载更多
  6. influx没有web_influxdb 安装及简单使用
  7. java 获取所有线程,Java 实例 - 获取所有线程
  8. iBarcoder如何在给定位置打印顺序标签?
  9. 93. php 命名空间(3)
  10. c 生成html的div,createElement动态创建HTML对象脚本代码
  11. Oracle 数据库用户表大小分析
  12. PHP教程环境--环境搭建
  13. IDEA添加Mapper.xml文件模板
  14. 超频到3200最佳时序_10900K内存搭配超频测试,七彩虹CVN捍卫者内存颜值标杆
  15. 如何训练神经网络的参数?,神经网络的参数计算
  16. 浩子CHS工作室成立
  17. 【转】国家集训队论文分类
  18. 2020年年度关于前端学习与工作的心得体会
  19. 使用74LS160设计六进制计数器
  20. Installation failed with message Failed to finalize session : INSTALL_FAILED_INVALID_APK:

热门文章

  1. 大坝安全监测设施 水库雨水情大坝安全监测设施
  2. 如何将他人产品变为自己的产品?--包装方案
  3. 野生Android在小公司打杂三年,拿到美团offer,不是意外
  4. ios 修改应用名称
  5. matlab中的耿贝尔法,最大降水量多年一遇计算方法及Matlab实现
  6. 如何使社交产品更快发展
  7. “山河无恙,网络清朗”之金刚钻
  8. 【CPU占用不高 电脑运行速度慢】如何解决{页面文件}
  9. IQ测试GPT完胜大学生;AIGC+表情包=?微软将GPT全面集成到Office;原作者对AI有声读物不太满意;GitHub今日热榜 | ShowMeAI资讯日报
  10. CF487E Tourists(圆方树+树链剖分)