[论文阅读笔记42]BioSyn
题目
Biomedical Entity Representations with Synonym Marginalization
具有同义词边缘化的生物医学实体表示
Korea University (韩国)高丽大学
代码:https://github.com/dmis-lab/BioSyn
Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
摘要
专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.
背景
不同字符有相同的含义,相同的含义有不同的表面字符;
一般的解决方法是采用二元分类来处理,如果相同就是正样本,否则为负样本。
论文提出:BIOSYN – 使用同义词边缘化技术,它最大限度地将top候选对象中所有同义词表示的概率最大化。
采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息;
方法
贡献:提出BIOSYN模型,它是基于同义词边缘化的思想;
以前的工作都是pair-wise训练模型的,且明确要求负样本对的;负样本的方法,负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。
基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】
问题定义
对于输入的m, CUI(·)返回同义词n的CUI,其中θ 为模型参数。N是所有同义词休,n为其中的元素。
模型
Mention与Dictionary采用同等的Encoder来编码,它们是共享的,接着就是内积;
在训练阶段迭代更新top候选与基于表达计算marginal同义词概率;
在预测阶段,使用MIPS来计算最相近的同义词;
稀疏实体表示
e_s_m,e_s_n分别表示输入与同义词的tf-idf稀疏表示,稀疏相似定义为:
f(·,·)表示相似函数,通过两向量的内积来计算。
密集实体表示
稀疏表示实现了形态学的编码表示,密集表示则是是语义信息编码表示;
学习有效的密集表示是实体标准化的一个关键挑战;
这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】
预训练BioBERT,fifine-tune是使用 synonym marginalization algorithm;
m = {**m1*, …, ml}*,是subword序列,由Word-Piece tokenizer分隔开的子词集合;[CLS] 表示输入的输出向量,即是表示这个m的向量。
这个f也是内积的相似函数。
Similarity Function(相似函数)
其中,λ是sparse分类,它是可训练标量权重。
训练
基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中,使用实体编码器来迭代地更新顶级候选者。
Iterative Candidate Retrieval
这步就像是召回。从大量的候选集中选择小部分来训练。
k: 表示对于训练集检索出来top候选的总数;
a: 表示来自dense候选的比率。(0 ≤ α ≤ 1)
[ak]个S_dense候选, k - [ak]个S_sparse候选.
Synonym Marginalization
分母是前k个候选之和。
对于m的同义正向边缘概率定义为:
EQUAL(m, n)为1时, CUI(m)等价于CUI(n).
损失函数
M表示mentions的总数;
预测
预测时只是计算S(m, n) 就可以了,然后选择最近似的一个就OK了。
实验
预处理:大小写,标点符号,拼写错误,缩写(Ab3P),组合概念词(启发式规则);
https://github.com/ncbi-nlp/Ab3P
对于稀疏: tf-idf方法,使用uni-, bi-grams.
k = 20 – 候选数
a = 0.5 – dense的占比
学习率 = 1e-5
weight decay = 1e-2
mini-batch size = 16
λ = 2~4
数据集
NCBI Disease Corpus:https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE
Biocreative V CDR:https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/
TAC2017ADR:https://bionlp.nlm.nih.gov/tac2017adversereactions
结果
BIOSYN(S-SCORE): 只使用sparse scores来推理预测;
BIOSYN(D-SCORE): 只使用dense scores来推理预测;
BIOSYN (α = 0*.*0): 只使用sparse candidates来训练;
BIOSYN (α = 1*.*0): 只使用dense candidates来训练;
迭代候选检索过程
候选集数量效果进行研究
更高的候选数不会提高更高的准确率
同义词边缘化研究
marginal maximum likelihood (MML)与其它损失函数对比:hard EM, standard pair-wise;
Memory augmented policy optimization for program synthesis and semantic parsing – 2018
Dnorm: disease name normalization with pairwise learning to rank – 2013
分析
Iterative Candidate Samples
Error Analysis
略
相关工作
- 生物医学实体表达依赖于生物医学词表达:
Word2vec:
Distributed representations of words and phrases and their compositionality – 2013
Distributional semantics resources for biomedical text processing – 2013, PubMed语料
生物医版的word2Vec广泛应用于其它任务上,标准化任务也不例外:《Medical entity linking using triplet network》 - 2019
BioBERT
Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019 – 基于bert模型使用生物语料进行训练的模型
- 任务问题陈述
对生物医学实体表示质量评价通常是通过生物医学实体标准化任务来验证;
目标:将生物医学文本Mention映射到字典中相关的CUI(概念唯一ID);
任务相关:entity linking,entity grounding;
挑战:生物医学领域有大量的同义词;
相关论文:
Dnorm: disease name normaliza tion with pairwise learning to rank – 2013
Robust representation learning of biomedical names – 2019
Sieve-based entity linking for the biomedical domain – 2015
Taggerone: joint named entity recognition and normalization with semi-markov models – 2016
传统的标准化方法 – 基于手工规则进行
DNorm, CNN-based ranking method,NSEEN(与论文相似),BNE(与论文相似)
Nseen: Neural semantic embedding for entity normalization – 2019
Robust representation learning of biomedical names – 2019 – BNE
使用LSTM模型将字典中提到的概念名称映射到潜在空间,并使用负采样技术改进了嵌入。
总结
不知道这个方法用到中文标准化会怎么样?
参考
代码:https://github.com/dmis-lab/BioSyn
论文:https://arxiv.org/abs/2005.00239
[论文阅读笔记42]BioSyn相关推荐
- Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
- 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统
论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...
- 论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...
- 论文阅读笔记(二)——牛的人脸识别,能做到吗?
论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介 论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...
- [论文阅读笔记52]深度学习实体关系抽取研究综述
来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...
- Density Map Guided Object Detection in Aerial Images (论文阅读笔记)
Density Map Guided Object Detection in Aerial Images 论文阅读笔记 出处:CVPR2020 一.介绍 文章主要研究的是基于高分辨率航拍图像的目标检测 ...
- CenterNet:Objects as Points论文阅读笔记
CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...
- 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
- DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
最新文章
- node 使用 download-git-repo 下载 github 代码
- 二进制安装kubernetes1.14.1-pod配置清单之客户端访问方式03
- ABAP-获取用户的组织结构权限
- matlab排版形式是什么样子,工作型PPT,图文排版的4种常见样式
- JavaMail可能是邪恶的(并迫使您重新启动应用程序服务器)
- ubuntu13.10无法登陆
- 第四次作业——测试作业
- fetch first mysql_MySQL多版本并发控制机制(MVCC)源码浅析
- Java 线程池的复用原理
- 嵌入式系统——指令平均时钟数和运算速度MIPS计算
- Java 弱密码校验判断处理
- AXURE母版事件(Raised-events)
- j2CaChe在项目中的应用(二级缓存)
- 关于模型训练的时候所需要的GPU显存的计算以及模型参数,计算量的计算
- CRC16校验的原理
- rpa项目poc_[经典收藏]终极RPA术语表:机器人流程自动化的基础概念
- linux下数据库启动和停止
- 计算机组成原理-华科版本
- 千年虫,2038年虫
- Git的下载安装(2020)Windows10 Git-2.26.0-64-bit