[论文阅读笔记42]BioSyn

题目

Biomedical Entity Representations with Synonym Marginalization

具有同义词边缘化的生物医学实体表示

Korea University （韩国）高丽大学

代码：https://github.com/dmis-lab/BioSyn

Sung M , Jeon H , Lee J , et al. Biomedical Entity Representations with Synonym Marginalization[J]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.

摘要

专注于学习仅基于实体的同义词的生物医学实体的表示。
提出BIOSYN.

背景

不同字符有相同的含义，相同的含义有不同的表面字符；
一般的解决方法是采用二元分类来处理，如果相同就是正样本，否则为负样本。

论文提出：BIOSYN – 使用同义词边缘化技术，它最大限度地将top候选对象中所有同义词表示的概率最大化。

采用稀疏与稠密的方法分别去捕捉“morphological”与“semantic”的信息；

方法

贡献：提出BIOSYN模型，它是基于同义词边缘化的思想；

以前的工作都是pair-wise训练模型的，且明确要求负样本对的；负样本的方法，负样本的采样对结果的影响是十分大的。本论文的工作是基于边缘化正样本的方法。

基于检索的思想去研究相关 – maximum inner product search (MIPS) 【计算最大内积搜索】

问题定义

对于输入的m, CUI(·)返回同义词n的CUI，其中θ 为模型参数。N是所有同义词休，n为其中的元素。
模型

Mention与Dictionary采用同等的Encoder来编码，它们是共享的，接着就是内积；

在训练阶段迭代更新top候选与基于表达计算marginal同义词概率；

在预测阶段，使用MIPS来计算最相近的同义词；

稀疏实体表示

e_s_m，e_s_n分别表示输入与同义词的tf-idf稀疏表示，稀疏相似定义为：

f(·，·)表示相似函数，通过两向量的内积来计算。

密集实体表示

稀疏表示实现了形态学的编码表示，密集表示则是是语义信息编码表示；

学习有效的密集表示是实体标准化的一个关键挑战；

这里使用BioBERT来编码。【Biobert: a pre-trained biomedical language representation model for biomedical text mining – 2019】

预训练BioBERT，fifine-tune是使用 synonym marginalization algorithm；

m = {**m1*, …, ml}*，是subword序列，由Word-Piece tokenizer分隔开的子词集合；[CLS] 表示输入的输出向量，即是表示这个m的向量。

这个f也是内积的相似函数。

Similarity Function（相似函数）

其中，λ是sparse分类，它是可训练标量权重。

训练

基于模型侯选检索与最大化同义词正向边缘概率的方法。在这个框架中，使用实体编码器来迭代地更新顶级候选者。

Iterative Candidate Retrieval

这步就像是召回。从大量的候选集中选择小部分来训练。

k: 表示对于训练集检索出来top候选的总数；

a: 表示来自dense候选的比率。(0 ≤ α ≤ 1)

[ak]个S_dense候选, k - [ak]个S_sparse候选.

Synonym Marginalization

分母是前k个候选之和。

对于m的同义正向边缘概率定义为：

EQUAL(m, n)为1时， CUI(m)等价于CUI(n).

损失函数

M表示mentions的总数；
预测

预测时只是计算S(m, n) 就可以了，然后选择最近似的一个就OK了。

实验

预处理：大小写，标点符号，拼写错误，缩写（Ab3P），组合概念词（启发式规则）；

https://github.com/ncbi-nlp/Ab3P

对于稀疏： tf-idf方法，使用uni-, bi-grams.

k = 20 – 候选数

a = 0.5 – dense的占比

学习率 = 1e-5

weight decay = 1e-2

mini-batch size = 16

λ = 2~4

数据集

NCBI Disease Corpus：https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE

Biocreative V CDR：https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/

TAC2017ADR：https://bionlp.nlm.nih.gov/tac2017adversereactions

结果

BIOSYN(S-SCORE): 只使用sparse scores来推理预测；

BIOSYN(D-SCORE): 只使用dense scores来推理预测；

BIOSYN (α = 0*.*0): 只使用sparse candidates来训练；

BIOSYN (α = 1*.*0): 只使用dense candidates来训练；

迭代候选检索过程

候选集数量效果进行研究

更高的候选数不会提高更高的准确率

同义词边缘化研究

marginal maximum likelihood (MML)与其它损失函数对比：hard EM， standard pair-wise；

Memory augmented policy optimization for program synthesis and semantic parsing – 2018

Dnorm: disease name normalization with pairwise learning to rank – 2013

分析

Iterative Candidate Samples

Error Analysis

略

总结

不知道这个方法用到中文标准化会怎么样？

参考

代码：https://github.com/dmis-lab/BioSyn

论文：https://arxiv.org/abs/2005.00239

[论文阅读笔记42]BioSyn相关推荐

Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统
论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统论文简介论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统论文名称:<LemurFaceID: a fac ...
论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...
论文阅读笔记（二）——牛的人脸识别，能做到吗？
论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...
[论文阅读笔记52]深度学习实体关系抽取研究综述
来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...
Density Map Guided Object Detection in Aerial Images （论文阅读笔记）
Density Map Guided Object Detection in Aerial Images 论文阅读笔记出处:CVPR2020 一.介绍文章主要研究的是基于高分辨率航拍图像的目标检测 ...
CenterNet:Objects as Points论文阅读笔记
CenterNet论文阅读笔记 (一)Title (二)Summary (三)Research Objective (四)Problem Statement (五)Method 5.1 Loss Fu ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

[论文阅读笔记42]BioSyn

题目

摘要

背景

方法

实验

分析

相关工作

总结

参考

[论文阅读笔记42]BioSyn相关推荐

最新文章

热门文章