写在前面

大家好,我是刘聪NLP。

今天给大家带来一篇NAACL2022论文,一种融合实体信息的句子嵌入对比学习方法,全名为《EASE: Entity-Aware Contrastive Learning of Sentence Embedding》。主要在传统的句子和句子之间的对比学习中,融入句子和实体的对比学习,提高最终句向量模型的效果。

paper地址:https://arxiv.org/pdf/2205.04260.pdf
code地址:https://github.com/studio-ousia/ease

介绍

句向量表征技术目前已经通过对比学习获取了很好的效果。而对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地学习数据表征。并且,实体是一个句子的重要部分,可以作为一个句子的指示器,通过学习实体与句子之间的差异,可以为句子向量的学习提供额外信息。

该篇论文还验证了融入实体信息后,在多语言上的句向量表现,不过本次解读忽略多语言的部分,感兴趣的同学可以自行阅读原文。

EASE模型的损失主要由两个部分组成:(1)句子与实体之间的实体对比学习损失;(2)带dropout噪声的句子自监督对比学习损失。

模型

如何获取实体-句子pair数据?

EASE模型的训练数据主要来自维基百科中带有「实体超链接」的文本内容,将超链接实体作为与文本内容相关的实体,构建实体-句子pair数据。为了提高实体质量,仅保留超链接实体出现次数超过10次的实体。

正例实体获取后,如何获取负例实体呢?针对负例实体需要满足两个条件:

  • 负例实体需要与正例实体具有相同的类型;

  • 负例实体不能与正例实体出现在同一维基百科页面中。

最后,随机在满足上诉条件的候选实体中选择一个实体作为硬负例数据,构建(句子,正例实体,负例实体)的triple数据,如下图所示,

实体-句子对比损失

给定一个triple数据,其中表示句子,表示句子对应的正例实体,表示句子对应的负例实体,优化目标采用过in-batch negatives交叉熵损失函数,如下:

其中,为一个可训练矩阵,为温度超参,为余弦相似度。

针对上面实体的词嵌入是可训练的词嵌入表示,初始参数从在维基百科数据上使用Wikipedia2Vec工具训练得来,向量维度为768。

句子自监督对比损失

该部分采用SimCSE中的方法,利用随机dropout masks机制,对原始句子构造正里样本,利用batch内其他样本作为负例样本,构建对比学习损失,具体如下:

最终,EASE模型的损失为:

其中,是一个平衡实体-句子对比损失和句子自监督对比损失的超参数。

实验结果

如下表所示,在7个STS相似度计算数据上和8个短文本聚类数据上,EASE模型取得了不错的效果。

并且进行了消融实验,证明增加实体对比学习是有效的。 其实该篇论文在多语言上的效果更为突出,并提出了一个多语言短文本聚类数据集MewsC-16。

总结

从实验结果上来看,在单语言上的效果提高没有那么显著,但是增加实体信息这一操作是我比较认可的。在进行某一任务时,我们需要思考如何可以更加充分地挖掘可利用信息。在不改变模型结构的前提下,增加额外信息,是提高效果最有效的办法。

整理不易,请多多点赞,关注,有问题的朋友也欢迎加我微信「logCong」、公众号「NLP工作站」、知乎「刘聪NLP」私聊,交个朋友吧,一起学习,一起进步。

我们的口号是“生命不止,学习不停”。

EASE:一种融合实体信息的句子嵌入对比学习方法相关推荐

  1. 自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示

    利用文本信息还有还有另外一个非常重要的来源,就是来自于实体的描述,在知识库里对一些实体构建关于它的一个简单的介绍(short description). 这些简短的介绍,往往能够很好的反映实体的表示, ...

  2. python鱼眼图像识别_一种融合鱼眼图像与深度图像的动态环境视觉里程计方法与流程...

    本发明涉及移动机器人同步定位与地图构建(SLAM)技术领域,尤其是适用于动态环境的基于鱼眼图像与深度图像的视觉里程计方法. 背景技术: 定位技术是移动机器人实现各项复杂任务的技术基础.里程计便是一类简 ...

  3. 在一个电子商务网站应用中,涉及的实体信息类有很多,比如用户类User和用户地址类Address; 而每一个实体类的对象信息要存储到相应的数据库表中,如userTable和addressTable。

      在一个电子商务网站应用中,涉及的实体信息类有很多,比如用户类User和用户地址类Address; 而每一个实体类的对象信息要存储到相应的数据库表中,如userTable和addressTable. ...

  4. 论文浅尝 | TEQUILA: 一种面向时间信息的知识问答方法

    来源:CIKM'18 链接:http://delivery.acm.org/10.1145/3270000/3269247/p1807-jia.pdf?ip=223.3.116.39&id=3 ...

  5. 深度学习多模态融合_多模态深度学习:用深度学习的方式融合各种信息

    作者:Purvanshi Mehta 编译:ronghuaiyang 原文链接多模态深度学习:用深度学习的方式融合各种信息​mp.weixin.qq.com 导读 使用深度学习融合各种来源的信息. 多 ...

  6. 推荐场景下融合多模态信息的内容召回模型

    本系列将系统介绍召回技术在内容推荐的实践与总结. 第一篇:2021召回技术在内容推荐的实践总结 第二篇:CMDM:基于异构序列融合的多兴趣深度召回模型在内容平台的探索和实践 第三篇:内容推荐场景下多模 ...

  7. 四维图新地图坐标_一种融合双目视觉和差分卫星定位的地标地图生成方法与流程...

    本发明属于地图测绘技术领域,更为具体地讲,涉及一种融合双目视觉和差分卫星定位的地标地图生成方法. 背景技术: 地标地图是一种将地图去除冗余信息以轻量化形式存储的高精度地图,可以为智能车提供部分静态目标 ...

  8. 人声抑制 深度学习_一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法与流程...

    本发明涉及电子设备语音降噪技术领域,更具体地说,涉及一种融合骨振动传感器和麦克风信号的深度学习降噪方法. 背景技术: 语音降噪技术是指从带噪语音信号中分离出语音信号,该技术拥有广泛的应用,通常有单麦克 ...

  9. 『论文阅读』SIF:一种简单却难以打败的句子嵌入方法

      文献:A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS   在进行了词嵌入的研究后,我们往往会联想到这样一个问题:既然单词可以 ...

最新文章

  1. 大幅提高生产力:你需要了解的十大Jupyter Lab插件
  2. CVE-2018-20169漏洞学习
  3. synchronized关键字实现原理
  4. c# 使用Autodesk design Review API
  5. Application,Session和Cookies的区别
  6. JDBC的CRUD操作之PreparedStatement的保存操作
  7. 二、Git多人开发:不同人修改了不同文件如何处理
  8. 【WebPack】WebPack的安装、使用WebPack打包 js/css/img 等文件
  9. 10个优秀的 Web UI 库/框架
  10. 后端技术:消息队列MQ/JMS/Kafka相关知识介绍
  11. python列表套着列表_python 列表套列表去重
  12. 5.MySQL常用函数
  13. 有源码如何搭建网站(从零开始搭建教程)
  14. 优化设计和计算机辅助,湿式空冷器优化设计和计算机辅助计算
  15. 平面设计证书怎么考,平面设计证书有用吗:夏雨老师
  16. 【AVS系列】AVS2参考软件RD17.0
  17. AC自动机+状压dp hdu2825 Wireless Password
  18. Java生成XML数字签名
  19. 互联网快讯:阿里云发布第四代神龙架构;微信支付正式推出品牌视频号;猿辅导加速布局素质教育
  20. 新一代自助建站工具的领航者 - Tap . cn

热门文章

  1. 关于df -h卡住和系统磁盘被占满的问题
  2. 【预测模型-ELM分类】基于鲸鱼算法优化核极限学习机实现数据分类附matlab代码
  3. 微量小程序联盟,如何实现微信小程序换量和微信小程序推广?
  4. uniapp App更新解决方法
  5. opencv毛孔识别(python实现)
  6. cpu上干硅脂怎么清理_如何去除CPU上原来的硅脂
  7. solidity-msg.sender到底是什么?
  8. 阅读笔记04——魔鬼搭讪学
  9. Kafka09:【案例】Flume集成Kafka
  10. Linux中实现定时任务详解