©PaperWeekly 原创 · 作者 | 张琨

学校 | 中国科学技术大学博士生

研究方向 | 自然语言处理

Motivation

从 BERT,GPT 被提出来之后,自然语言处理领域相关研究进入了一个全新的阶段:预训练+微调。而且这种学习框架也取得了非常好的效果,成为现在 NLP 相关研究的标配。但这种框架也不是没有问题,预训练阶段还好,我们可以选择各种大厂推出的预训练模型,为具体任务寻找到一个好的初始点。

但这些预训练好的模型并不能完美适应下游任务,如下图,作者通过研究发现,BERT 的输出结果如果不经过微调的话,那么这些向量表示为坍缩在一个比较小的区域内,还会受到高频词的影响,这些都是损害了 BERT 的效果,因此需要在具体任务中进行微调。

但微调阶段仍需要和具体的任务数据结合起来,最好还得是有监督数据,涉及到对大模型的微调,这些监督数据也得有比较大的量。但在真实世界中,对数据进行标注仍然是个大工程,费时费力,有时还需要专家知识。因此如何在下游任务中减小对监督数据量的需求是一个比较重要的研究方向。针对这些问题,本文展开了自己的工作。

论文标题:

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

论文作者:

Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu

论文链接:

https://arxiv.org/abs/2105.11741

代码链接:

https://github.com/yym6472/ConSERT

Preliminary

在介绍这个工作之前,首先介绍一个背景知识,对比学习:即通过对比不同样本,让相似的样本距离更近,不相似的样本距离更远,从而实现对输入数据的准确表征。其基本情况可以通过下图展示,这是近两年来非常热门的一个研究方向:


Model

为了解决以上问题,作者基于对比学习和预训练模型,提出了一个基于对比学习的句子语义表示迁移框架,具体框架图如下所示:

具体而言,作者提出的框架包含三部分,数据增强,BERT 编码层,对比损失层。接下来将进行详细分析:

3.1 数据增强

和之前的一些方法,例如回译,通过翻译模型翻译一遍再翻译回来等不同,在本文中,作者主要将数据增强部分放在了 embedding 层。因为自然语言处理中的数据增强本就是一个非常复杂的问题,在图像中,可以通过简单的裁剪,旋转,变色,缩放等操作实现数据增强,且能够保证原始标签的绝对正确。但在 NLP 中,通过打乱词序,替换词,删掉某些词等都会造成语义的变化。

因此,作者就不再输入层进行数据增强了,而是将目光放在 embedding 层,这样原始输入是不变的,那么一定是与原始标签一致的。具体而言,作者选择了如下几种数据增强方式:

  1. 对抗攻击:通过梯度反传生成对抗扰动,将该扰动加到原本的 Embedding 矩阵上,得到增强后的样本;

  2. 打乱词序:和之前讨论的打乱原始词的词序不同,这里作者通过利用 Transformer 中没有位置概念的特点,通过将每个 token对应的position id进行打乱,就实现了位置的打乱,这个还是很有意思的;

  3. 裁剪:这里分为两种,一种是 token 级别的,通过将选择到的 token 对应的 embedding 全部置为 0 得到,另一种是特征裁剪,通过将 embedding 中的某些维度整列置为 0,实现了特征的裁剪,这个也很有意思;

  4. Dropout:这种有点类似于 SimCES,通过利用 dropout,随机将某些输入置为 0,相当于加了对应的噪声,从而得到数据增强之后的样本。

相关的数据增强方法示意图如下图所示:

通过这些方法实现对数据进行增强后,参考 SimCLR 的思路,针对一个 Batch 中的 N 个样本做两次数据增强,这样就得到了 2N 个样本,然后这2N个样本经过 BERT 进行编码,输出,得到句子的语义表示,接着使用 InfoNCE 的变种 NT-Xent 损失函数作为目标,来实现对比的约束。

以上就是本文的整个技术部分和主要贡献。个人觉得最有意思的地方在于数据增强部分,作者巧妙避开了直接对输入做数据增强会造成语义变化的问题,而是从 embedding 入手,进行数据增强。非常巧妙,很有意思。

Experiments

为了验证提出的方法的效果,作者在文本语义匹配 STS 任务上进行了充分的实验,验证了 7 个不同的 STS 数据集,这个任务主要是用于验证两个句子之间的语义相似度(-1,1)。

4.1 无监督+有监督

首先是无监督和有监督实验结果,从实验结果中,作者在其他条件一致的情况下都去了非常好的效果,而且在融入监督信息的实验中,作者发现 joint-unsup 方法取得了最好的效果。

4.2 embedding空间的对比

在前文中作者提到 BERT 未经微调时其对句子语义的编码会坍缩在一个小范围内,为了验证作者提出的方法是否解决这个问题,作者进行了embedding空间的对比,实验结果证明作者提出的方法确实有效。

4.3 数据增强方式的效果对比

既然使用了数据增强,那就要验证哪种数据增强的效果好,作者也进行了相关的实验,实验结果正式,单纯从数据增强的方式进行对比的话,Token Shuffle > Token Cutoff >> Feature Cutoff ≈ Dropout >> None.

4.4 少样本实验

既然本文的目的是为了解决微调阶段对标注数据的依赖,那么就要验证在少标注样本的条件下,作者提出的方法方法是否有效,从实验结果看,还是有不错的效果的。

Conclusion

这篇文章还是一篇很有意思的文章,作者首先在使用数据增强方式上使用了一个很巧妙的思路,避开了使用数据增强对及自然语言句子语义的改变问题。其次,作者为了验证所提出的方法的有效性,进行了大量的实验,实验结果也充分证实了作者提出的方法的有效性。非常值得一读的一篇文章。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

ACL 2021 | ConSERT:基于对比学习的句子语义表示迁移框架相关推荐

  1. AAAI 2021 | 基于对比学习的聚类工作

    ©PaperWeekly 原创 · 作者|李云帆 学校|四川大学博士生 研究方向|聚类,无监督表示学习 论文标题: Contrastive Clustering 论文来源: AAAI 2021 论文链 ...

  2. NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法

    ©PaperWeekly 原创 · 作者 | 李婧蕾 学校 | 北京邮电大学硕士生 研究方向 | 自然语言处理 Abstract 无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别.然而,在学 ...

  3. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  4. 从各大顶会看对比学习在句子表征研究进展

    作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP 前已经有博文整理过了对比学习的概念,比较重要且流行的文章,和一些已经有的应用: YYDS!对比学习还能这么用? 从顶会论文看对比 ...

  5. AAAI 2022 | 北大 阿里达摩院:基于对比学习的预训练语言模型剪枝压缩

    近年来,预训练语言模型迅速发展,模型参数量也不断增加.为了提高模型效率,各种各样的模型压缩方法被提出,其中就包括模型剪枝. 然而,现有的模型剪枝方法大多只聚焦于保留任务相关知识,而忽略了任务无关的通用 ...

  6. 直播预告 | AAAI 2022论文解读:基于对比学习的预训练语言模型剪枝压缩

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  7. PCL-SISR:基于对比学习的单幅图像超分辨率重建方法

    ©作者 | 高帆 学校 | 北京邮电大学 研究方向 | 计算机视觉 随着 Transformer 的提出以及在底层任务上应用的进一步探索,相信在很多底层任务数据集上可以取得新的 SOTA 成绩.但是不 ...

  8. 【自然语言处理】【对比学习】SimCSE:基于对比学习的句向量表示

    相关博客: [自然语言处理][对比学习]SimCSE:基于对比学习的句向量表示 [自然语言处理]BERT-Whitening [自然语言处理][Pytorch]从头实现SimCSE [自然语言处理][ ...

  9. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

最新文章

  1. LeetCode简单题之合并两个链表
  2. shell定时执行hive脚本文件
  3. 数据结构与算法—一文多图搞懂双链表
  4. Java初学者的学习思路与建议
  5. linux磁盘信息文件,Linux查看硬盘信息方法总结归纳
  6. 尝试连接到服务器时出错请检查虚拟机管理器,Hyper-V尝试连接到服务器出错无效类的解决方法...
  7. Java 替换字符串中的回车换行符的方法
  8. python自动化办公模块有哪些-Python 自动化办公|Word文档
  9. shell 004 __小斌文档 |数组+函数
  10. html,css,js 实现树形菜单栏
  11. SVN修改提交后的文件名
  12. 【数据结构-源码分析】HashMap源码分析(超级详细)
  13. idea中用rest风格发送delete,put请求报405(tomcat8)
  14. ExcelJs导出Excel文件并设置单元格样式
  15. 高薪资的优秀平面设计师是怎样的
  16. 面向高稳定,高性能之-Hbase数据实时同步到ElasticSearch(之二)
  17. Windows驱动_WSK驱动之三WSK编程注意事项
  18. 2019电赛--OpenMV学习笔记
  19. web常见的攻击方式(WebAttack)及如何防御
  20. 快手客户端开发面试(一二三+HR面)

热门文章

  1. 容器安全最佳实践入门
  2. mysql router测试_MySQL 主从复制配置 + MySQL Router 部署使用测试
  3. prince2 成功的项目管理_PRINCE2试听福利丨成功的项目管理方法论
  4. 审查元素上传php,KindEditor上传解析漏洞/列目录/内容漏洞_PHP教程
  5. DLNg[结构化ML项目]第二周迁移学习+多任务学习
  6. Java通过Pattern类使用正则表达式
  7. 常用模块(数据序列化 json、pickle、shelve)
  8. 1 Two Sum (Array)
  9. 为什么要两次调用encodeURI来解决乱码问题
  10. Mac终端建立替身 并置于桌面或Finder中