作者丨张冠华

单位丨腾讯实习生 & 哈工大本科生

研究方向丨自然语言处理

导读

句对匹配 (Natural Language Sentence Matching,NLSM) 任务是指给定两个句子,判断它们的关系。常见的自然语言处理任务如 Paraphrase Identification 和 Natural Language Inference 都属于句对匹配的范畴。

在本文中,我们调研了六个 NLSM 数据集,发现这些数据集中广泛地存在一种样本选择偏差 (Selection Bias),以致于只使用三种和语义完全无关的特征,就可以在一些数据集上达到和 LSTM 差不多的准确率,这些特征被称为泄漏特征 (Leakage Feature)。

事实上, Leakage Feature 在 Kaggle 的各种比赛中早已受到了广泛的关注。在 Quora 官方在 Kaggle 上举行的比赛 Quora Question Pairs [1] 中,排名前列的模型中全部都用到了 Leakage Feature。而在 WSDM - Fake News Classification [2] 的数据集中,Leakage Features 也有很强的预测能力。

虽然 Leakage Feature 的预测能力很强,但是这些特征中的模式只是数据集构造过程中人工引入,在真实世界中不可推广。所以在比赛的讨论区中,Kaggle Grandmaster,boost.ai 的首席数据科学家 Abhishek 就曾质问比赛的严肃性。

本文探究了 Leakage Feature 的产生原因和其对深度模型的影响,并提出了一种不需要任何额外资源的去偏训练、评估方法,实验证明我们的方法能提升模型的真实泛化能力并提供更可靠的评估结果。

问题定义

句对匹配中的Leakage Features

在本文中我们定义的三个 Leakage Feature 分别是:

  • 句子 1 在数据集中出现的次数 S1_freq

  • 句子 2 在数据集中出现的次数 S2_freq

  • 在数据集中与句子 1 和句子 2 都比较过的句子数量 S1S2_inter

从表 1 可以看出,六个数据集中有四个都不同程度的受到 bias的影响。在 QuoraQP 上,只使用三个 Leakage Feature 甚至可以达到和 LSTM 差不多的结果。

这三个 Leakage Features 能有这么强的预测能力,本质上反映的是数据集中的 Selection Bias。

什么是 Selection Bias?

Selection Bias 指的是在数据采样过程中由于遵循了某种非随机的采样策略而导致的偏差,这导致采样出的数据相对于真实数据并不具有代表性。比如当我们想调查国民人均受教育程度的时候,如果只在大学里发调查问卷,那么得出的结论就是国民人均受教育程度都是本科以上。

而在句对匹配任务中,为什么会产生 Selection Bias 呢?我们结合 SNLI 和 QuoraQP 的数据集准备过程进行了合理的推断。

在 SNLI 的准备过程中,标注工人们需要根据给定的“句子 1” (premise scene descriptions) 为三种标签分别写一个“句子 2”。而在这个过程中发现,工人们会根据标签重复使用一些句子来做"句子 2",我们推测正是这种“复用”的操作导致了 SNLI 有偏。如下图,我们可以发现在 SNLI 中,随着 S2_freq 的增大,标签变得更倾向于是 Entailment。

在 QuoraQP 的准备过程中,数据集的准备者们提到:

我们最初的采样方法返回了一个很不均衡的数据集,其中正例多过负例。因此我们补充了一些负样本进去,其中负样本的一个来源是“相关问题”。

这种“补充负样本”的操作可能就是 QuoraQP 有偏的原因,我们推测这些后添加进去的句子可能只在数据集中出现了很少的次数,从下图我们可以看出,在 QuoraQP 中,当句子 1 和句子 2 出现次数都很多的时候,标签倾向于为 1;而当有一个句子出现次数很少的时候,标签则倾向为 0。

数据集有偏会带来什么影响?

我们的实验表明模型能捕捉到这种 bias,而这会导致以下两个结果:

  • 模型的评估结果“虚高”,因为 Bias 在原始的测试集中有很强的预测能力。

  • 模型的真实泛化能力下降,因为这种 bias 是不可推广的。

去偏方法

首先我们定义了一个 Leakage-Neutral 分布为 X×A×Y×S,其中 X 是语义特征空间,Y 是语义标签空间,L 是采样策略特征空间,S 是采样意图空间。S 表示数据集准备者在采样时想要选择的样本标签。比如 S=1,代表准备者想采一个正样本。

我们假设,在数据集准备过程中,对于每个样本 (x,y,s,l),如果 s=y,则该样本被采进数据集,否则该样本被丢掉。通过这种方式,产生了现有的有偏的数据集分布

我们对 Leakage-Neutral 分布的定义有以下假设,第一个假设是 Leakage-Neutral 假设:

这个假设表明在 Leakage-Neutral 分布中,采样决策变量 L 和标签 Y 无关,这也使得 Leakage-Neutral 分布更贴近真实分布。第二个假设是:

这表明采样意图变量 S 由采样决策变量 L 完全决定。

我们证明,通过对模型在训练和评估的时候添加适当的 sample weight,可以等价于在 Leakage-Neutral 分布中训练和评估。算法的流程图如下,指的是原本有偏数据集的分布,具体证明见论文。

在实践中,我们用随机森林 100 折交叉预测来估计,同时我们为 P(Y=0) 设定了一个特定值来保持先验不变。

实验结果

不失一般性,在论文中,我们以 QuoraQP 为分析对象。QuoraQP 是一个二标签文本对匹配数据集,旨在判断给定的两句话语义上是否重复(重复为 1,不重复为 0)。

我们把在原有偏数据集中正常训练的模型叫 Biased Model,把加权训练的模型叫 Debiased Model。在有偏的测试集中正常测试的结果叫 Biased Eva,加权测试的结果叫 Debiased Eva

如图三所示,Debiased Model 在有偏评估中低于 Biased Model,这是因为 bias 在原测试集中有预测能力。而在加权评估中 Debiased Model 高于 Biased Model,这是因为加权测试中 bias pattern 没有预测能力,当模型捕捉到 bias 并利用其进行预测,这实际上会起负作用。

如图四所示,加权训练的模型在合成数据集、MSRP、SICK 中均有更好的预测能力,说明我们的方法能有效降低 bias 的影响,提升模型的真实泛化能力

总结

在本文中,我们调研了六个 NLSM 数据集,发现这些数据集中广泛地存在一种样本选择偏差,以致于只使用三种和语义完全无关的特征,就可以在一些数据集上达到和 LSTM 差不多的准确率,针对这种偏差,我们提出了一种不需要任何额外资源的去偏训练、评估方法,实验证明我们的方法能提升模型的真实泛化能力并提供更可靠的评估结果。

相关链接

[1] https://www.kaggle.com/c/quora-question-pairs/overview

[2] https://www.kaggle.com/c/fake-news-pair-classification-challenge/overview

点击以下标题查看更多往期内容:

  • 基于DGCNN和概率图的轻量级信息抽取模型

  • ACL 2019 | 基于知识增强的语言表示模型

  • 一文详解Google最新NLP模型XLNet

  • 自然语言处理中的语言模型预训练方法

  • 一大批中文(BERT等)预训练模型等你认领!

  • ACL 2019 | 基于上下文感知的向量优化

  • NAACL 2019最佳论文:量子概率驱动的神经网络

  • 基于小样本学习的意图识别冷启动

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

ACL 2019开源论文 | 句对匹配任务中的样本选择偏差与去偏方法相关推荐

  1. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量.并且大多数研究将实体映射到低维空 ...

  2. ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 当前问答系统面对的一大问题就是如何利用先验知识.我们人类可以通过不断的学习,掌握非常多的先验知识,并通过这些知识来回答问题. ...

  3. ACL 2019 开源论文 | 使用跨领域语言建模的跨领域命名实体识别

    作者丨刘朋伯 学校丨哈尔滨工业大学硕士生 研究方向丨自然语言处理 本文是西湖大学张岳老师组发表在 ACL 2019 的一篇文章,提出了一种跨领域的 NER 方法.代码已开源: https://gith ...

  4. ACL 2019开源论文 | 基于Attention的知识图谱关系预测

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 由于传统方法都将三元组进行独立的处理,忽略了其相邻的三元组之间隐藏的固有信息的缺点,使得无论是转化模型还是较新的基于卷积神 ...

  5. SIGIR 2019 开源论文 | 结合答案信息的重复问题检测方法

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 社区问答一直是一个非常热门的地方,人们在这里提出问题,寻找答案,例如知乎,Quora 等.但是社区问答一直有一个很严重的问题 ...

  6. CVPR 2019 开源论文 | 针对未知目标领域的通用领域适配方法

    作者丨游凯超 学校丨清华大学软件学院本科生 研究方向丨迁移学习和领域适配 这篇论文发表于 CVPR 2019,是我们团队(清华大学龙明盛副教授的团队)在领域适配问题设定方向的最新探索:我们将领域适配问 ...

  7. ACL 2019最佳论文出炉:华人团队包揽最佳长短论文一作,中科院、华为等榜上有名...

    郭一璞 安妮 边策 发自 凹非寺 量子位 出品 | 公众号 QbitAI ACL 2019最佳论文新鲜出炉了. 刚刚,自然语言处理领域的顶会ACL 2019公布最佳论文,本次共颁布了4个奖项,共有8个 ...

  8. 图注意力网络_EMNLP 2019开源论文:针对短文本分类的异质图注意力网络

    本文同步发表在 PaperWeekly EMNLP 2019开源论文:针对短文本分类的异质图注意力网络​mp.weixin.qq.com 本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2 ...

  9. NLP领域近期有哪些值得读的开源论文?(附下载)

    来源:PaperWeekly 本文约3300字,建议阅读8分钟. 本文为你分享10篇值得读的NLP论文,带源代码的那种~ @paperweekly 推荐 #Relation Extraction 本文 ...

最新文章

  1. js 跨页面的全局变量
  2. 底板芯片组与内存映射(Motherboard Chipsets and the Memory Map) 【转】
  3. java 强制垃圾回收_Java垃圾回收机制
  4. 富文本框让最大四百像素_TinyMCE 富文本编辑器 ━━ 基本配置
  5. Spark源码分析之SparkContext
  6. 微信仿今日头条导航栏滚动
  7. 单片机控制三相异步电动机正反转c语言程序,请用PLC控制一台普通三相异步电动机的正反转控制,设计其控制程序梯形图及主电路...
  8. win7系统修复工具_win7系统如何修复
  9. USB TYPE A B C 引脚定义
  10. VMware的网络连接原理
  11. 微信会员卡,微信会员系统
  12. macOS Monterey 12.3 (21E230) 正式版 ISO、IPSW、PKG 下载
  13. oracle failover mode,Oracle RAC FailOver配置
  14. 餐厅点菜c语言程序代码,C语言编程——餐馆点菜
  15. MTK Android部分配置修改
  16. Java多线程——notify()与notifyAll()的区别
  17. 商用密码应用与安全性评估之(一)网络空间安全形式与商用密码工作
  18. C语言:输入一个长度未定的整形数组[C_001]
  19. 汉标断筋大圆字体发布
  20. Spring-AOP表达式execution()详解

热门文章

  1. 《Cloud Native Infrastructure》CHAPTER 7 (1)
  2. LiveQing私有云端直播点播流媒体服务-功能一张图
  3. 信步漫谈之Git—环境搭建及入门
  4. MongoDB学习笔记Day3
  5. Android中应用安装分析
  6. 对CAS机制的理解(一)
  7. MessagePack 学习笔记
  8. ios测试宏指令出错:“Expected identefier”
  9. Opera 发布新技术 Opera Unite
  10. 细节决定成败,做网站也是如此