每天给你送来NLP技术干货!


来自:哈工大讯飞联合实验室

在前不久落下帷幕的第十六届国际语义评测比赛(The 16th International Workshop on Semantic Evaluation, SemEval 2022)中,哈工大讯飞联合实验室(HFL)在多语种新闻相似度评测任务(Task 8: Multilingual News Article Similarity)上以显著的领先优势斩获冠军。本期我们将对这个任务的夺冠系统进行简要介绍,更多具体细节请参考我们的论文。

论文标题:HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with Data Augmentation for Multilingual News Similarity

论文作者:徐梓航,杨子清,崔一鸣,陈志刚

论文链接:https://arxiv.org/abs/2204.04844

项目地址:https://github.com/GeekDream-x/SemEval2022-Task8-TonyX

任务介绍

SemEval-2022 Task 8是多语种新闻相似度评价任务。任务中给出来自多种语言的新闻篇章对,参赛队伍需要利用模型判定每一对新闻篇章是否描述了同一个事件,并以1至4分的范围为两篇新闻的相似度打分。任务共计覆盖10种语言,包括阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。与普通的文章相似度任务相比,该评测任务强调考察模型的跨语言理解能力,并要求模型把握文章中描述的具体事件,而不仅是写作风格。

SemEval 2022 Task8 数据样例

系统介绍

我们在语言学特征的启发下,基于多语言预训练模型和回归任务框架,针对当前比赛任务制定了一系列优化策略,最终系统结构如下图所示。整个系统流程包括数据处理、模型训练和预测结果后处理三个阶段:

  1. 数据处理:从指定网页爬取数据,进行数据清理,对清理后的数据做数据增强;

  2. 模型训练:采用基于XLM-R的多语言模型构建的多任务回归打分模型;

  3. 后处理:基于任务数据本身特性,对预测得分进行裁剪。

下面将针对部分主要优化技巧进行简要介绍。

SemEval 2022 Task8 HFL系统结构

1、数据增强

通过对比训练集和测试集数据分布,我们发现测试集多出3种语言及7种跨语言组合且非英语种占比差别巨大,因此,我们基于训练集进行了两阶段数据增强。首先,为了丰富训练集本身的非英语种数据,我们通过回译对所有包含非英语种的样本对进行了翻倍扩充。而后,通过直译对测试集新出现的语言和跨语言组合进行增强。为了保证增强后的数据具有足够强的语义丰富性,我们选用不同的原语言数据进行直译;同时,我们考虑了不同语种间基于语系语族的亲疏关系,设计了不同增强比例,具体方案如下表。对于和英语相近的语言,增强的样本较少(如德-法对新增317条样本);而和英语关系较远的语言,则增强了较多样本(如中-英对新增了800条样本)。

直译数据增强配对表

2、头尾拼接

由于XLM-RoBERTa所能处理的文本长度有限且数据集中有74%的篇章都长于256个token, 因此考虑对样本进行截取。新闻篇章有鲜明的结构特性,即头部(含标题)和尾部的信息量相对更大,因此我们决定将头尾进行拼接并尝试了不同比例,最终根据对照实验结果,选取头尾长度比例约4:1进行裁剪拼接。

3、多任务学习

如任务介绍部分所示,数据集提供了每个新闻篇章样本从Tone、Narrative等七个维度的相似性打分。尽管最终评测只针对Overall这个整体性维度,但我们认为合理地利用其它六个维度的信息将有助于提升整体性评估的效果,于是我们尝试了多种维度占比方案,发现当Overall权重提高时,模型最终性能有先提升后小幅降低的现象,最终模型选择性能达到峰值所对应的Overall权重范围。

4、Adapted R-Drop

R-Drop被证明是一种简单且有效的基于Dropout的正则化技术,为了更好地适应当前的任务,我们将其中的KL-divergence loss替换为MSE loss,并且通过超参来控制多任务回归学习损失和R-Drop损失的比例。在此基础上,我们还探索了不同forward次数对模型性能的影响。公式如下图所示:

Adapted R-Drop Loss计算公式

其中是样本两次forward的预测值,是样本真实值,α控制两种损失的相对强度。

5、其他尝试

除了上述方法,我们还尝试了模型加大增宽、多种获取篇章向量的方案如不同层pooling、基于双塔结构的交互回归框架等,在此任务上这些方法的表现都明显逊色于我们的最终方案。

实验结果

基于多组消融实验,上述提及的五种有效提升方案单独的优化能力如下表所示。

  • 我们针对数据增强做了对照实验(+DA),基于增强集训练得到的模型在测试集上性能提升最为明显,体现了该任务中数据丰富度的重要性。

  • 我们基于非数据增强场景,对其他优化技巧做了对照实验(头尾拼接、多标签、Adapted R-drop、多层分类层等),其中Adapted R-Drop效果最佳。

各优化方案实验结果

多语种新闻相似度评测任务最终榜单:哈工大讯飞联合实验室排名第一

结论

在三阶段系统框架中,数据处理部分主要使用了两种数据增强的方案,模型训练部分集成了头尾拼接、多任务、Adapted R-Drop和额外线性层等所有有效方案,后处理部分主要进行了打分裁剪和模型融合等工作,最终使得系统整体性能较baseline有较为显著的提升。在多语言新闻相似度场景中,上述优化方案较为充分地挖掘了多语言预训练模型的能力,后续研究工作中,可以尝试添加各语言规则相关特征来进一步提升系统在低资源语言上的表现。

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下

SemEval 2022 | 多语种新闻相似度评测冠军系统简介相关推荐

  1. 【推荐系统】新闻相似度计算

    文章目录 前言 一.新闻相似度计算思路 1.效果展示 2.实现思路 3.杰卡德相似系数 二.代码实现 1.分词 2.相似度计算 前言 通过结巴进行分词,通过杰卡德相似系数来计算新闻的相似程度,相似度大 ...

  2. 华为系统鸿蒙流畅度,鸿蒙系统流畅度怎么样 华为鸿蒙系统流畅度评测详解

    鸿蒙系统流畅度怎么样?鸿蒙系统是华为自主开发的手机操作系统,目前已经开放公测了.所以很多人就想知道这款鸿蒙系统流畅度和安卓系统比起来究竟怎么样.这里小编就为大家带来了鸿蒙系统流畅度评测,一起来看看吧! ...

  3. 基于网络爬虫的新闻实时监测分析可视化系统(Java+MySQL+Web+Eclipse)

    目 录 1 绪论 1 1.1 论文研究背景与意义 1 1.2 论文研究内容 2 2 系统需求分析 4 2.1 系统需求概述 4 2.2 系统需求分析 4 2.2.1 系统功能要求 4 2.2.2 系统 ...

  4. 持续推进绿色数据中心,绿色网格PUE评测查询系统发布

    ▼ 更多精彩推荐,请关注我们 ▼ 2019年8月28日,绿色网格一年一度的重要会议--"2019绿色网格高峰论坛"在北京召开,众多来自互联网企业.行业信息中心的技术人员,基础设施管 ...

  5. 东软360度反馈测评系统解决方案

    东软360度反馈测评系统是东软中间件面向现代管理中各种评测.考核应用推出的反馈测评管理系统,该系统主要通过在线调查的形式收集各方面的反馈意见,然后对结果进行统计分析,最终完成对人员和组织运行情况的诊断 ...

  6. GCB:西农韦革宏团队-土壤多营养级网络的复杂度增强农田系统生物多样性和多功能性的联系...

    土壤多营养级网络的复杂度增强农田系统生物多样性和多功能性的联系 Soil multitrophic network complexity enhances the link between biodi ...

  7. php修改新闻分类代码,新闻分类录入、显示系统_php

    本系统可以录入标题.内容.图片.相关软件,显示时会根据是否有有图片和相关软件来判断是否显示该项内容,打开页面显示的是最新的一片文章,点击目录会显示之前的文章. 建立channelimages和chan ...

  8. 车载360度全景监视系统

    车载360度全景监视系统 该系统在汽车的前后左右搭载4个鱼眼摄像头,在较便宜的硬件上通过软件算法对4个摄像头获取的视频图像实时进行鱼眼矫正.拼接.合成,从而实时地将汽车周边的景象以360度全景图像的方 ...

  9. 英语口语智能测试软件,口语易英语口语智能评测训系统 官方版v7.9

    口语易英语口语智能评测训系统是一款专业的英语教育软件,主要是针对口语部分,帮助使用者检测口语水平.软件会通过语音识别以及分析技术对测试者进行音频的采集识别,经过分析之后就能给测试者打个评分,让测试者了 ...

  10. ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略

    ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介.使用方法.案例应用之详细攻略 目录 PSI(稳定度指标)的简介 1.如何计算PSI? (1).PSI计算过程

最新文章

  1. CSS粘住固定底部的5种方法
  2. 在docker中使用MySQL数据库
  3. 如何让SiteMapPath使用指定路径指定名称的sitemap文件。
  4. Android_(消息提示)多种使用Toast的消息提示
  5. paddlepaddle安装
  6. jQuery HTML 添加和删除元素
  7. svn错误:Two top-level reports with no target
  8. 【转】集合类说明及区别
  9. seo需要处理页面html,为什么单页面的seo不友好?如何解决这一问题?
  10. [导入]MSIL: call callvirt
  11. 微信AI正在完成:有码走遍天下,从此花钱刷脸
  12. java面向对象的基本概念
  13. Java 文件读写示例1
  14. 应用程序正常初始化000007b失败
  15. 腾达无线路由器dns服务器,腾达路由器怎么手动设置dns地址
  16. 京东618大促,全店商品如何导出?
  17. 源文件如何一步步到可执行程序【程序员必修课】
  18. 无线网络打印机服务器安装步骤,在win7安装带网络服务器的打印机步骤.ppt
  19. 【Python】SEBS模型计算蒸散发
  20. PhotoZoom Classic 7怎么样?对电脑和系统要求高不高?

热门文章

  1. Doris单机安装部署
  2. slf4j打印日志必须的三个依赖包
  3. 实例10:文本词频统计分析
  4. linux桌面版如何配置,技术|如何为 Linux 桌面配置 Openbox
  5. 加拿大AI分析平台Canvass Analytics获500万美元融资
  6. Web测试中需要注意的小地方,你知道几个?
  7. 数据库连接不上服务器及数据导入不成功问题
  8. Android OpenGL ES 3.0 相机基础滤镜
  9. 出身名门的至尊旗舰,心系天下三星W2017图赏
  10. spring中读取property的几种方式及解析