会议论文地址:(别人整理的,存在遗漏,而且,大家重点可能也不一样,就做参考吧)https://zhuanlan.zhihu.com/p/509026879

开胃菜

A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction

整体感觉:

水(虽然是ACL findings)

论文核心:

现在有些研究在做关系分类任务时,会考虑到实体和关系描述信息对于任务的帮助,因此,会采取措施将这两类信息融入进来,但是怎么融入呢?之前的一些研究,比如对抗学习、层级网络等等,其实,是挺复杂的,所以,这篇文章是希望以一种简单直接的方式将关系信息融入进来。

论文为什么觉得他们的方法有效?

(1)直接引进关系信息相比于复杂方法,不会产生太多的噪声信息(2)直接引进的方式,参数大大减少。

论文方法

就是直接将训练数据中得到的关系的原型表示(相同关系类型下,句子表示的平均嵌入表示)和关系表示(view1:【CLS】,view2:关系描述的平均)做cat,得到一个2d的向量(d是针对bert的词嵌入维度)

吐槽下:这篇文章的ablation study,感觉不太全面,感觉全程在围绕“linear”在说
直接看论文就知道了。

重头戏

Sentence-Level Resampling for Named Entity Recognition

论文核心

这篇文章是针对怎么重构数据集展开的,数据集也就是语料对于整个训练过程或者模型表现也就具有较大的影响力的。这篇文章是根据频率做采样,不是阈值,所以,一个句子可能会被多次选择,比如,当fcs的频率是3时,这个句子会被采样3次。这直接导致了整个训练时长的增加。

背景(数据不平衡问题之前的解决方式)

数据不平衡:数据量少、长尾分布两点。
前人解决:

  1. focal loss(对类少的加大权值)——焦点损失(何凯明)
  2. dice loss (不清楚)
  3. 数据采样:对类少的部分做上采样、类多的做下采样来缓解数据不平衡的问题,但会导致训练数据减少
  4. 子句采样(我理解的大概意思是对一个句子采样,因为可能存在一个问题,就是,句子的实体会干扰句子分类,比如,当句子中有某两个实体时,分类器可能就直接把它归为一类,而不考虑语义等情况。但子句采样,可能会破坏语义信息的完整性)

论文解决方式

看这篇文章,文章解决的思路,感觉像是从信息检索领域出发的。
其实核心问题,就是:怎么选择句子?
文章中给出了四个指标:

  1. 实体tokens数量——这个因素反映了检索函数中的词频 236 (Salton and Buckley, 1988)-----一个句子中含有的实体数量
  2. 实体类型的罕见性——反映文档在检索领域的频繁性
  3. token被标记为一个实体的密度((number of entity tokens compared to the length of a sentence)——这 个因子反映了 检索函数中的文档长度标准化(Singhal 等,1996)
  4. 边际效用递减法则——当含有同种类型实体的token数量增多时,边际效用递减。

采样方法

根据这四个指标,提出了四种采样计算方式。

  1. sC(考虑实体数量)
  2. sCR(考虑实体数量和实体罕见性)
  3. sCRD (考虑实体数量、罕见性和密度)
  4. nsCRD (四个因素全部考虑)
    (在构建频率计算公式时,文章多采用的是二范式,给出的解释是,为了避免变化频率较快,因为根号_x相比于x的变化,确实慢一些)

评估

就是比较不同采样频率下的效果。

总结

值得看,是因为,影响因素开始作为量化指标,但影响因素不仅仅是文章中的四个,而且,怎么根据影响因素制定采样规则,也因任务而异,这是可以在思考的地方

懵状态

Should We Rely on Entity Mentions for Relation Extraction? Debiasing Relation Extraction with Counterfactual Analysis

论文核心

这篇文章,没太搞明白,是奔着标题来的。
实体关系可能会对关系分类任务泄露虚假的线索——出发点
我们提出了 CORE(基于反事实分析的关系提取)去偏方法,该方法指导 RE 模型关注文本上下文的主要影响,而不会丢失实体信息。

整体感觉,这篇文章有点意思,他考虑纠正学习得到的语义信息中的信息偏差,来实现更好的关系分类任务。
(基于反事实分析,我们可以分析 RE 中实体提及的副作用,并以实体感知的方式对模型进行去偏)

第一个问题:信息偏差有哪些?

这篇文章是从实体偏差和标签偏差两点展开的。
实体偏差——实体可能会对关系分类任务泄露虚假的线索
标签偏差——标签分布的不均衡(可以理解为部分label的出现概率先天性偏低)

第二个问题,怎么得到信息偏差?

其实,作者思路挺简单的。
第二个和第三个图是作者给出的图。
第二个,就是在解决实体偏差。
也就是,我只给实体信息,feed to the RC ,根据结果好坏,大致就知道实体偏差了——Y1
而label偏差,对应第三个图,啥都不给,RC去做分类吧,这样大致就知道Label 偏差了——Y2
接下来,就是要mitigate these bias,移除偏差,
Y_final=Y-lamda_1Y1-lamda_2Y2,就可以了,
而lamda取值,作者给出的方式是网格搜索(网格束搜索)grid beam search

评估指标:macro-F1


论文中也指出,

Some work argues that RE models may rely on the entity mentions to make relation predictions instead of the textual context (Zhang et al., 2018; Joshi et al., 2020). The empirical results in Fig. 3 validates this argument.

总结

总体来看,这篇文章也挺有意思的

多模态(图像+文本)

这篇文章思路感觉还好,考虑了目标检测。
图像部分考虑了三部分信息,见下图。(object tags/image caption/OCR text)
采用的是序列标注的方式,整个模型的loss是包括三部分,
一是直接text输入产生的label
二是text+image转换后的文本产生的label
三是text和image相关的文本的分布异同(KL散度)

EmRel: Joint Representation of Entities and Embedded Relations for Multi-triple Extraction

论文核心

多元组之间的交互和实体、关系之间的交互关系较为复杂
文章提出显示的将关系表示融入到模型中(我个人感觉,文章想法一般——目前感觉)

前人研究

现有作品大多采取实体视角,重点探索跨实体交互(Xu et al., 2021; Zeng et al., 2020)。

  1. 他们要么将关系视为最终分类器中指定的原子标签(Xu et al., 2021; Zeng et al., 2020; Wang etal., 2020)

  2. 要么简单地为每个单独的关系搜索主题和对象(Wei et al., 2020)。 , 2020;

下图,左图是实体角度,右图是联合抽取角度,可以发现不同在于关系有无。

文章做法

首先明确地将关系表示创建为嵌入向量;然后通过基于注意力的融合模块对丰富的关系实体-上下文交互进行建模,从而细化这些关系(以及实体)表示;最后通过对齐联合空间中实体和关系的表示来识别有效的三元组,并使用基于 Tucker 分解的新对齐函数。
模型图如下,可以看到的是三个注意力模块,每个模块都会产生大量的参数,
文章给出的是注意力模型由残差网络、前向网络和正则化三部分构成。


目标是判断给定的三元组是否为三元组,也就是计算《s,r,o》的分值。
为了充分利用它们的表现力,我们提出了使用 Tucker 分解的基于分解的对齐方式(Tucker et al., 1964)。我们引入一个核心张量 Z ∈ R de∗dr∗de ,每个 < si , rk, oj > 的有效性评分为:

总体感觉

参数引入量挺多的,模型建的也比较复杂,不过,最后的评价方式可以借鉴,之间面向三元组评价和最终的评价是直接挂钩的。

NAACL——2022会议在读相关推荐

  1. NAACL 2022 | 机器翻译SOTA模型的蒸馏

    ©PaperWeekly 原创 · 作者 | BNDSBilly 研究方向 | 自然语言处理 Background ICLR 2021 的一篇文章提出了基于 KNN 方法的机器翻译(kNN-MT),可 ...

  2. NAACL 2022 | 字节和加州大学提出ConST模型,探讨对比学习如何助力语音翻译?

    原文链接:https://www.techbeat.net/article-info?id=3692 作者:叶蓉 前言 全球化下应用最广泛的 AI 技术是什么?机器翻译必然是其中之一.除了纯文本信息的 ...

  3. NAACL 2022 | DOP-Tuning: 面向对话摘要领域自适应的轻量级微调方法

    ©作者 | 曾伟豪 单位 | 北京邮电大学 研究方向 | 对话摘要生成 本文介绍一下我们组在面向领域迁移的对话摘要任务上的工作. 论文标题: Domain-Oriented Prefix-Tuning ...

  4. Call for Papers | IEEE/IAPR IJCB 2022 会议

    关注公众号,发现CV技术之美 IEEE/IAPR IJCB 2022会议在阿联酋召开,这是中东地区首个国际生物特征识别会议,欢迎大家投稿,截止日期4月29日.会议将采用混合模式,线上线下同时举办. h ...

  5. NeurIPS 会议怎么读

    NeurIPS 会议怎么读 原名:NIPS 因为有人觉得这个缩写歧视女性,被迫改为NeurIPS NIPS的全称是Neural Information Processing Systems(神经信息处 ...

  6. NAACL 2022事件相关(事件抽取、事件关系抽取、事件预测等)论文汇总

    NAACL 2022事件抽取相关(事件抽取.事件关系抽取.事件预测等)论文汇总,已更新全部的论文讲解. Event Extraction RAAT: Relation-Augmented Attent ...

  7. KCL 论文被 SETTA 2022 会议录用

    近日,由 KusionStack 团队成员撰写的关于 KCL 创新论文被 SETTA 2022 国际会议长文录用. Symposium on Dependable Software Engineeri ...

  8. NAACL 2022 | DiffCSE:基于差异的句向量对比学习方法

    ©作者 | 曾伟豪 单位 | 北京邮电大学 研究方向 | 对话摘要生成 论文标题: DiffCSE:Difference-based Contrastive Learning for Sentence ...

  9. #今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习

    #今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习 预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展.然而,在数据稀缺的情况下,微调 PLMs 是一项挑战.因 ...

最新文章

  1. 前端必备知识点—SVG
  2. linux 的ip 设置lo_Linux服务器设置静态IP的方法
  3. 【C语言】第八章 地址操作与指针 题解
  4. html中怎么给url格式化,如何将文本中的url提取出来格式化,然后将其它的html escape?...
  5. Swift---TextView用法
  6. 网站扫描服务器全部开放端口,服务器开放端口扫描
  7. 手机号码检测开通微信查询方法
  8. shuffleNet实现
  9. 虚假唤醒spurious wakeup
  10. 基于android下的amr转mp3
  11. 持久化存储PV与PVC
  12. python判断某一天是一年中的第几天
  13. js:ajax的get方法实现简单的搜索框提示
  14. 【懒懒的Python学习笔记三】
  15. R语言 Hurst指数计算
  16. 嗨!亲爱的朋友们,欢迎您光临我的BLOG
  17. 小企业如何利用区块链和大数据获利?
  18. 法官批准离婚申请 布兰妮正式恢复“单身”(图)
  19. python建立分析模型_《利用Python进行数据分析》13.2 使用Patsy创建模型描述
  20. 计算机应用考试实操试题,计算机应用基础上机操作试题(1)

热门文章

  1. 强势破解 Photoshop cc 2015 原版,面对没有脱机激活的解决办法
  2. pipeline与make_pipeline
  3. linux中libc如何升级,linux系统更新libc ,libstdc++标准库
  4. 手把手教你Nginx常用模块详解之ngx_http_status_module(十一)
  5. 物理页面的使用和周转
  6. 3万字死磕Java泛型所有细节知识点,看这一篇就够了
  7. 3D 漏斗图 锥形图表echarts
  8. 推荐 :机器学习的通俗讲解
  9. 解决Dreamweaver编辑UTF8网页时鼠标选择错位,不能精确定位
  10. Echarts折线图双辅助线