前言

今天偶尔发现一篇关于低资源场景下知识抽取的综述,感觉还不错,分享给大家。

从非结构化文本中提取结构信息的知识提取 (KE) 经常受到数据稀缺和新出现的不可见类型(即低资源场景)的困扰。截至目前,许多关于低资源 KE 的方法已被广泛研究并取得了令人印象深刻的性能。这篇就对低资源场景中的 KE 进行了文献综述,并将现有工作系统地总结分为三种范式:

(1)利用更高资源的数据

(2)利用更强的模型

(3)利用数据和模型在一起

同时给了一些有前景的应用并概述了未来研究的一些潜在方向。

论文链接:https://arxiv.org/pdf/2202.08063v1.pdf

Preliminary on Low-resource KE

首先介绍一下什么是KE,比较常见的就是命名实体识别Named Entity Recognition (NER) 、关系抽取Relation Extraction (RE)、Event Ex- traction (EE)事件抽取。其实这些任务本质上都是分类任务。

但是在实际场景中,数据往往是低资源的,具体的可以归结为:

Long-tail Scenario :分类类别中只有少数类别有足够的标注样本,而大多数类别只有少的可怜样本

Few-shot Scenario、Zero-shot Scenario:就是常见的Few-shot 和Zero-shot的问题

看完了存在的上述问题,下面就来看看目前存在的一些方法,注意在下面的介绍中笔者都是高度写了其核心idea,至于一些关于该idea的具体实践paper,大家感兴趣的话可以去看论文中列出的一些文献

Exploiting Higher-resource Data

这个方法是借助内生或外生的辅助资源对原始小样本数据进行数据增强或知识增强。

(1)Weakly Supervised Augmentation

通过弱/远程监督自动生成更多的训练数据,比如利用知识库和一些启发式规则来自动重新标记语料库中的训练数据。但是这样生成的训练集可能包含很多噪声,所以作者在这里将此类方法归结为弱监督。关于这方面作者列举了一些paper,大家对这类idea感兴趣的可以去看看原论文,这里就说一篇比较新的paper吧

《BOND: bert- assisted open-domain named entity recognition with distant su- pervision》

其提出了一个two-stage框架, 在第一个stage的时候使用BERT来远程监督NER任务,在第二stage让模型去fit 训练集

(2)Multi-modal Augmentation

多模态(文本,图像,语音,视频等等)增强,通过引入其他模特的数据来增强当前数据的不足,这类idea的paper相对来说比较新,都是近几年才出现的,感兴趣的小伙伴可以看论文中给出的一些paper,笔者也写过一些多模态的综述

多模态预训练模型综述 - 知乎前言2021年诺贝尔生理学、医学奖揭晓,获奖者是戴维·朱利叶斯(DavidJulius)和阿代姆·帕塔博蒂安(Ardem Patapoutian),表彰他们在“发现温度和触觉感受器”方面作出的贡献。那作为算法从业者,我们该思考些什…https://zhuanlan.zhihu.com/p/435697429

(3) Multi-lingual Augmentation

跨语言增强,就是使用其他语种来增强当前数据,其实广义上来讲这也是一种多模态方法

(4) Auxiliary Knowledge Enhancement

利用外部辅助知识来增强,具体的作者将该部分又细分为三类即文本、知识图谱、规则

文本:比如《Improving event detection via open-domain trigger knowledge》这篇是利用丰富的开放域事件触发知识来提供额外的语义支持进而解决事件抽取任务

知识图谱:这里就是利用一些已经存在的知识图谱来做知识增强

规则:这里就是五花八门的,利用规则等等建立联系,比较有意思,大家可以看下论文中提到的相关文献

Exploiting Stronger Models

这里是第二大类方法即通过更具有鲁棒性的模型来做,具体的就是开发更健壮的模型进而更好地应对样本分布不均和新的看不见的类别等问题。更强的模型有望提高学习能力,从而充分利用现有的小数据,减少对样本的依赖。

基于这个大的逻辑,作者也进行了一些归类,下面我们具体看看

(1) Meta Learning

相信大家对于Meta 学习不是很陌生了,其的出现主要是解决few-shot 任务的,这里的paper主要就是借鉴了Meta 学习的思想。

(2)Transfer Learning

利用迁移学习,具体的作者将其细分为两大类即Class-related Semantics和Pre-trained Language Representations,前者主要是让低资源的模型从高资源中进行迁移学习,后者大家就很熟悉了就是预训练模型bert等等

(3)Prompt Learning

这是一个最新很火的idea,不过现在好像也已经慢慢降温了,在这段时间还是出现了很多关于Prompt 思想的论文的,有时间笔者会写一篇这方面的文章

总结来说就是提示学习,将一些设计的模版作为输入放到模型中。

Exploiting Data & Models Together

最后一大类方法就是综合利用前两种思想

(1)Multi-task Learning

多任务学习,大家也应该比较熟悉了即通过共同利用任务通用的共性和任务特定的差异来同时学习多个相关任务,从而提高任务特定模型的学习效率和预测精度。

(2)Formulating KE as QA/MRC

将知识抽取任务转化为QA和MRC任务即将命名实体识别、关系抽取、事件抽取转化为在文本寻找spans,这样以后出现了新类型也可以通过寻找spans解决

(3)Retrieval Augmentation

这里是将检索引了进来,具体的作者又细分为Retrieval-based Language Models和Few-shot Settings,前者比如在生产的时候是去训练集里面检索,本质上将问题转化为学习一个相似函数,而不是生产一个word,这样难度就大大变小了;后者就是学习具有相同label样本的表征,类似idea的模型就是KNN-BERT

Benchmarks

这里作者给大家列举了一些低资源场景下知识抽取的公开数据集,如果大家有自己的idea想做实验的话,可以在其上面实验

​潜在的研究方向

作者在最后也提出了些将来潜在的可研究方向

(1)Realistic Settings

这里主要讲一些研究基于的数据都不切实际,更应该多关注实际工业场景的数据

(2)Domain Adaptable

领域适应,比如在医学语料库上训练的低资源 KE 模型可能无法适应新兴的金融语料库,所以可以多研究一些对域适应具有鲁棒性的方法

(3)Neuro-symbolic

现在很多的方法都是基于深度学习网络的,这些网络都是黑盒的,不可控不可解释,于是可以考虑研究将显示的规则和深度学习网络结合的方法

(4)Unified KE

各个任务、数据集的KE都不一样,所以研究框架以统一的 KE 。

总结

(1)paper最后提到的那些潜在的研究方向其实是NLP领域一些常见通用的研究方向。

(2)总的来说paper中列举的一些方法都是大家日常常见的,作者在这里对其进行了归纳总结,使得我们在学习的时候有一个总体的框架逻辑,有了这个picture,我们在做具体的技术选项时候就更加清晰了。

关注

欢迎关注,下期再见啦~

欢迎关注笔者微信公众号:

github:

Mryangkaitong · GitHubhttps://github.com/Mryangkaitong​​​​​​​

知乎:

小小梦想 - 知乎

低资源场景下知识抽取的综述与展望相关推荐

  1. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  2. 中科院刘康:低资源环境下的事件知识抽取

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  3. 北大学姐博士阶段收官之作ACL2020-低资源场景下的对话系统任务模型定制

    AI TIME欢迎每一位AI爱好者的加入! 用最少的语料训练生成模型是构建开放域对话系统的关键挑战之一.现有的方法倾向于使用元学习框架,首先预训练所有非目标任务的参数,然后在目标任务上进行微调.然而, ...

  4. 微服务场景下数据抽取与统计

    案例小故事 某公司的技术架构体系目前还是以集群扩展体系为主,集群扩展体系架构如图9-1所示.在这种体系结构中,可以看到应用都是单块结构,但是单块结构的应用具有扩展性,通过部署在多个Tomcat上实现应 ...

  5. 2019阿里云峰会-边缘计算专场,邀您共话大连接低时延场景下的技术探索与实践...

    时间:3月21日全天 地点:北京国家会议中心 专场名称: 边缘计算专场 内容涵盖:随着视频大量应用.万物智联时代的到来,云计算将发展到下一个技术阶段,如何满足新一代的计算.传输需求,本论坛多位行业专家 ...

  6. 微软提出极低资源下语音合成与识别新方法,小语种不怕没数据!| ICML 2019

    作者 | 谭旭 转载自微软研究院AI头条(ID: MSRAsia) 编者按:目前,人类使用的语言种类有近7000种,然而由于缺乏足够的语音-文本监督数据,绝大多数语言并没有对应的语音合成与识别功能.为 ...

  7. 论文阅读笔记(二)【ACL2021】知识抽取NER

    学习内容 由于刚刚进入知识图谱领域,对该领域的研究热点不是很了解,所以本文直接翻译ACL2021中关于知识抽取NER中各个论文的摘要和共享: 并且适时在最后写出自己的理解: 同时自己也会在了解完全部后 ...

  8. 直播 | ACL 2021论文解读:低资源语言场景下的跨语言文本摘要

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  9. [文献阅读]—一篇不错的低资源机器翻译综述(Neural Machine Translation for Low-Resource Languages: A Survey)

    文章目录 前言 时间线 技术 数据增强(data augmentation) 基于单词.短语替换的数据增强(坑1) 基于回译的数据增强 平行语料挖掘 无监督机器翻译(unsupervised NMT) ...

最新文章

  1. linux 目录说明
  2. 【解决办法】torch交叉熵使用时遇到 Dimension out of range
  3. 【转】后勤常用查询报告
  4. python爬虫实战测评_Python 爬虫实战入门(上)
  5. 操作系统(三十五)连续分配管理方式
  6. 设计模式 -- 亨元模式(FlyWeight Pattern)
  7. OpenCV 2.4.0 正式版发布,开源计算机视觉库
  8. 统计git仓库一些commit数据
  9. 怎么查看电脑内存和配置_电脑内存不足处理方法,电脑卡死处理方法。
  10. BUUCTF Web [ACTF2020 新生赛]Include
  11. java如何恢复视图_Java - 如何用reformation+Moshi创建回收站视图_java_酷徒编程知识库...
  12. MySQL引擎详解(二)——MyISAM引擎特性
  13. 【CVPR 2021】Revisiting Knowledge Distillation: An Inheritance and Exploration Framework
  14. centos7 RAID磁盘阵列卡驱动安装图文教程
  15. Obsidian学习笔记(一):插件Excalidraw创建图表
  16. matlab蒙特卡罗变量变换的分布,使用 copula 仿真相关随机变量
  17. ORACLE数据库查询锁表语句sql脚本,以及删除锁信息脚本(数据库开发ETL、DBA必备)
  18. 小米 13 系列新品发布会将延期举行;马斯克:和苹果的误解得到了解决;IntelliJ IDEA 2022.3 发布|极客头条
  19. jdbc批量插入、批量删除、批量更新
  20. Arduino RGB颜色渐变代码(附上C语言版本)

热门文章

  1. alin的学习之路:共享内存
  2. A2DP-Link传输协议详解以及实例龙讯LT947LMT/LT948D简介
  3. 华科教授因学生住宿问题投诉后勤处:被学校处分,取消两年评优资格
  4. HAL库中的MSP文件,及HAL_Init和HAL_DeInit
  5. JAVA通用分页代码
  6. IDea中maven项目实现对接企查查、启信宝案例
  7. 嵌入式软件开发工程师面试指南_总结
  8. 如何去除discuz的powered by discuz!代码
  9. 读书笔记-云原生应用初探
  10. MUR560D-ASEMI快恢复二极管MUR560D