文章提出的DAGA是一种适配于NER的数据增强方法,来自阿里达摩院

1. 核心思想

DAGA的思想简单来讲就是标签线性化:即将原始的**「序列标注标签」与「句子token」进行混合,也就是变成「Tag-Word」**的形式,如下图:将「B-PER」放置在「Jose」之前,将「E-PER」放置在「Valentin」之前;对于标签「O」则不与句子混合。标签线性化后就可以生成一个句子了,文章基于此句子就可以进行「语言模型生成」了。

假设我们在相应的词之前(在句子线性化期间)插入标签来训练 RNNLM,在给定“I have booked a flight to”预测下一个 token 时,“S-LOC”的概率远高于其他选择,因为 RNNLM 在训练数据中见过很多类似的例子,比如“a train to S-LOC”、“trip to S-LOC”等。然后论文根据“I have booked a flight to S-LOC ”预测之后的词。在训练数据中,所有的“S-LOC”后面都是位置词,所以“London”、“Paris”、“Tokyo”等都是可能的选择,它们的概率非常接近。 由于增加了随机性,模型可以选择其中的任何一个。

2. 网络模型结构

DAGA 网络(如上图)仅仅通过一层LSTM进行自回归的语言模型训练,网络很轻,没有基于BERT做。

 3. 对不同资源条件下的处理

对于标注语料,用[labeled]在句首作为条件标记;
对于无标注语料,用[unlabeled]在句首作为条件标记;
对于知识库,对无标注语料进行词典匹配后(正向最大匹配),用[KB]在句首作为条件标记;
只要输入**[BOS]+[labeled]/[unlabeled]/[KB]**,即可通过上述语言模型、自回归生成新的增强数据。

4.实验设置

在标注语料下
gold:通过标注语料进行NER训练

gen:即DAGA,1)通过标注语料进行语言模型训练、生成新的数据:2) 过采样标注语料; 3)新数据+过采样标注语料,最后一同训练NER;

rd:1)通过随机删除进行数据增强; 2)过采样标注语料;3)新数据+过采样标注语料,最后一同训练NER;

rd*:同rd,只是不过采样标注语料。

在无标注语料下 

gold:通过标注语料进行NER训练;

wt:即弱监督方法,采用标注语料训练好一个NER模型,然后通过NER模型对无标注语料伪标生成新数据,然后再重新训练一个NER模型;

gen-ud:通过标注和无标注语料共同进行语言模型训练、生成新数据,然后再训练NER模型;

kb:从全量训练集中积累实体词典(实体要在训练集上中至少出现2次),然后用实体词典匹配标注无标注语料、生成新数据,最后再训练NER模型;

gen-kb:与kb类似,将kb生成的新数据训练语言模型,语言模型生成数据后、再训练NER模型;

参考链接

https://aclanthology.org/2020.emnlp-main.488/

https://github.com/ntunlp/daga

DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks 论文解读相关推荐

  1. A Two-Stage Unsupervised Approach for Low Light Image Enhancement 论文阅读笔记

    这是一篇无监督暗图增强论文,来自RAL期刊(JCR1区) 文章将暗图增强任务分解两个阶段,第一阶段用基于retinex的传统方法进行预增强,第二阶段用refinement network 来进一步提高 ...

  2. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译

    Paper:<A Unified Approach to Interpreting Model  Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...

  3. AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation翻译

    摘要 自然语言生成(NLG)是一个面向任务对话系统中的关键组成部分,它将结构化的语义表示(MR)转换为自然语言.对于大型对话系统,在具有超过数百个意图和数千个槽的情况下,基于模板的方法和基于模型的方法 ...

  4. 深度学习论文: KeepAugment: A Simple Information-Preserving Data Augmentation Approach及其PyTorch实现

    深度学习论文: KeepAugment: A Simple Information-Preserving Data Augmentation Approach及其PyTorch实现 KeepAugme ...

  5. MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 阅读笔记

    MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 2021 Associatio ...

  6. 小样本学习记录————文本中特征空间的数据增强MEDA: Meta-Learning with Data Augmentation for Few-Shot Text Classification

    MEDA: Meta-Learning with Data Augmentation for Few-Shot Text Classification 出发点 数据增强 球合成器 合成模块Synthe ...

  7. 【Hide-and-Seek】《Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization xxx》

    ICCV-2017 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 Ex ...

  8. Automated defect inspection system for metal surfaces based on deep learning and data augmentation

    Automated defect inspection system for metal surfaces based on deep learning and data augmentation 基 ...

  9. 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

    <语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...

最新文章

  1. 关于学习Python的一点学习总结(24->列表推导)
  2. 图书管理系统需求说明书
  3. VirtualBox 启动时提示“获取 VirtualBox COM 对象失败”的解决
  4. PRML-github code使用两个小攻略
  5. __stdcall c++ 默认_JMeter必知必会系列(6) JMeter参数化之__CSVRead()
  6. Leetcode-Merge k Sorted Lists
  7. shell 做加法运算_C语言探索之旅 | 第一部分第七课:运算那点事
  8. servlet 返回可访问文件_JavaWeb技术(4):Servlet的理解(上)
  9. Kubernetes 竞争条件漏洞的发现过程简述
  10. python精简总结
  11. dalsa相机设置编码器外触发_Modicon M262 编码器接口功能介绍
  12. 如何理解JavaScript用三角函数计算鼠标与多个目标点的距离
  13. mysql gridview_DateGridView控件与mysql交互
  14. 【持续更新】并查集题目集合
  15. 基于随机森林的特征选择算法
  16. PMP课程笔记:第1-3章 引论 项目运行环境 项目经理
  17. 620集成显卡和mx250,残血还是满血?一招看清MX250显卡真面目
  18. CCF-CSP认证历年真题解
  19. docker 运行命令
  20. 论文查重会查新闻内容吗?

热门文章

  1. 基于JAVA婚纱租赁系统的设计与实现
  2. R语言dplyr包summarise_at函数计算dataframe数据中多个数据列(通过向量指定)的均值和中位数、指定na.rm参数配置删除缺失值
  3. 如何彻底禁止360浏览器弹窗
  4. 中台产品经理宝典读后感(0):最近处处惹人爱的中台到底是什么
  5. 为三角面片加上重心和在Matlab上绘制
  6. 0基础学UI设计必须做好4个准备!
  7. 读书笔记之-Analyzing Neural Time Series Data 1、2
  8. 20道Java实习生笔试面试选择题(内附答案解析)
  9. matlab6.0绿色版,Passolo
  10. 二极管使用之反向续流