贴一下汇总贴:论文阅读记录

论文链接:《A Survey on Low-Resource Neural Machine Translation》

一、摘要

神经方法在机器翻译方面已经达到了最先进的准确性,但由于收集大规模并行数据的成本很高。因此,针对并行数据非常有限的神经机器翻译 (NMT) 进行了大量研究,即低资源设置。在本文中,我们对低资源 NMT 进行了调查,并根据它们使用的辅助数据将相关作品分为三类:(1)利用源语言和/或目标语言的单语数据,(2)利用辅助语言的数据,以及(3)利用多模态数据。我们希望我们的调查能够帮助研究人员更好地理解这个领域,启发他们设计更好的算法,帮助行业从业者为他们的应用选择合适的算法。

二、结论

在本文中,我们提供了低资源NMT的文献综述。不同的技术根据辅助数据的类型进行分类:来自源/目标语言的单语数据、来自其他语言的数据和多模态数据。我们希望这项调查能够帮助读者了解该领域,并为他们的应用选择合适的技术。

尽管在调查的低资源NMT上已经做了很多努力,但仍然存在一些悬而未决的问题:

  • 在多语言和迁移学习中,使用多少辅助语言和哪些辅助语言尚不清楚。LANGRANK [Lin等,2019]训练模型选择一种辅助语言。直观来看,使用多种辅助语言可能优于只使用一种,值得探索。
  • 培训包含多种richresource语言的多语言模型成本很高。将多语言模型转换为看不见的低资源语言是一种有效的方法,挑战在于如何处理看不见的语言的新词汇。
  • 如何有效地选择中枢语言很重要,但还没有得到很好的研究。
  • 双语词典既有用又容易得到。目前的工作主要集中在利用双语词典对源语言和目标语言进行分析。在多语言和迁移培训中,也可以在低资源语言和辅助语言之间使用双语词典。
  • 就多模态而言,语音数据有潜力提升NMT,但这样的研究是有限的。例如,有些语言在语音上相近,但在文字上不同(如塔吉克语和波斯语)。
  • 当前的方法已经对低资源语言做出了显著的改进,这些语言要么具有足够的单语数据,要么与一些资源丰富的语言相关。不幸的是,一些低资源语言(例如,Adyghe和Xibe)的单语数据非常有限,并且远离资源丰富的语言。如何处理这类语言具有挑战性,值得进一步研究。

三、概述

利用辅助语言数据的工作概述:

人类语言在几个方面有相似之处;

  • (1)同一/相似语系或类型的语言可能有相似的书写文字、单词词汇、词序和语法
  • (2)语言可以相互影响,来自另一种语言的外来词可以照原样融入一种语言(称为外来词)。

多语言数据利用到低资源NMT的方法可以分为几种类型:

  • (1)多语言训练,其中低资源语言对在一个模型中与其他语言对联合训练
  • (2)迁移学习[Zoph等人,2016],其中通常包含丰富资源语言对的父NMT模型首先被训练,然后在低资源语言对上被微调
  • (3)枢轴翻译

【论文泛读161】低资源神经机器翻译调查相关推荐

  1. 【论文泛读】 Deep Learning 论文合集

    [论文泛读] Deep Learning 论文合集 文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...

  2. 【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

    [论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...

  3. 【论文泛读】 ResNet:深度残差网络

    [论文泛读] ResNet:深度残差网络 文章目录 [论文泛读] ResNet:深度残差网络 摘要 Abstract 介绍 Introduction 残差结构的提出 残差结构的一些问题 深度残差网络 ...

  4. 【论文泛读】4. 机器翻译:Neural Machine Translation by Jointly Learning to Align and Translate

    更新进度:■■■■■■■■■■■■■■■■■■■■■■■|100% 理论上一周更一个经典论文 刚刚开始学习,写的不好,有错误麻烦大家留言给我啦 这位博主的笔记短小精炼,爱了爱了:点击跳转 目录 准备 ...

  5. 【工大SCIR】AAAI20 基于反向翻译和元学习的低资源神经语义解析

    论文名称:Neural Semantic Parsing in Low-Resource Settings with Back-Translation and Meta-Learning 论文作者:孙 ...

  6. 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络

    论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...

  7. 云计算中微服务相关论文泛读

    以下是最近对于云计算中微服务系统调度论文的泛读,欢迎一起探讨问题,如需要论文请私聊. Amoeba: QoS-Awareness and Reduced Resource Usage of Micro ...

  8. 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

    论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...

  9. 方面级情感分析论文泛读02:Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution

    提示1:原文链接 提示1:代码链接 文章目录 前言 一.论文信息 二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...

最新文章

  1. 重磅!新一轮“双一流”,有重大变化!
  2. 自定义下拉列表(使用原始的事件监听机制),在搜索框中使用
  3. 《大数据存储:MongoDB实战指南》一1.1 什么是大数据
  4. hiredis封装事务示例
  5. datagrip中sqlite3导入csv数据集
  6. 闲谈:我为什么热爱开源
  7. RISC 和 CISC 区别
  8. 用DropDownList实现的省市级三级联动
  9. 批量修改文件名称的方法
  10. 我滴个乖乖,一万三千颗卫星那
  11. 怎样进行云迁移 企业才不会后悔!
  12. 树中两个节点的最低公共祖先节点
  13. reduce python3_Python3的高阶函数:map,reduce,filter
  14. 仅为0.9兆 谷歌金山词霸1.5版本正式发布
  15. 华泰证券python算法工程师_华泰证券高薪诚聘 技术大牛/运维平台架构师
  16. apk编辑器找Android,教你用安卓神器APK编辑器去除程序广告
  17. 检测计算机主板是否坏掉,解决办法:如何判断cpu是否坏以及主板是否坏,如何检测主板故障...
  18. 远程控制电脑软件有什么特别之处呢?
  19. 【微信小程序调用百度API实现图像识别功能】----项目实战
  20. Oracle--27分析函数

热门文章

  1. 使用注册表修改系统环境变量
  2. 卖家付出佣钱的付出宝账户
  3. navicat数据库表结构对比
  4. PowerDesigner导出数据库表结构word
  5. 生鲜新零售应用模式分析:2019是拐点,2020是爆点
  6. PPT模板副业小项目,低成本,适合新手操作
  7. 我的飞鸽我做主 飞鸽传书 2.66版 升级记
  8. 安装gitlab的rpm包时提示错误:依赖检测失败
  9. Springboot+freemarker的宿舍寝室维修上报管理系统源码
  10. tecplot修改legend标题