多语言预训练模型在机器翻译中的应用

机器翻译路线图:从统计机器翻译发展到多语言神经机器的翻译。

多语言神经机器的翻译:

训练:

多语言语言对的组合
根据数据大小抽样训练数据
模型构建:

一个统一的模型:所有语言共享相同的参数
跨语言可变性:高资源语言可以帮助低资源语言
在输入前准备一个语言标记:指示要翻译的目标语言
预训练模型:DeltaLM
一种预先训练好的用于生成和平译的编码器-解码器模型。

DeltaLM:解码器作为任务层

我们可以通过编码器-解码器的预训练来统一两部分。

如何初始化解码器?

解码器的结构不同于编码器,解码器的初始化研究不足。

要预训练编码器-解码器的哪些任务?

大多数情况下都保留了预先训练好的编码器的能力
有效地利用双语数据。

DeltaLM:初始化
一种由预训练好的译码器完全初始化的新型交错解码器


香草解码器:

一个self-attn层,一个Cross-attn层,一个FFN层。
初始化:
预训练的编码器→Self-attn+FFN
随机初始化Cross-attn

结果:
与预先训练好的编码器不一致(FFN在attn之后)

我们的交错解码器:

一个atten后接一个FFN
以交错的方式初始化Self-attn/Cross-attn
预训练模型的奇数层使用→ Self-attn + FFN
预训练模型的偶数层使用→Cross-attn + FFN

充分使用预先训练好的编码器的权重
DeltaLM:预训练任务
一个新的预训练任务,利用单语文本+双语文本。

根据输入的文档重建文本跨度:

根据输入的掩码翻译对预测文本跨度:

DeltaLM for MNMT
对于MNMT,我们可以直接微调DeltaLM:


实验:多语言机器翻译
DeltaLM在X->E和E->X翻译上均达到SOTA结果:


实验:跨语言总结
DeltaLM与mt5相比,具有竞争力。

维基语言数据集:

输入:西班牙语、俄语、越南语、土耳其语文件

输出:英文摘要

实验:数据到文本的生成
DeltaLM的性能优于mt5XL(3.7B)。

实验:多语言的语言生成
DeltaLM在不同的任务/语言中实现了一致的改进。

问题生成(XQG):

输入:中文答案及相应文件

输出:中文问题

抽象的总结(XGiga):

输入:法语文件

输出:法语摘要


实验:零镜头跨语言传输
DeltaLM对NLG具有良好的零镜头传输能力。

抽象总结(XGiga):

训练:

英文文件→英文摘要

测试:

法语文件→法语摘要

中文文件→中文摘要

NMT的零射跨语言传输
训练:

一种语言对,例如,德语->英语

模型:

一个统一的MT模型,具有跨语言可变性

测试(0-shot):

没见过的语言,如日语->英语

两阶段微调方法


阶段1:

冻结编码器和解码器嵌入:保留预训练模型的跨语言可转移性
微调解码器层:将解码器自适应到预先训练好的编码器中
阶段2:

微调编码器层和解码器:提高翻译质量,我们的初步实验发现,这种策略是最好的。
移除self-attn的剩余连接:使编码器的输出具有更少的位置和语言特定性。
实验细节及结果
数据集:

在去并行数据集上进行训练:WMT19 43M并行数据

对多对英语的语言对进行测试:德语组、罗曼语组、斯拉夫语组、乌拉尔语组和突厥语组,德语(De)、荷兰语(Nl)、西班牙语(Es)、罗马尼亚语(Ro)、芬兰语(Fi)、拉脱维亚语(Lv)、土耳其语(Tr)、俄语(Ru)、波兰语(Pl)。

实验结果:

可变性vs语言相似性
使用不同语言进行训练:德语(De)、西班牙语(Es)、印地语(Hi)。

对不同语言族系的测试:德语族系(De、Nl)、罗马族系(Es、Ro、It)、印度-雅利安人族系(Hi、Ne、Si、Gu)。

NMT模型的传输能力在相似的语言上比在遥远的语言上更有利。

在只有一个语言对的语言系中转移的预期结果。

结论
预训练的语言模型有利于机器翻译。

多语言神经机器翻译的监督学习
零射的跨语言转换
DeltaLM具有良好的跨语言传输和语言生成能力,以帮助机器翻译。

多语言预训练模型在机器翻译中的应用相关推荐

  1. 零样本迁移?全新多语言预训练模型DeltaLM!

    作者 | 马树铭 MSRA 研究员 整理 | DataFunSummit 目前,多语言神经机器翻译受到越来越多的研究人员的关注,多语言预训练模型对神经机器翻译可以起到非常重要的作用.预训练模型自身的跨 ...

  2. 微软亚研提出VL-BERT:通用的视觉-语言预训练模型

    机器之心发布 作者:Weijie Su.Xizhou Zhu.Yue Cao.Bin Li.Lewei Lu.Furu Wei.Jifeng Dai 来自中科大.微软亚研院的研究者们提出了一种新型的通 ...

  3. ERNIE-GeoL:“地理位置-语言”预训练模型

    本文介绍『文心大模型』的一项最新工作:"地理位置-语言"预训练模型 ERNIE-GeoL. 论文链接: https://arxiv.org/abs/2203.09127 实践中的观 ...

  4. 语言五子棋无ai程序框图_微软多语言预训练模型T-ULRv2登顶XTREME排行榜

    编者按:为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界.近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果--多语言预训练模型 T-ULRv2,登顶 XTREME ...

  5. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

    作者 |‍ Chilia  ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...

  6. NLP-预训练模型-2019:XLM-Roberta【一种多语言预训练模型】

    <原始论文:Unsupervised Cross-lingual Representation Learning at Scale> Facebook AI团队于2019年11月发布了XL ...

  7. HuggingFace学习3:加载预训练模型完成机器翻译(中译英)任务

    加载模型页面为:https://huggingface.co/liam168/trans-opus-mt-zh-en 文章目录 整理文件 跑通程序,测试预训练模型 拆解Pipeline,逐步进行翻译任 ...

  8. 独家揭秘!史上最强中文NLP预训练模型 | 直播报名中

    编辑部 发自 凹非寺  量子位 报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...

  9. 视觉-语言预训练模型综述

    Li F, Zhang H, Zhang Y F, et al. Vision-Language Intelligence: Tasks, Representation Learning, and L ...

最新文章

  1. python打地鼠游戏教程_Python入门小游戏,炫酷打地鼠教程第二部分,都是干货
  2. 中文信息匮乏年代,新媒体粉墨登场
  3. html post举例,html post请求之a标签的两种用法举例
  4. 模拟聊天室显示语句保持最新显示
  5. 微信公众号——永久素材的上传
  6. 面试题45:圆圈中最后剩下的数字
  7. 博客园博客美化相关文章目录
  8. 修改jupyter notebook的默认工作目录
  9. 计算机等级考试--二级Java的知识点大全
  10. html 文本框选中状态,JavaScript onselect 事件:文本框中的文本被选中
  11. springboot 指定配置文件
  12. 虚拟机centos7的网络配置
  13. 学python就业好吗_Python就业行情怎么样?Python好学吗?
  14. 【小知识】TVS瞬态抑制二极管与齐纳二极管(稳压管)的差异点分析
  15. java 计算星座算法,java 依据生日计算星座
  16. 使用Photoshop2022给图片制作出精彩的渐变效果
  17. JAVA课程设计——彩票抽奖购买系统
  18. 调用腾讯会议API创建会议
  19. linux xunsou_Linux 之 xunsearch
  20. 作为一名Java开发工程师需要掌握的专业技能

热门文章

  1. 第十八届全国大学智能汽车竞赛报名信息统计:华南赛区报名队伍
  2. 电磁波简介及其对人体健康的影响
  3. 交巡警求全市距离MATLAB程序,高教社杯全国大学生数学建模竞赛B题参考答案
  4. 傅里叶变换与量子图像加密
  5. 三分钟读完套利定价理论
  6. 聊聊并发(5):原子操作的实现原理
  7. Android设备接入阿里云IoT物联网平台——设备接入类
  8. LeetCode 732(C#)
  9. 线性代数计算器C语言程序,新手作品:行列式计算C语言版
  10. 贷后中登监控 伪代码梳理