在不久前结束的自然语言处理(NLP)领域顶级学术会议 ACL 2021 上,字节跳动 AI Lab 研究员许晶晶完成了她的演讲。

在全球顶会做完分享后,许晶晶感到很欣慰:“没想到,一项如此底层的研究吸引了大家的兴趣,我们辛苦几个月的研究还是有回报的。”

没错,这项「底层的研究」就是荣获本年度 ACL 最佳论文的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》,来自字节跳动 AI Lab 的许晶晶、周浩、甘纯、郑在翔、李磊五位同学正是这项研究的作者。

ACL 是国际自然语言处理领域的顶会,每年夏天的 ACL 会议不仅会吸引世界各大知名科研机构的注意,也是全球主要科技公司的关注焦点。今年的 ACL 共有 3350 篇论文投稿,仅评出一篇最佳论文,是整场会议的最高奖项。

此外,在本届 ACL 上,字节跳动 AI Lab 一共中选了 11 篇论文。

「词表」,NLP 底层研究

这篇荣获最佳论文的研究,主要聚焦在了「词表」方向。

词表,就是把完整句子拆开的一组数据,可以按词拆、按字母拆、按音节拆,每种拆法都可以有不同的意义和理解。

就像中文里「上课」是一个意思,「上」和「课」两个字单独拿出来又分别有不同的意思。

我们熟知的各种 NLP 方向的应用,比如机器翻译、文本纠错、聊天机器人等,都离不开词表这个基础,词表是机器学习的基本数据,是实现各类AI功能的养料。

可以说,词表是 NLP 各个方向应用的「地基」,把词表做好,可以提升各种不同 NLP 任务的表现。

在这篇论文里,字节跳动 AI Lab 的同学通过实验得出了词表大小和词表信息量与机器学习模型训练中的一些关系,这些规律可以进一步推动 NLP 科研界解决「什么是好的词表」这个问题。

在此基础之上,字节跳动的研究员们还提出了一种新的词表学习方案「VOLT」,在常见的英-德翻译、英-法翻译以及多语言自动翻译上,VOLT不仅能比传统的方法获得更好的翻译结果,使用的词表数据体积也大大减小。

比如在英-德翻译中,这种新方法将传统方法所需的词表数据减少了70%。

最下面两行为

VOLT 相比传统方法减小的词表数据体积

此外,字节跳动的一系列 NLP 相关研究,已经成功应用在了火山翻译及西瓜视频、飞书等产品的翻译功能中,无论是在字节同学或飞书客户的办公沟通中,还是在用户观看外语视频的场景下,这些研究正在从最基础的维度不断提升着用户体验。

博士毕业后的第一项工作成为Best paper

这项研究的一作许晶晶 2020 年博士毕业于北京大学,这项关于词表的研究也是她校招加入字节跳动后的第一项工作。

入职字节跳动 AI Lab 之后,许晶晶发现这里的氛围高度自驱:“在我们组,你的研究工作并不是 Leader 直接给你一个方向,而是自己找感兴趣的方向提出来,如果这个方向的确很重要,那你就可以全心全意投入进去了。”

词表是各类 NLP 研究的第一步,许晶晶所提出的几个研究方向中也包含词表方向:“关于词表,前人的研究已经有了一个方法,大家就直接按这个方法来了,还没有人深入研究探讨当前方法是不是最优解。”

看到许晶晶要做词表的基础研究,Leader 眼前一亮:公司正在做「火山翻译」业务,机器翻译业务是个硬技术,翻译技术越好,产品就越能获得客户的认可,像词表这样的基础组件,研究好了就可以提升机器翻译的效果,对业务起到巨大的作用。

许晶晶就这样在个人兴趣和公司整体发展方向上找到了交集。

但如何找到最佳的词表,其实是个没有人做过的难题。她先搜集了很多词表数据,反复实验来探索不同的词表和具体训练任务之间的关系,初步找到了不同词表和训练任务之间的规律。

发现了这些规律,就可以拿着规律去寻找那个最佳的词表,就像王子拿着灰姑娘的水晶鞋,在全世界寻找灰姑娘本人。

但王国的女孩成千上万,世上的词表也数不胜数,到底怎样才能找到最佳词表呢?许晶晶的研究陷入停滞。

实验日复一日地做着,真理的灵光却一直没有闪现。一筹莫展之际,团队的一次内部分享给了许晶晶灵感。

在字节跳动 AI Lab,有各种不同背景的同学会定期分享各自擅长的内容,有的同学数理思维优异、有的同学有丰富的多语言背景、有的同学对NLP理论研究深厚。在这次内部分享中,一位统计学专业出身的同学做了一次报告,讲到了一些和机器学习相关的数学理论知识。借助这些理论,许晶晶发现可以将此前发现的规律写成目标函数,引入经济学中「边际效益」的概念,通过离散优化来找到最佳的词表,锁定「灰姑娘」所在的区域。

许晶晶事后十分庆幸:“如果同学当时没有做这个报告,可能我们这项关于词表的研究就到此为止了。团队背景的多样化,的确有助于每个人拓宽自己的认知,启发研究的灵感。”

虽然有了新灵感的启发,但在茫茫人海中寻找「灰姑娘」的过程依然充满艰辛。持续数月的时间里,许晶晶每天都在重复着提出解决办法、做实验跑一遍、发现办法不管用、找其他同学沟通寻找启发的无限循环。

“虽然可以问别人,但组里同学并不是这项工作的主导者,他们会帮我建模、给一些意见或者解决别的问题,但核心工作必须自己一个人思考、想想问题在哪里、反思实验为什么失败。大部分时间还是自己在跟自己沟通,必须耐得住寂寞。”

苦闷的时间不断重复,“我曾经很长时间都很郁闷,但科研就是这样一件事,你会在很郁闷的时间里度过很长时间,你怎么都解不出来,就像解不出一道数学题一样,很痛苦。”

许晶晶甚至想过放弃,去研究别的方向,但同学们告诉她:“词表是很有价值的 NLP 基础研究,这个方向非常有前途,而且你已经做了这么多工作,可不要半途而废啊!”

在 Leader 的鼓励下,许晶晶又坚持了一个月。直到有一天,又一次实验失败的许晶晶垂头丧气地跑去食堂,看着眼前的饭菜,脑子里却都是实验的思路和过程。突然,一个灵感来了:把之前的方法简化一下,是不是就可以了?

饭后她又赶紧回到办公室,按照新的灵感重新部署了实验。实验结果证明,这个持续了半年的研究成功了。

但好的实验结果往往只是成功的一半,还需要发表正规的论文向科研界介绍。许晶晶看了一下时间,机器学习顶会 ICLR 2021 论文征集即将截止,留给她的时间只有7天。

虽然论文写得很快,但时间实在太仓促,ICLR 毫不意外地拒稿了。但 ICLR 的评审也给出了很多负责任的意见,建议她补充更多说明和实验证明。

基础理论的研究往往艰难晦涩,研究作者团队陷入了反复的改论文过程,他们常常会把自己「分裂」成两个人:一个人作为研究者,讲述这项研究的内容;一个人作为评审者,试图理解论文到底讲了什么。

大改了 3 个月之后,许晶晶把论文投给了 NLP 顶会 ACL 2021。在 ACL 的规则里,会有 3 位双盲评审(作者和评审互相不知道对方是谁)同时看同一篇论文,满分 5 分,大部分能中选的论文会拿到 3~3.5 分左右的分数,4 分以上就已经相当罕见了,而这篇论文有两位评审直接给了 5 分,第三位评审的分数也接近满分。在这样的高分之下,字节跳动 AI Lab团队的这篇论文获得推荐,最终中选本届 ACL 最佳论文奖。

获奖秘诀:长时间投入底层研究

博士毕业后的第一项工作就拿到了顶会 Best Paper,许晶晶觉得这和团队的支持密切相关:“我们团队背景很多元,有数学好的、有工程能力很强的、有 NLP 背景很强的,多元背景可以启发研究思路,并且还有丰富的训练资源,可以支持你来做大型实验。”

除了多元背景,更让许晶晶珍视的是团队「沉浸式」的科研氛围:“能拿到 Best Paper,首先我们的方向很重要,我们没有选择主流的在单个任务上做提升的方向,而是选择了比较小众的赛道,虽然基础但是没有很多人来研究,但基础研究的匮乏是整个业界都面临的问题,因为要长时间深入思考,没有那么立竿见影。我们团队的氛围刚好很宽松,不会被 push 要求你短时间内就有成果,可以长时间投入到重要的事情上去,做长期的工作。”

在 NLP 领域里,如果是研究翻译、对话等某一个具体任务,对具体场景做针对性的优化,效果会更好;但基础组件可以用在每个不同的领域里。因此,基础研究的提升对于每个具体的不同场景都可以起到推动作用。

在许晶晶看来,整个NLP行业都需要一些创新型的东西,让基础研究和具体任务都能得到进步和发展,“我们这篇论文的意义就是让大家重新思考,词表还有更大的空间。”

获奖论文链接:

https://arxiv.org/abs/2012.15671

GitHub地址:

https://github.com/Jingjing-NLP/VOLT

 字节跳动更多技术应用 

字节跳动多篇论文入选 CVPR 2021,精选干货都在这里了

100张图训练1小时,照片风格随意变,文末有Demo试玩|SIGGRAPH 2021

「博士毕业一年,我拿下 ACL Best Paper」相关推荐

  1. 出身清华姚班,斯坦福博士毕业,她的毕业论文成了「爆款」

    本文转自"机器之心" 很少有人的博士论文能够成为「爆款文章」,但陈丹琦做到了.据斯坦福大学图书馆介绍,她长达 156 页的毕业论文<Neural Reading Compre ...

  2. 优秀!21岁读博,26岁博士毕业即为副教授,同年又晋升教授和博导!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨先导之声.田君良 编辑丨深度学习技术前沿 方璐,一个看上去非常文静的小姑娘,其实早已是大学教授. ...

  3. 两年伯克利数学博士毕业,蝉联阿里数学竞赛金奖,张钺:我就是个普通人

    贾浩楠 白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI 别人五年读完数学博士甚至还得延期,他在伯克利用两年搞定. 别人起大早去图书馆占座,他睡到12点自然醒. 别人小时候在玩游戏的时候,他 ...

  4. 24岁博士毕业,受聘211高校副教授,90后开挂背后是自律和坚持

    点击上方"大鱼机器人",选择"置顶/星标公众号" 福利干货,第一时间送达! 近日,一则题为"他24岁北航博士毕业受聘211高校副教授"的消息 ...

  5. 他24岁北航博士毕业受聘211高校副教授,也曾是个沉迷CF成绩倒数的调皮蛋

    公众号后台回复"图书",了解更多号主新书内容 杨净 发自 凹非寺  量子位 报道 | 公众号 QbitAI 北京航空航天大学2020届博士毕业生侯涛刚,最近因为这条朋友圈火了. 1 ...

  6. 他24岁北航博士毕业受聘211高校副教授,也曾是个沉迷CF成绩倒数的调皮蛋-1

    北京航空航天大学2020届博士毕业生侯涛刚,最近因为这条朋友圈火了. 1996年出生,别人还在研究生头秃的年纪,他不仅拿下博士毕业证,还受聘211高校北京交通大学,成为电子信息工程学院副教授. 有网友 ...

  7. AI博士毕业,要求多少年薪才不亏?中美最高超过200万,日本还没公务员挣得多...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器学习博士毕业,向公司要多少钱才不亏? 最近,Reddit上一位英国的应届毕业生向网友发出求助. 而在网友的回复中,曝出了世界各地这一大 ...

  8. 清华放大招!从初中生招起,8年时间培养到博士毕业!内卷也要加速了?

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 本文为募格学术撰写.参考来源:光明日报.百度百科.北京大学官网等 无须高考.面向全球招 ...

  9. 14岁上中科大、23岁博士毕业的袁岚峰,现在因“简单科普”上热搜,本人回应:科普和科研一样重要...

    杨净 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一个14岁就上中科大,23岁博士毕业的「少年天才」,现在在做「简单科普」的工作. 或许连袁岚峰自己也没有想到,自己会以这样的问题出现在知乎 ...

最新文章

  1. SDR、DDR、QDR存储器的比较
  2. maven构建SSM工程[应用]1
  3. 1150 Travelling Salesman Problem (25 分)【难度: 难 / 知识点: 图 模拟 未完成】
  4. iOS之深入解析Runloop的底层原理
  5. 剑指offer 回溯法 面试题12 矩阵中的路径 面试题13 机器人的运动范围
  6. 使用 Shell 脚本实现安装进度指示器
  7. 用mysecureshell搭建sftp
  8. 如何通过配置tomcat或是web.xml让ie直接下载txt类型的文件
  9. nagios 监控slave(check_mysql_health插件)
  10. 从CVPR2019看计算机视觉的最新趋势
  11. wireshark读写pcap文件_pcap文件格式和wireshark解析
  12. 微服务可用性设计(二):过载保护,限流
  13. Failed to compile../public/UEditor/dialogs/template/template.html 1:0Module parse failed: Unexpec
  14. 对冲之王 - 华尔街量化投资传奇 读后感
  15. vue路由传参 params传参不能传对象
  16. 港大计算机学院副院长,中科院许榕生教授、香港大学邹锦沛博士等一行访问我校...
  17. 不同大小硬盘对拷oracle,大小不一样的硬盘怎么实现对拷?
  18. 原来RA是Router Advertisement的意思
  19. 一文读懂CentOS 8 安装JDK 11:配置JAVA_HOME环境变量
  20. exception 类 java_Java 常见异常种类

热门文章

  1. 机会是留给的准备的人
  2. 关于使用西电2019年3月修订版Latex毕业论文模板的记录贴
  3. java 简单的word文件下载
  4. Java poi 生成word文档并下载
  5. Ext表单组件之textField
  6. jenkins Extended Choice Parameter 使用groovy显示数据
  7. C++代码实现atanx,atan2x,acosx,asinx,sinx,cosx,tanx三角函数、开方函数sqrtND()
  8. U盘格式的区别有哪些?
  9. Linux使用pip安装h5py失败解决办法
  10. 如何开发微信小程序?开发环境篇