大数据文摘出品

作者:曹培信

机器学习自动化(AutoML)正在引领机器学习的下一个时代,而要想让机器自己学会“炼丹”,其中最关键的步骤就是,找到最合适的算法模型,也即自动化神经架构搜索(Neural Architecture Search,简称NAS)。

要快速、高效判断哪个模型最有效并不是一件容易事。NAS界目前一种主流的方法是谷歌大脑创立的One-Shot派。

One-Shot,顾名思义,只完整训练一个超网,主张权重共享,对不同路径进行采样作为子模型训练,并基于此对模型排名,这样就可以更快速判断模型性能,提高搜索效率。

就像通过一次“考试”来判断这群“模型们”的能力,通过最终分数决定排名。

看似很公平,但是,One-Shot模式下,虽然考题一致,但是学生的学习时间、训练方式都不尽相同,很容易导致好的模型由于没有获得充分的训练,而表现不佳。

在One-Shot模式基础上,小米AI实验室的AutoML团队在七月初提出了一个新的概念——FairNAS,来解决这一模型训练中的“公平”问题。并且在ImageNet 1k分类任务MobileNetV2量级上,FairNAS击败了Google Brain在CVPR 2019发布的MnasNet。

在FairNAS基础上,上周,小米AutoML团队展示出一项新的研究成果:MoGA——移动端GPU敏感,对多目标进行加权处理,鼓励增大参数量,直接面向在移动端的落地应用,在业内引发了广泛关注。

昨天,小米AI实验室AutoML团队又重磅发布了最新成果SCARLET,超过Google Brain首席科学家Quoc Le团队提出的EfficientNet同量级模型(ICML 2019),这次是让自动化神经网络搜索具备了可伸缩性,完善了7月初发表的FairNAS。

从FairNAS,到MoGA,再到昨天发布的SCARLET,这支团队只用了不到两个月的时间。

至此,小米AutoML团队打造了FairNAS、MoGA、SCARLET三部曲,在ImageNet 1k分类任务上分别超过Google顶级团队的MnasNet、MobileNetV3、EfficientNet。

大数据文摘第一时间对三篇论文的主创人员、小米AutoML团队的高级软件工程师初祥祥和软件工程师张勃进行了专访。这也是这支年轻的团队,首次公开对这三份研究进行解读。

从反直觉问题入手,两个月研发“三部曲”,直接对标谷歌

公平”,初祥祥在采访中多次提到了这个关键词,而这也是他们在今年五月份,开始进行FairNAS项目的灵感来源。

“我们FairNAS技术一开始的insight是来自于谷歌大脑,当时发现one shot论文里面公布的结果,采样了大概几百个模型,但是准确率是很大的一个range,从30%到90%。但是根据我们之前做的实验,这个range实际上是比较异常的。多数模型的range比较窄,比如在80%到95%。”

于是,初祥祥团队对此进行了验证,得出了一个很反直觉的结论:看似公平的随机采样模型的Single Path,30次迭代之后,子模型得到公平训练的概率近似等于0。

初祥祥说:“这就是我们最原始的insight,包括最新发布的SCARLET,灵感也是来源于MIT、Facebook的论文中架构可伸缩性的问题。”

初祥祥也表示:“其实我们这一路走来都是在对标谷歌大脑在NAS的最新研究。”

从大厂论文中的反直觉点入手,直接和强者对标,这也许就是小米AutoML团队强大内驱力的由来。

接下来,先跟着文摘菌先来一起看看这篇最新的发布——SCARLET

SCARLET:解决共享参数超网训练的可伸缩问题

小米AutoML团队的最新的论文,提出了具备伸缩功能的自动化神经网络搜索SCARLET,通过线性等价变换,解决了one-shot路线中超网训练伸缩性较差的问题。

这篇论文的灵感同样来自对已有研究的质疑,初祥祥表示:“FairNAS虽然能解决采样不公平的问题,但是要做搜索layer的通道数往往都是固定的。而很多学者包括MIT、Facebook的研究者都会在论文中称,他们的NAS架构是可伸缩的,但很难找到具体的中间过程。比如一个有18层的可伸缩的NAS,理论上可缩到一层,但是这中间的具体过程却很少有人去提,或者只提一下是可伸缩的,但是没有提最后的效果,经过验证后我们发现这个伸缩对结果影响很大,捣乱到非常严重的地步。”

SCARLET系列是直接对标Google Brain提出的EfficientNet,在ImageNet 1k分类任务中达到76.9%的Top-1精度,目前是<390M FLOPs量级的SOTA。

One-shot自动化神经架构搜索的特点是在一次运行中快速训练一个超级网络,这种权重共享方法的一个关键问题是缺乏可伸缩性。尽管对identity块进行简单的调整就可以得到一个可伸缩的超级网络,但这会引起训练不稳定,从而使模型的排名结果变得不可靠。

而SCARLET引入了线性等价变换来缓和训练波动,并证明了这种变换后的模型在表示能力上与原模型等价。因此整体方法命名为SCARLET (SCAlable supeRnet with Linearly Equivalent Transformation)。

SCARLET模型结构

当前SOTA模型在ImageNet数据集上的对比

看完SCARLET,让我们再来回顾一下三部曲的前两部,FairNASMoGA

FairNAS:如何避免神经网络中的马太效应,不让“富者愈富,穷者愈穷”

7月初,小米AI实验室AutoML团队公布了最新研究成果FairNAS,在ImageNet 1k分类任务MobileNetV2量级上,击败了MIT韩松团队在ICLR2019发布的 Proxyless mobile,Google Brain在CVPR 2019发布的MnasNet,及 Facebook的FBNet。

FairNAS的核心解决的就是多次迭代后超网训练会导致不公平的问题。

张勃对于这种不公平采样有个非常形象的比喻:“类比一下,其实就像社会学概念里面的马太效应。就是说富者恒富,穷者就变得越穷,对于神经网络也是一样,如果把神经网络里面的模型比作孩子的话,这有一部分在穷人家庭长大,有一部分在这富人家庭长大,在穷人家庭长大的没有得到好的培养,所以他们可能资质很高,但是并没有被发掘出来,所以需要让所有的模型都到充分的训练。就像把所有小孩放到同一个封闭式学校,大家都在这里,跟家庭是隔离的,全是在学校培养,那20年后,如果他们真正表现出差异,那就是他禀赋及能力的差异。”

针对这个问题,小米AutoML团队采用的是“不放回策略”。

另外要解决的是,每一次的迭代涉及到反向传播和更新参数,从而产生的次序问题。解决的核心方式是“只累积梯度,不更新参数”。

张勃依然是用教育来比喻:“这就相当于考试的时候,发卷子有先后顺序,但是先拿到卷子的人不能答题,要发完后一起答题。”

MoGA:移动端GPU敏感,直接面向落地

对于移动端来说,分类是其他计算机视觉任务的基础,图形的分割和检测都需要用分类网络做骨干网。随着CV在移动端应用的普及,包括谷歌在内的科技公司都把目光投向了移动端可用的轻型自动化神经网络搜索架构。

然而Google Brain等团队的研究普遍只考虑移动端CPU的延迟,但实际在移动端的使用中,往往都运行在GPU上,两者的延迟并非简单的线性,不仅和硬件相关,还与框架实现相关。

于是在8月6日,小米AutoML团队又展示出一项新的研究成果:MoGA,MoGA提出了移动端GPU敏感的NAS,对多目标进行加权处理,鼓励增大参数量,而对GPU敏感的特性,使得MoGA直接面向在移动端的落地应用。

在数据上,MoGA已经超过了Google Brain和Google AI团队联合的代表作MobileNetV3(目前谷歌开源MobileNetV3还未开源),在 ImageNet 1K分类任务200M量级,在移动端GPU维度上超过MobileNetV3。

初祥祥在解释为什么要做移动端GPU敏感的NAS时说:“谷歌的论文里面的实验都是CPU上跑,但是其实我们团队来做业务,还有国内很多的互联网公司手机公司都在做AI的应用上,很少在CPU上跑。这是因为在手机上,比如845这种相对主流配置的一点,它的GPU速度大概是CPU速度的四倍,这就是解释了为什么国内大家愿意用GPU来做AI的原因,因为它速度快,体验会好很多,四倍的速度就是差很多的,所以谷歌发布的模型对于相关落地不是很友好。”

从论文到模型全部开源,MoGA已经有了业务落地和收益

当我们问到为何将面向应用的MoGA也开源时,张勃表示:“我们相信自己会持续输出成果,所以我们不会因为一个MoGA开源就怎么样,这一点我们有信心。我们要做的是一个品牌和技术的影响力。”

而初祥祥也表示,MoGA这项成果也很方便同行进行研究。

“相比谷歌动不动3000个TPU天的训练量,MoGA的总算力只有20GPU天,方便研究者复现,甚至学生都可以做做实验。”

初祥祥还告诉我们:“(开源)也是鼓励更多的对NAS感兴趣的研究人员共同探讨,就像我们在解决每一次的迭代涉及到激活模型和更新参数,从而产生的次序问题时,我们采用的是‘只累积梯度,不更新参数’,这是一个核心的方法,有的同行发邮件来询问这个问题,其实我们论文已经写得很清楚了,但是可能是没有注意到。我们欢迎同行来进行探讨。”

初祥祥和张勃还透露,根据团队发的调查问卷显示,已经有洛桑理工、佐治亚理工等国外院校和西交大、北理、北航等国内院校,以及一些企业都对预训练模型进行了下载和调研,还有一些直接发来邮件进行探讨。

而谈到MoGA这种面向应用的成果目前落地的情况时,初祥祥和张勃表示:正在进行,并且已经有了收益

MoGA已经在高通845上进行了实验,在视觉任务上,可能一个团队一年半才能提升有限的准确率,用了MoGA就直接有明显的提升。

而且初祥祥表示:“其实这种是越往上越难提高,而我们是在他们的基础上提升的,所以其实我们有困难的,但是我们还是有了明显的提高。”

张勃补充道:“其实我们小米内部已经有业务证明了,直接用FairNAS去替换主干网,也直接产生了收益。IoT方面,也在落地当中。”

小米AutoML团队也透露,论文发布后收到了来自全球学界和业内的交流邮件,包括华为、ARM、TCL、Keep在内的公司对FairNAS和MoGA都很感兴趣,表达了加强合作交流的愿望。

团队方法论:选择做什么比做什么本身更重要

87年出生的初祥祥毕业于清华电机系,师从于歆杰教授,从说服上级成立AutoML团队,到带领团队持续输出对标谷歌的成果,一共用了10个月的时间。

在如此短的时间内,完成从成立团队到密集输出成果,初祥祥也有自己的一套方法论。

团队人数不多,所以方向不能错,这是决定生死的一个问题,”初祥祥解释说,“要去关注如何发挥最大的效率,这也要一个长期的规划。”

“现在基本上就是我来制定我们的整体路线,当然这其实有很大的风险,就是个人的偏置如果错了,影响是很大的。”

张勃也补充:“团队的leader要有一个非常清晰的目标,比如说我们能达到什么,目前达不到什么,我们可能踮踮脚尖能达到什么,以后能达到什么,就是需要一个非常清晰的判断。”

最后,小米的AutoML团队也正在招募招募深度学习算法/软件工程师,感兴趣的读者可以点击阅读原文进一步了解。

最后的最后,也再补充三部曲论文合集链接,你也可以在大数据文摘后台回复“NAS"下载论文包,一次看过瘾?

Chu et al., Multi-Objective Reinforced Evolution in Mobile NeuralArchitecture Search 
https://arxiv.org/abs/1901.01074
Chu et al., Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search
https://arxiv.org/abs/1901.07261
Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search
https://arxiv.org/abs/1907.01845
Chu et al., MoGA: Searching Beyond MobileNetV3
https://arxiv.org/abs/1908.01314
Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search
https://arxiv.org/abs/1908.06022

两个月三项成果,对标谷歌!独家对话小米AutoML团队,如何让模型搜索更公平相关推荐

  1. 高交会文思海辉三项成果斩获优秀产品奖

    11月15日,被称为"中国科技第一展"的第二十二届中国国际高新技术成果交易会(以下简称:高交会)在深圳圆满落下帷幕.本届高交会吸引了全世界3300余家知名企业,近万个项目参展,重点 ...

  2. ATC计算机会议,三项成果被计算机系统重要国际会议USENIX ATC和HotStorage收录

    在实验室老师.同学及其他合作者的共同努力下,本实验室三项成果分别被计算机系统领域重要国际会议USENIX ATC 2018(CCF A类)和计算机存储领域重要workshop HotStorage收录 ...

  3. ATC计算机会议,实验室三项成果分别被计算机系统、数据库、分布式计算重要会议 USENIX ATC、ICDE、IPDPS收录...

    近期,在实验室老师.同学们和其他合作者们的共同努力下,ADSL 又有三项成果分别发表在计算机系统领域重要国际会议USENIX ATC(CCF A类).数据库领域重要国际会议ICDE(CCF A类),并 ...

  4. 大连理工大学计算机学院陈教授,软件学院三项成果被计算机顶级会议INFOCOM 2020录用...

    近日,大连理工大学软件学院在物联网.智能边缘计算方向再次取得突破性进展,3篇论文被计算机网络CCF A类顶级会议The 39th IEEE International Conference on Co ...

  5. 校园综合平台-微信小程序版(整整两个月暑假的成果啊 (•ิ_•ิ))

    前言 学习了一段时间的微信小程序,开始都是做零零散散的小项目,暑假借着晚上有的一点时间,决定自己写一个校园综合平台,包含二手市场.表白墙.音乐.文章.动态等一些功能,一方面可以锻炼自己的编程能力,一方 ...

  6. nmt模型源文本词项序列_「自然语言处理(NLP)」阿里团队--文本匹配模型(含源码)...

    来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-14 引言 两篇文章与大家分享,第一篇作者对通用文本匹配模型进行探索,研究了构建一个快速优良的文本 ...

  7. WMT 2022国际机器翻译大赛发榜,微信翻译斩获三项任务冠军

    近日,WMT 2022国际机器翻译大赛的榜单停止提交结果并发布排名.其中,微信翻译团队在对话翻译和生物医学领域翻译的激烈竞争中脱颖而出,斩获三项冠军,分别是对话翻译比赛的英德和德英翻译冠军,以及生物医 ...

  8. 小米手机显示流量数据连接到服务器,小米手机流量总不稳定,这三项设置可能你会用到...

    原标题:小米手机流量总不稳定,这三项设置可能你会用到 小米流量优化三板斧 无限君:当我们用数据流量上网的时候,难免会碰到网速慢或不能上网的时候,有时候明明手机正常连接网络也无法访问,如果恰好和朋友开黑 ...

  9. 清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立,重磅推出两场前沿学术报告和三项特色开源成果...

    来源:TsinghuaNLP 2019年7月1日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心(以下简称中心)成立仪式在清华大学FIT楼举行.清华大学副校长.清华大学人工智能研究院管委会主 ...

最新文章

  1. IndiaHacks 2016 - Online Edition (Div. 1 + Div. 2) A. Bear and Three Balls 水题
  2. ubuntu 安装 anaconda
  3. 第14章 用BERT实现中文语句分类
  4. 润乾报表分组求和_一招搞定各种报表合计需求
  5. [silverlight基础]仿文字连接跑马灯效果-高手绕道
  6. 特老的文章:三层应该怎么划分。不知大家还有用否
  7. Qt文档阅读笔记-QML RotationAnimation官方解析及实例
  8. 阶段3 1.Mybatis_01.Mybatis课程介绍及环境搭建_05.mybatis环境搭建-前期准备
  9. VS code 尝试在目标目录创建文件时发生一个错误
  10. c语言程序调试时无法启动程序,编译没有异常,调试时报错: 无法启动程序“C:Projects\Driver\mydriver_check\HelloDDk.sys...
  11. 苹果一体机电脑计算机图标找不到,mac电脑airplay图标不见了怎么办
  12. 网络安全扫盲贴 史上最全网络安全问题解答
  13. 晶振外匹配电容应该怎样选取
  14. 为了让机器听懂“长篇大论”,阿里工程师构建了新模型
  15. 邮件服务-postfix
  16. Python编程学习视频
  17. P17 五子棋的实现4 悔棋功能
  18. Uva 12627 Erratic Expansion
  19. ARP协议的小小了解
  20. arduino笔记8:语言运算符 + c语言运算符优先级

热门文章

  1. 困惑中的IT企业务必关注当今软件生产的概念、技术和方法发展动向
  2. 精通Web Analytics 2.0 (11) 第九章: 新兴分析—社交,移动和视频
  3. 新型环保材料集成墙板有什么优点?是用什么材料做成的?
  4. 测试开发之路 大厂面试总结
  5. Android最新最全面试题及答案分享
  6. java 爬虫 抓取网上的图片报错521解决方案
  7. 【经典珍藏版】手把手全程教你制作漂亮的720全景地图(附PtGui软件下载地址)
  8. 「衣米魔兽」魔兽世界怀旧服2019年年度礼品发放通知
  9. WIN10局域网共享方法
  10. GX Works3 (二):FX5U的基于以太网MC协议的梯形图编程基础