发布可伸缩超网SCARLET,小米AutoML团队NAS三部曲杀青
作者丨江渚碧
学校丨武汉大学
研究方向丨智能计算
昨天,小米 AutoML 团队(初祥祥、张勃、李吉祥、李庆源、许瑞军等)发布最新成果 SCARLET,超过了 Google Brain 首席科学家 Quoc Le 和 Tan Mingxing 共同完成的 EfficientNet 同量级模型 (ICML 2019)。
SCARLET 论文探究了 One-shot 路线自动化神经网络搜索中没有被深入考察的可伸缩性问题,首次提出并证明线性等价变换可以使超网具备可伸缩功能。
论文发布的 SCARLET 系列模型超过当前大火的 EfficientNet,并且相比 EfficientNet 的纯强化路线相比用了更少的计算资源,更短的搜索时间。SCARLET 模型在 ImageNet 1k 分类任务中达到 76.9% 的 top-1 精度,目前是近 400 M FLOPs 量级的 SOTA。
至此,小米 AutoML 团队在短短两月间写就 FairNAS、MoGA、SCARLET 三部曲,依次超过 Google 顶级团队的 MnasNet、MobileNetV3、EfficientNet。
模型地址:
https://github.com/xiaomi-automl/SCARLET-NAS
One-shot路线之优劣
虽然 one-shot 由于权重共享,一次超网训练,评估子网时可以多次收益,足够快也足够有效。但相比 Google Brain 的 RL 路线(NASNet、MnasNet 等)或其他路线,one-shot 的灵活性大打折扣。其中一点就是不能自由伸缩。
一般地讲,更深的网络有更好的表征能力。但事实是,稍浅的网络能力也不是很弱,有时还反而更好。这就好比在矮个子有时也比高个子力量大,高度(深度)不是评判一个人力量的唯一标准。考虑到我们部署时的限制,我们不仅要小个子,还要发掘优秀的小个子。在太空任务中,矮个子杨利伟反而成了优势。
之前的 one-shot 方法比如 ProxylessNAS 曾引入了跳接 (skip connection)来给超网带来伸缩性,但由于没有展示中间结果,以及并没有展开理论探讨,跳接在什么程度上影响了超网训练和最后的模型搜索均难以评估。
引入恒等变换
恒等变换(Identity mapping,ID)即跳接,在当前层的可选择运算模块(Choice block)中加入这个操作,可以从上一层直接越过连到当前层的下一层,从而实现层数的压缩,听上去很靠谱,但当引入 ID 后 one-shot 超网训练如何呢?
根据 SCARLET 做的实验看,单单加上 ID 就直接导致了超网训练的大幅波动,在选择了 ID 的那条路径,模型能力迅速下降,严重影响了整个超网的参数更新。
增加线性等价变换
恒等变换能帮我们实现层数的压缩,但又是个捣乱分子。怎么解决呢?SCARLET 提出给这个捣乱分子进行一些教育改良,由于之前的 ID 并没有学习功能,只完成连接,那最常见的学习单元就是带参数的卷积层。但问题来了,加了卷积层的路径和原有路径有什么不同呢?我们最后采样的模型,能否取掉这个卷积层来完成层间的跳接,实现我们期待的压缩呢?
▲ Fig 2. 线性等价变换示意图
幸运地是,加了线性的卷积层(即不含激活单元)的采样模型在表征能力上是和原有网络是等价的。SCARLET 对此进行了分情形的严格证明。在下一层运算单元是 FC 或 Conv 的情况下,给捣乱分子 ID 配备了学习单元 Conv 以后,表征能力并没有改变。这样的改良文中称作线性等价变换(Linearly Equivalent Transformation, LET)。
所以超网训练过程要开启 LET 来补足别的 block 都在学习,ID 不学习的弱点,而训练结束后,去掉 LET 完成瘦身,本文叫做 SCARLET,扼要概括了本次的方法创新(SCAlable supeRnet with Linearly Equivalent Transformation)。
▲ Fig 3. 情形一,线性等价变换前后表征能力等价的证明
加入了 LET 之后,超网训练就平和了许多。训练过程的模型采样来看,没有开 LET 前主要分布在两个区域,而开启之后,都集中在得分比较高的这个区间。
▲ Fig 4. 引入 LET 前后超网训练对比
与当前最好模型对比
从表中看出,SCARLET 这次打的是 EfficientNet 同量级模型 B0,SCARLET-A、B 均用了明显更少的 FLOPs,大幅超过或齐平 B0。而 SCARLET-C 又是超过了自己三部曲第一部中提出的 SOTA 模型 FairNAS-A。
▲ Fig 5. 当前 SOTA 模型在 ImageNet 数据集上的对比
模型结构分析
▲ Fig 6. SCARLET A,B,C 模型
与以往发布的 FairNAS 和 MoGA 模型不同,这次系列模型中有了更浅的层级,这也呼应了本次方法的要点,就是要找出浅一点但也很不错的模型,展示了超网的可伸缩性。
参考文献
Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search
https://arxiv.org/abs/1907.01845
Chu et al., MoGA: Searching Beyond MobileNetV3
https://arxiv.org/abs/1908.01314
Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search
https://arxiv.org/abs/1908.06022
Zoph et al. Learning Transferable Architectures for Scalable Image Recognition
https://arxiv.org/pdf/1707.07012
Cai et al: ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware
https://arxiv.org/abs/1812.00332
Tan et al., MnasNet: Platform-Aware Neural Architecture Search for Mobile
https://arxiv.org/abs/1807.11626
点击以下标题查看更多往期内容:
KDD Cup 2019 AutoML Track冠军团队技术分享
神经网络架构搜索(NAS)综述 | 附资料推荐
小米拍照黑科技:基于NAS的图像超分辨率算法
深度解读:小米AI实验室最新成果FairNAS
自动机器学习(AutoML)最新综述
MoGA:超过MobileNetV3的移动端GPU敏感型搜索
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
?
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码
发布可伸缩超网SCARLET,小米AutoML团队NAS三部曲杀青相关推荐
- 超越 EfficientNet!小米AutoML 团队开源 Scarlet 模型!
点击我爱计算机视觉标星,更快获取CVML新技术 8 月 19 日,小米 AI 实验室 AutoML 团队(论文作者:初祥祥.张勃.李吉祥.李庆源.许瑞军)再次展示最新成果 SCARLET,超过 Goo ...
- 两个月三项成果,对标谷歌!独家对话小米AutoML团队,如何让模型搜索更公平
大数据文摘出品 作者:曹培信 机器学习自动化(AutoML)正在引领机器学习的下一个时代,而要想让机器自己学会"炼丹",其中最关键的步骤就是,找到最合适的算法模型,也即自动化神经架 ...
- 小米史上最“短命”旗舰机:年初发布,官网已正式下架
12月1日,今年年初,小米官方宣布发布最后一款性价比手机--小米9.这部手机广受好评,并且一度形成一机难求的盛况,也被称作骁龙855标杆级别产品.不过近日,这款产品已经正式在小米官网下架,官网已经无法 ...
- 小米wifi每天晚上准时断网_小米 11再次确定,将于28日准时发布,售价更感人
今天是12月25日,在28日晚上,小米 11将准时发布.如今,关于小米 11的消息已经越来越多,小米官方也已经确定了不少配置,同时,小米 11的售价也已经有爆料出现.根据爆料消息显示,小米 11此次或 ...
- 红米有android,超23款小米、红米升Android O以上系统,日前又一款尝鲜Andro
原标题:超23款小米.红米升Android O以上系统,日前又一款尝鲜Andro 很多米粉都是冲着"为发烧而生"的理念加入了小米,所以小米/红米手机的系统升级是米粉最关心的,而在系 ...
- 今天,谷歌发布了一个里程碑项目Cloud AutoML 这是个什么东西
图:2017年3月9日在旧金山举行的Google Cloud Next大会 文章来源:ATYUN AI平台 谷歌在今天宣布了一项新的云服务Cloud AutoML,该服务旨在让企业更方便地创建定制的机 ...
- 小米小爱团队负责人王刚:语音交互背后,有多少人工就有多少智能
本文由AI大本营整理出品. 近日,在O'Reilly和Intel联合主办的AI Conference上,小米的小爱团队负责人王刚分享了他们在语音交互技术上的进展以及面临的困境,其一是有些用户需求的处理 ...
- IP协议详解之子网寻址、子网掩码、构造超网
子网寻址 1. 从两级IP地址到三级IP地址 <1>. IP地址利用率有时很低. <2>. 给每一个物理网络分配一个网络号会使路由表变得太大而使网络性能变坏. <3 ...
- 4.3.6 无分类编址CIDR(构成超网)
目录 无分类编址CIDR 构成超网 最长前缀匹配 无分类编址CIDR 构成超网 最长前缀匹配
最新文章
- sftp进入指定目录_CentOS7服务搭建----搭建SFTP(安全文件传送协议)服务器
- easyui树拖拽排序java_easyui tree 拖拽功能并将数据返回后台保存至数据库
- 【今晚7点半】:GVoice 千万在线语音传输的那些事
- Linux文件下载和上传工具lrzsz
- Git for Windows之分支管理、分支合并、解决分支冲突
- 重磅:IntelliJ IDEA 2020.2 EAP 5 已发布,可完美支持Java 15
- 20150820-Linux命令概述及一些基本命令
- nginx.conf 配置完整示例
- Swift桥接OC,手动创建Objective-OC Bridging Header
- 捣鼓openwrt不死bootloader (1)
- UBUNTU系统镜像定制
- 重庆大学计算机学院张敏,张敏(安徽大学生命科学学院院长)_百度百科
- 自学虚幻引擎图文笔记:颜色混合、法线强度调整及选择、归一化、点积、常量偏差比例、规范化等节点
- mybatis 连带操作(注解方式)(两张表关联,一张表插入一条新数据,另外一张表也跟着插入一条新数据)
- 使用icecast搭建在线电台并使用ffmpeg推流
- 实时音频混音技术在视频直播场景中的实践
- python随机中文名称生成器。
- 利用jQuery插件扩展识别浏览器内核与外壳的类型和版本
- 1000ip百度能给你带来多少收入?写给中小站长
- 提升电脑开机速度,解决大部分开机缓慢问题