Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedd Pla
CSDN太难用了。。。以后将转战知乎。。。
文献阅读:
Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms
本文用LUT做的run-time management, 就是在offline中先用accuracy predictor和latency predictor去预测sub-network延迟和acc,然后存在LUT里,在runtime的时候online时候 runtime manager读LUT,找满足要求的配置,配置是指不同精度和latency的模型,论文里是不同level
all in all是分两步,offline评估和online schedule
- Pre-sample a family of sub-networkfrom a static OFA (one for all network) and contains a runtime manager to choose different sub-networks under different runtime environments. 从OFA中预采样小网络,用runtime manager在不同runtime 环境下选择不同的子网络。
advantage:
1. search from once-for-all network (OFA) and don't need retrain. 直接从OFA搜索不需要retrain1. Scale DNN architecute including width, depth, filter size and input resolution for both GPU and CPU with one shared backbone. (CPU: more layers and less channel. GPU: more channel, less layers)
Two steps:
- offline step: accuracy and latency of sub-networks are evaluated to find a family of efficient sub-networks on the Pareto-front for both CPU and GPU. (offline评估accuracy 和latency, 在CPU 和GPU 上找一组子网络)
- run-time manager to switch between the optimal subnetwork based on the runtime accuarcy and latency requirement of the applicaiton and the available resources on the platform. (根据accuracy、latency和硬件资源要求switch子网络)
贡献:
- dynamic DNN with OFA. 用OFA的动态DNN
- search algorithm for subnetwork。 根据accuracy和latency搜索subnetwork
- runtime approach for switch. Runtime 子网络switch满足性能和硬件资源限制的runtime approach
backbone network: once-for-all OFA
The approach identifies a family if efficient sub-network on Pareto-front for each compuation element in heterogeneous platform and pre-calculates batch-norm parameters for those sub-networks offline.
search on server and less time needed.
Optimal sub-network architecture search:
previous alg only find model which is under time constraint.
This paper proposed a search alg to find sub-networks under certain latency constraints and have better accuracy.
Accuracy predictor: three-layer NN trained with 5000 networks and accuracy
latency predictor: use LUT to record operation time(conv pooling), CPU GPU use different LUT
随机获得的subnetwork 有的是sub-optimal负优化的,红线上的才是能够被用building Dynamic-OFA.
B-N is pretrained during design time
Runtime architecuture switching
- one single dynamic-OFA: directly search in LUT
- Two workload share CPU/GPU: can’t directly use LUT but RTM can gradually change the sub-network to tradeoff.
Experiment
backbone: Mobilenet v3 Imagenet
Dynamic-OFA 比OFA精度低,因为static OFA微调了
跟Dynamic FLOPs-accuracy比较
run-time switch
只有D-OFA,根据latency和acc的要求,运行不同的subnetwork
RTM 每十张图片计算latency,RTM switch 15ms
多任务共同运行
和static DNN 同时运行,逐渐从level4 -> level3 -> level2
两个D-OFA一起运行
A constraint: 65ms
B constraint:55ms
A一开始在最高level运行,B 在level5,A转到level5,B还是慢,然后B到level4
- pareto tradeoff curve
https://zhuanlan.zhihu.com/p/54691447
Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedd Pla相关推荐
- 计算机视觉论文-2021-05-11
本专栏是计算机视觉方向论文收集积累,时间:2021年5月11日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔 ...
- 神经网络架构搜索(Neural Architecture Search)杂谈
一.背景 机器学习从业者被戏称为"调参工"已经不是一天两天了.我们知道,机器学习算法的效果好坏不仅取决于参数,而且很大程度上取决于各种超参数.有些paper的结果很难重现原因之一就 ...
- 神经网络架构搜索(Neural Architecture Search, NAS)笔记
目录 (一)背景 (二)NAS流程 2.1 定义搜索空间 2.2 搜索策略 (三)加速 (四)变体及扩展 4.1 扩展到其他任务 4.2 扩展到其他超参数 (一)背景 机器学习从业者被戏称为" ...
- 【读点论文】DeepFace: Closing the Gap to Human-Level Performance in Face Verification。深度学习开始对人脸下手
DeepFace: Closing the Gap to Human-Level Performance in Face Verification 最早将深度学习用于人脸验证的开创性工作.Facebo ...
- Neural Architecture Search: A survey
文章目录 1. Introduction 2. Search Space 2.1搜索空间定义: 2.2 常见的搜索空间举例: 2.2.1 简单链式搜索空间: 2.2.2 复杂多分支搜索空间 2.2.3 ...
- 2021年 ICCV / NeurIPS / AAAI 中Neural Architecture Search (NAS) 神经网络结构搜索相关论文汇总
这里写自定义目录标题 ICCV (35篇) NeurIPS / NIPS (28篇) AAAI (31篇) ICCV (35篇) Learning Latent Architectural Distr ...
- Framework 4.0 新关键字dynamic 之我见(二)
Hi,大家好,随着大家对VS2010的深入了解,对dynamic已经是越来越了解了,何时该用,何时不用已经非常熟悉了,原本不打算再写下去的,但感觉还有点东西需要说说,就简单再说一下吧. 原先以为dyn ...
- C#中dynamic的正确用法 以及 typeof(DynamicSample).GetMethod(Add);
dynamic是FrameWork4.0的新特性.dynamic的出现让C#具有了弱语言类型的特性.编译器在编译的时候不再对类型进行检查,编译期默认dynamic对象支持你想要的任何特性.比如,即使你 ...
- C#中dynamic、ExpandoObject 的正确用法
原文地址:http://www.cnblogs.com/qiuweiguo/archive/2011/08/03/2125982.html dynamic是FrameWork4.0的新特性.dynam ...
最新文章
- python第三方库之Django学习笔记一
- 【cocos2d-x从c++到js】16:使用cocos2d-console工具转换脚本为字节码
- git修改文件权限方式
- 在 vscode 中使用 Git :拉取、提交、克隆
- linux shell 函数 格式化,速查笔记(linux shell编程)
- 5月24日上课笔记-js操作DOM
- 鸿蒙os2.0官网公测报名,鸿蒙OS2.0公测版测试资格报名-鸿蒙OS2.0公测版测试资格报名官网地址预约 -友情手机站...
- 直击前沿技术:云原生应用低代码开发平台实践
- 你有没有思考过,特斯拉为什么先进?
- Java课程设计报告——学生成绩管理系统
- 山重水复疑无路,最快下降问梯度(深度学习入门系列之七)
- 垂杨柳中学2021年高考成绩查询时间,实力入选!朝阳这几所学校上榜啦丨校园直通车(2021年第4期)...
- 计算机专业考研要分最低的院校,计算机考研院校难度排行榜
- chai断言库学习3-Core Plugin Concepts
- 至联云为你解析Filecoin最新经济模型:180天线性释放是什么意思?
- 狼人杀要做社交,绕不开音视频连麦
- office2020与2016版的不同_Office2019和Office2016相比不同在哪些地方 Office 2019新增功能体验分享...
- 完美解决:Chrome浏览器无法自动保存/填充密码
- 企业要求的J2EE详解
- 进程4G虚拟内存空间的分配
热门文章
- 哪类公司能开增值税票,哪类公司只能开普票?
- 像素艺术海报特效ps动作 Vexel Art Poster Photoshop Action
- 专家不建议年轻人掏空六个钱包凑首付
- CTF入门——啥也不会纯小白入门教程
- 代号z服务器维护,这么大胆?消失的这段时间《代号Z》竟然做了这些事!
- 基于模糊控制洗衣机控制器LABVIEW实现
- java条形码和二维码解析
- 服务器系统镜像需要什么格式,常见的系统镜像格式
- Ubuntu 13.10 64位 ia32-libs未发现软件包 解决办法
- centos cron_如何在CentOS 8上使用Cron自动化任务