CSDN太难用了。。。以后将转战知乎。。。
文献阅读:
Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms

本文用LUT做的run-time management, 就是在offline中先用accuracy predictor和latency predictor去预测sub-network延迟和acc,然后存在LUT里,在runtime的时候online时候 runtime manager读LUT,找满足要求的配置,配置是指不同精度和latency的模型,论文里是不同level

all in all是分两步,offline评估和online schedule

  • Pre-sample a family of sub-networkfrom a static OFA (one for all network) and contains a runtime manager to choose different sub-networks under different runtime environments. 从OFA中预采样小网络,用runtime manager在不同runtime 环境下选择不同的子网络。
  • image-20220513161432733

​ advantage:

 1. search from once-for-all network (OFA) and don't need retrain. 直接从OFA搜索不需要retrain1. Scale DNN architecute including width, depth, filter size and input resolution for both GPU and CPU with one shared backbone. (CPU: more layers and less channel. GPU: more channel, less layers)

Two steps:

  1. offline step: accuracy and latency of sub-networks are evaluated to find a family of efficient sub-networks on the Pareto-front for both CPU and GPU. (offline评估accuracy 和latency, 在CPU 和GPU 上找一组子网络)
  2. run-time manager to switch between the optimal subnetwork based on the runtime accuarcy and latency requirement of the applicaiton and the available resources on the platform. (根据accuracy、latency和硬件资源要求switch子网络)

贡献:

  1. dynamic DNN with OFA. 用OFA的动态DNN
  2. search algorithm for subnetwork。 根据accuracy和latency搜索subnetwork
  3. runtime approach for switch. Runtime 子网络switch满足性能和硬件资源限制的runtime approach
  • backbone network: once-for-all OFA

    The approach identifies a family if efficient sub-network on Pareto-front for each compuation element in heterogeneous platform and pre-calculates batch-norm parameters for those sub-networks offline.

    search on server and less time needed.

  • Optimal sub-network architecture search:

    previous alg only find model which is under time constraint.

    This paper proposed a search alg to find sub-networks under certain latency constraints and have better accuracy.

    Accuracy predictor: three-layer NN trained with 5000 networks and accuracy

    latency predictor: use LUT to record operation time(conv pooling), CPU GPU use different LUT

    image-20220513194520370 image-20220513194931286

    随机获得的subnetwork 有的是sub-optimal负优化的,红线上的才是能够被用building Dynamic-OFA.

  • B-N is pretrained during design time

  • Runtime architecuture switching

    • one single dynamic-OFA: directly search in LUT
    • Two workload share CPU/GPU: can’t directly use LUT but RTM can gradually change the sub-network to tradeoff.

Experiment

backbone: Mobilenet v3 Imagenet

  • Dynamic-OFA 比OFA精度低,因为static OFA微调了

    跟Dynamic FLOPs-accuracy比较

    image-20220513205928221

​ run-time switch

image-20220513210251032

  • 只有D-OFA,根据latency和acc的要求,运行不同的subnetwork

    image-20220513210814071

    RTM 每十张图片计算latency,RTM switch 15ms

  • 多任务共同运行

    和static DNN 同时运行,逐渐从level4 -> level3 -> level2

    image-20220513212058619

两个D-OFA一起运行

A constraint: 65ms

B constraint:55ms

A一开始在最高level运行,B 在level5,A转到level5,B还是慢,然后B到level4

image-20220513212214833

  • pareto tradeoff curve
    https://zhuanlan.zhihu.com/p/54691447

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedd Pla相关推荐

  1. 计算机视觉论文-2021-05-11

    本专栏是计算机视觉方向论文收集积累,时间:2021年5月11日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔 ...

  2. 神经网络架构搜索(Neural Architecture Search)杂谈

    一.背景 机器学习从业者被戏称为"调参工"已经不是一天两天了.我们知道,机器学习算法的效果好坏不仅取决于参数,而且很大程度上取决于各种超参数.有些paper的结果很难重现原因之一就 ...

  3. 神经网络架构搜索(Neural Architecture Search, NAS)笔记

    目录 (一)背景 (二)NAS流程 2.1 定义搜索空间 2.2 搜索策略 (三)加速 (四)变体及扩展 4.1 扩展到其他任务 4.2 扩展到其他超参数 (一)背景 机器学习从业者被戏称为" ...

  4. 【读点论文】DeepFace: Closing the Gap to Human-Level Performance in Face Verification。深度学习开始对人脸下手

    DeepFace: Closing the Gap to Human-Level Performance in Face Verification 最早将深度学习用于人脸验证的开创性工作.Facebo ...

  5. Neural Architecture Search: A survey

    文章目录 1. Introduction 2. Search Space 2.1搜索空间定义: 2.2 常见的搜索空间举例: 2.2.1 简单链式搜索空间: 2.2.2 复杂多分支搜索空间 2.2.3 ...

  6. 2021年 ICCV / NeurIPS / AAAI 中Neural Architecture Search (NAS) 神经网络结构搜索相关论文汇总

    这里写自定义目录标题 ICCV (35篇) NeurIPS / NIPS (28篇) AAAI (31篇) ICCV (35篇) Learning Latent Architectural Distr ...

  7. Framework 4.0 新关键字dynamic 之我见(二)

    Hi,大家好,随着大家对VS2010的深入了解,对dynamic已经是越来越了解了,何时该用,何时不用已经非常熟悉了,原本不打算再写下去的,但感觉还有点东西需要说说,就简单再说一下吧. 原先以为dyn ...

  8. C#中dynamic的正确用法 以及 typeof(DynamicSample).GetMethod(Add);

    dynamic是FrameWork4.0的新特性.dynamic的出现让C#具有了弱语言类型的特性.编译器在编译的时候不再对类型进行检查,编译期默认dynamic对象支持你想要的任何特性.比如,即使你 ...

  9. C#中dynamic、ExpandoObject 的正确用法

    原文地址:http://www.cnblogs.com/qiuweiguo/archive/2011/08/03/2125982.html dynamic是FrameWork4.0的新特性.dynam ...

最新文章

  1. python第三方库之Django学习笔记一
  2. 【cocos2d-x从c++到js】16:使用cocos2d-console工具转换脚本为字节码
  3. git修改文件权限方式
  4. 在 vscode 中使用 Git :拉取、提交、克隆
  5. linux shell 函数 格式化,速查笔记(linux shell编程)
  6. 5月24日上课笔记-js操作DOM
  7. 鸿蒙os2.0官网公测报名,鸿蒙OS2.0公测版测试资格报名-鸿蒙OS2.0公测版测试资格报名官网地址预约 -友情手机站...
  8. 直击前沿技术:云原生应用低代码开发平台实践
  9. 你有没有思考过,特斯拉为什么先进?
  10. Java课程设计报告——学生成绩管理系统
  11. 山重水复疑无路,最快下降问梯度(深度学习入门系列之七)
  12. 垂杨柳中学2021年高考成绩查询时间,实力入选!朝阳这几所学校上榜啦丨校园直通车(2021年第4期)...
  13. 计算机专业考研要分最低的院校,计算机考研院校难度排行榜
  14. chai断言库学习3-Core Plugin Concepts
  15. 至联云为你解析Filecoin最新经济模型:180天线性释放是什么意思?
  16. 狼人杀要做社交,绕不开音视频连麦
  17. office2020与2016版的不同_Office2019和Office2016相比不同在哪些地方 Office 2019新增功能体验分享...
  18. 完美解决:Chrome浏览器无法自动保存/填充密码
  19. 企业要求的J2EE详解
  20. 进程4G虚拟内存空间的分配

热门文章

  1. 哪类公司能开增值税票,哪类公司只能开普票?
  2. 像素艺术海报特效ps动作 Vexel Art Poster Photoshop Action
  3. 专家不建议年轻人掏空六个钱包凑首付
  4. CTF入门——啥也不会纯小白入门教程
  5. 代号z服务器维护,这么大胆?消失的这段时间《代号Z》竟然做了这些事!
  6. 基于模糊控制洗衣机控制器LABVIEW实现
  7. java条形码和二维码解析
  8. 服务器系统镜像需要什么格式,常见的系统镜像格式
  9. Ubuntu 13.10 64位 ia32-libs未发现软件包 解决办法
  10. centos cron_如何在CentOS 8上使用Cron自动化任务