Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices

每天一篇论文汇总list

摘要

深度神经网络(deep neural network,DNN)发展的一个最新趋势是将深度学习应用扩展到资源和能量更为受限的平台,例如移动设备。
这些努力旨在减小DNN模型的尺寸,提高硬件处理效率,并使DNN具有更紧凑的结构和/或更高的数据稀疏性。这些紧凑或稀疏模型不同于传统的大型模型,因为它们的层形状和大小有更多的变化,并且常常需要专门的硬件来利用稀疏性来提高性能。因此,许多为大型DNN设计的DNN加速器在这些模型上性能不佳。在这项工作中,我们提出了eyerisv2,一个DNN加速器架构,设计用于运行紧凑和稀疏DNN。为了处理广泛变化的层形状和尺寸,它引入了一种高度灵活的片上网络,称为层次网格,它能够适应不同数据类型的数据重用和带宽需求的不同数量,从而提高计算资源的利用率。此外,Eyeriss v2可以直接在压缩域中处理稀疏数据,从而提高稀疏模型的处理速度和能量效率。总的来说,在稀疏MobileNet的情况下,65nm CMOS工艺中的eyerisv2在批量大小为1的情况下实现1470.6个推论/秒和2560.3个推论/J的吞吐量,比运行MobileNet的原始eyeris快12.6倍,能效高2.5倍。

贡献

本文通过设计高度灵活的片上网络(NOC)来实现的,这是目前处理更多样的DNNS的瓶颈。此外,Eyeriss v2还通过利用各种DNN层中权重和激活的稀疏性来支持稀疏DNN,并将其转化为在能效和处理速度方面的改进。最后,与原来的Eyeris类似,Eyeris v2没有对DNN层所需的总存储容量是否适合芯片进行任何假设,而是优化了不同类型数据的分片方式,实现了芯片的高重用和高能效。总之,本文的贡献包括:
1.一种新型的NoC,称为分层mesh,旨在适应广泛的带宽需求。当数据重用率较低时,它可以从存储器层次提供高带宽(通过单播),以保持PEs的忙碌;当数据复用率较高时,仍然可以利用空间数据复用(通过多播或广播)来实现高能效。对于像MobileNet这样的紧凑型DNN,分层网格增加了5.6倍的吞吐量和1.8倍的能量效率。
2.利用权重和激活的稀疏性,在各种DNN层上提高吞吐量和能效的PE。数据以压缩稀疏列(compressed sparse column,CSC)格式保存,用于片内处理和片外访问,以降低存储和数据移动成本。将权重映射到PE通过考虑稀疏性来提高PE内部的重用性,从而可以减少工作负载不平衡的影响。总体而言,利用稀疏性可使MobileNet的吞吐量和能效分别提高1.2倍和1.3倍。
3.运行稀疏MobileNet的eyeris v2比原来的eyeris快12.6倍,能效高2.5倍(扩展到与eyeris v2相同的PEs数量和存储容量),即运行MobileNet(49.2M MACs)的eyeris v1。与运行AlexNet(724.4M Mac)的Eyeriss v1相比,使用稀疏AlexNet的Eyeriss v2速度快42.5倍,能效高11.3倍。最后,运行稀疏MobileNet的eyerisv1比运行AlexNet的eyerisv1快225.1倍,节能42.0倍。很明显,支持稀疏和紧凑dnn对速度和能耗有显著影响。

方法

#每天一篇论文 329/365 EyrISV2:一种用于移动设备上深度神经网络的柔性加速器(一)相关推荐

  1. 每天一篇论文 323/365 Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning

    每天一篇论文汇总list Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning 摘要 ...

  2. 论文浅尝 | 一种用于新闻推荐的深度知识感知网络

    Citation: Wang H, Zhang F, Xie X, et al. DKN: Deep Knowledge-Aware Networkfor News Recommendation[J] ...

  3. 【论文】AMC:AutoML用于移动设备上的模型压缩和加速

    摘要 模型压缩是在计算资源有限且功率预算紧张的移动设备上高效部署神经网络模型的有效技术.传统的模型压缩技术依赖于手工制作的特性,需要领域专家在模型大小.速度和精度之间进行权衡,以探索大的设计空间,这通 ...

  4. Achuan读论文:PARE:一种用于单语言和多语言远程监督关系抽取的简单而又强大的基线

    目录 PARE:一种用于单语言和多语言远程监督关系抽取的简单而又强大的基线 摘要 1. 介绍 2. 相关工作 3. 段落注意力关系抽取 PARE:一种用于单语言和多语言远程监督关系抽取的简单而又强大的 ...

  5. #每天一篇论文#(216/365)Adaptive Tracking Control of Nonholonomic Mobile Manipulators Using Recurrent Neura

    A.摘要 研究了一类非完整移动机器人在存在不确定性和扰动的情况下的轨迹跟踪问题.首先,在假定移动机械手运动子系统能够转化为链形的前提下,在不考虑外界干扰的情况下,精确地了解移动机械手的运动子系统,设计 ...

  6. #每天一篇论文#238/365 基于注意力的上下文聚合网络用于单目视觉深度估计

    Attention-based Context Aggregation Network forMonocular Depth Estimation 本文提出了一种在enconde阶段加入注意力网络结构 ...

  7. #每天一篇论文#229/365 基于卷积神经网络航空影像的电力线绝缘子缺陷检测

    Detection of Power Line Insulator DefectsUsing Aerial Images Analyzed WithConvolutional Neural Netwo ...

  8. #每天一篇论文264/365 Enforcing geometric constraints of virtual normal for depth prediction

    Enforcing geometric constraints of virtual normal for depth prediction 原文 代码 摘要 单目深度预测在理解三维场景几何中起着至关 ...

  9. 论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

    笔记整理 | 谭亦鸣,东南大学博士生 来源:COLING 2020 链接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf 本文发现, ...

最新文章

  1. fastdfs详细安装教程
  2. 做一名真正的软件工程师
  3. 7.04 -2018-长沙机场笔试总结
  4. Laravel 在Centos上的安装
  5. 66 SD配置-交货凭证配置-激活 SD 中的自动批决定
  6. APP设计灵感|高颜值时钟页面!让每一秒都过得有意义
  7. 苹果电脑获取Android Studio的发布版SHA1和开发版SHA1
  8. html页面添加视频背景设置为自动播放,打开网址就会自动播放,简单有效亲测
  9. java8 API 中文 翻译版 java帮助文档下载
  10. 教师职称考计算机模块,2015教师职称计算机考试模块.doc
  11. windows安装 wget
  12. 单片机流水灯工作原理
  13. 百度云盘超4G大文件上传不了怎么办?
  14. 邮箱用户计算机名格式,电子邮箱怎么写 用什么格式
  15. VLC保存网络视频及抓包合成视频
  16. Nodejs版本更新
  17. <第6个月>shopee运营日记,2021年shopee还值不值得做?能赚钱吗
  18. oRbIt 的专栏 用天文方法计算二十四节气(下)
  19. 关于win10图标不正常显示的一种解决方法
  20. Mac 本地下载安装Nginx

热门文章

  1. 年龄计算机在线计算适合你的对象,年龄计算器恋爱对象APP
  2. fedora 安装smplayer 播放各种格式视频
  3. Netty实现服务器推Push(Android推送)
  4. mysql创建表时打错了怎么修改_MySQL 创建,修改和删除表
  5. 新三国战记的设想!!!!!!(未能用代码实现)
  6. tp5.1添加定时器任务linux,TP5 用cron实现linux定时任务
  7. 侠客风云传ol未能连接服务器,《侠客风云传OL》三周年庆典活动清爽而至
  8. ORACLE12C 创建表空间的方法
  9. 70个经典人生感言(转)
  10. android 重力权限,Java-Android:设置RecyclerView项的重力