本文更新了近三年来人工智能加速器和处理器的研究进展

GitHub - areuther/ai-accelerators: CSV spreadsheets and other material for AI accelerator survey papers

本文更新了近三年来人工智能加速器和处理器的研究进展,收集和总结了目前已公开公布的具有峰值性能和功耗数字的商用加速器。

性能和功率值绘制在散点图上,并再次讨论和分析该图上趋势的多个维度和观察结果。

今年的论文中包含了两个基于加速器发布日期的新趋势图,以及一些神经形态的、光子的和基于忆阻的推断加速器的附加趋势。

1

『引言』

就像去年一样,初创公司和老牌科技公司发布、发布和部署人工智能(AI)和机器学习(ML)加速器的速度一直很缓慢。

这并非没有道理;对于许多已经发布加速器报告的公司来说,他们已经花了三到四年的时间进行研究、分析、设计、验证和验证他们的加速器设计权衡,并构建了为加速器编程的软件堆栈。

对于那些发布了后续版本加速器的公司来说,他们报告的开发周期更短了,尽管仍然至少是两三年。

这些加速器的重点仍然是加速深度神经网络(DNN)模型,应用空间从极低功耗嵌入式语音识别和图像分类到数据中心规模的训练,而定义市场和应用领域的竞争继续作为现代计算向机器学习解决方案的更大的工业和技术转移的一部分。

AI生态系统将嵌入式计算(边缘计算)、传统高性能计算(HPC)和高性能数据分析(HPDA)的组件聚集在一起,这些组件必须一起工作,有效地为决策者、作战人员和分析人员提供使用的能力。

图1捕捉了这种端到端AI解决方案及其组件的架构概述。

在图1的左侧,结构化和非结构化数据源提供了实体和/或现象学的不同视图。这些原始数据产品被送入数据调节步骤,在这个步骤中,它们被融合、聚合、结构化、积累并转换为信息。

数据调节步骤生成的信息输入到大量有监督和无监督算法中,如神经网络,这些算法提取模式,预测新事件,填充缺失数据,或在数据集中寻找相似性,从而将输入信息转换为可操作的知识。

然后将这些可操作的知识传递给人类,以便在人机协作阶段进行决策过程。人机组合阶段为用户提供了有用的和相关的洞察力,将知识转化为可操作的情报或洞察力。

支撑这个系统的是现代计算系统。摩尔定律的趋势结束了[2],许多相关的定律和趋势也结束了,包括德纳尔比例(功率密度)、时钟频率、核心计数、每时钟周期的指令和每焦耳(库米定律)的指令[3]。

借鉴片上系统(SoC)的趋势,首先出现在汽车应用、机器人和智能手机上,通过为常用的操作内核、方法或功能开发和集成加速器,技术进步和创新仍在不断进步。这些加速器的设计在性能和功能灵活性之间达到了不同的平衡。这包括深度机器学习处理器和加速器[4]-[8]的创新爆发。

在这一系列的调查论文中,我们将探讨这些技术的相对好处,因为它们对于将AI应用到具有重大限制(如尺寸、重量和功率)的领域(无论是在嵌入式应用程序还是在数据中心)具有特别重要的意义。

本文是对过去三年IEEE-HPEC论文[9]-[11]的更新。

与过去几年一样,本文继续去年的重点关注加速器和处理器,它们面向深度神经网络(DNN)和卷积神经网络(CNNs),因为它们的计算量相当大。

由于多种原因,包括国防和国家安全AI/ML边缘应用严重依赖于推理,本调查将重点放在用于推理的加速器和处理器上。

我们将考虑加速器支持的所有数值精度类型,但对其中大多数来说,它们的最佳推理性能是int8或fp16/bf16 (IEEE 16位浮点或谷歌的16位脑浮点)。

有许多综述[13]-[24]和其他论文,涵盖了AI加速器的各个方面。

例如,这项多年调查的第一篇论文包括某些AI模型的FPGA的峰值性能;然而,上述的一些调查深入地涵盖了FPGA,因此它们不再包括在本次综述中。

这项多年的综述工作和本文的重点是收集一个全面的人工智能加速器的列表,其计算能力,电力效率,并最终在嵌入式和数据中心应用中使用加速器的计算效率。

随着这一重点,本文主要比较神经网络加速器是有用的政府和工业传感器和数据处理应用。在前几年的论文中包含的一些加速器和处理器在今年的调查中被排除在外。

它们被丢弃了,因为它们被同一家公司的新加速器超越了,它们不再被提供,或者它们不再与主题相关。

2

『处理器概述』

人工智能的许多最新进展至少可以部分归功于计算硬件[6]、[7]、[25]、[26]的进步,使计算量大的机器学习算法成为可能,特别是dnn。

这项调研从公开的材料中收集性能和电力信息,包括研究论文、技术贸易出版物、公司基准等。

虽然有很多途径可以获取公司和初创公司(包括那些处于静默期的公司)的信息,但这些信息有意被排除在本次调研之外;当这些数据公开时,将包括在本次调研中。

这些公共数据的关键指标如图2所示,它绘制了最近的处理器能力(截至2022年7月),映射出峰值性能与功耗的关系。虚线框描述了图3中放大并绘制的非常密集的区域。

3

『观察与趋势』

  1. Int8继续是嵌入式、自主和数据中心推理应用的默认数值精度。对于大多数具有合理数量的类的AI/ML应用程序,这种精度是足够的。但是,有些加速器也使用fp16和/或bf16进行推断。为了训练,变成了整数表示。
  2. 在这类和嵌入式类别中,发布片上系统(SoC)解决方案是非常常见的,通常包括低功耗CPU内核、音频和视频模拟-数字转换器(adc)、加密引擎、网络接口等。soc的这些附加特性不会改变峰值性能指标,但它们对报告的芯片峰值功率有直接影响,所以在比较它们时请记住这一点。
  3. 嵌入式部分的变化不大,这可能意味着计算性能和峰值功率足以满足该领域的应用程序类型。
  4. 在自治和数据中心芯片和卡片领域,密度变得非常拥挤,这需要在图3中进行放大。在过去的几年里,包括德州仪器在内的几家嵌入式计算微电子公司已经发布了AI加速器,而NVIDIA也发布并宣布了几个更强大的汽车和机器人应用系统。在数据中心卡中,为了突破PCIe v4 300W的功率限制,PCIe v5规格备受期待。
  5. 最后,高端训练系统不仅发布了令人印象深刻的性能数据,而且这些公司还宣布了高度可扩展的互联技术,可以将数千张卡片连接在一起。这对于像Cerebras、GraphCore、Groq、Tesla Dojo和SambaNova这样的数据流加速器尤其重要,这些加速器是显式/静态编程的,或者是“放置和路由”到计算硬件上的。它使这些加速器能够适应非常大的模型,如transformer[129]。

参考资料:

https://mp.weixin.qq.com/s/gT-vtbrIVhTZkZgtmOy8wA

MIT发布《人工智能加速器》2022年度综述论文,详解80+类AI芯片性能优劣相关推荐

  1. 综述的综述!5 篇2020 年「图像分割算法」最佳综述论文详解

    在过去的一年中,计算机视觉领域出现了许多优秀的工作,并推动了相关领域的技术发展与进步.极市平台对2020年出现的全部计算机视觉综述论文进行了分方向梳理.本篇文章为2020年图像分割方向的综述论文汇总, ...

  2. 人工智能里程碑ChatGPT之最全详解图解

    人工智能里程碑ChatGPT之最全详解图解 1. ChatGPT的前世今生 1.1 ChatGPT演化路线 1.2技术推进路线 2.ChatGPT主要功能及应用领域 2.1 主要功能 2.2 应用领域 ...

  3. ai算子是什么_肇观电子刷新端侧AI芯片性能记录并发布“5分钟部署”AI开发平台 - 企业资讯...

    基于多年研发的CVKit™ NN IP的N1系列SoC芯片刷新了端侧AI芯片性能记录.领先的每TOPs处理帧数,实时数据流处理能力,支持高精度FP16神经网络模型直接无损部署,高性能的INT8网络支持 ...

  4. 图注意力网络GAT - 《Graph Attention Networks》论文详解

    目录 前言 正文 图注意力机制层(Graph Attentional Layer) 层的输入 注意力系数 归一化注意力系数 通过邻居节点更新自身节点 层的输出 GAT相比于先前研究的优势 附作者简介 ...

  5. 智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型...

    原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...

  6. Fast R-CNN论文详解

    Fast R-CNN论文详解 作者:ture_dream &创新点 规避R-CNN中冗余的特征提取操作,只对整张图像全区域进行一次特征提取: 用RoI pooling层取代最后一层max po ...

  7. 限时9.9元 | 快速领取数学建模竞赛备战必备技巧与论文详解!

    全世界只有3.14 % 的人关注了 青少年数学之旅 大家晚上好,随着美赛时间的公布以及大大小小的数学建模竞赛的进行,小天经常可以收到来自很多小伙伴们提出的问题,"竞赛中如何去考虑选题?&qu ...

  8. transfromer-XL论文详解

    transfromer-XL论文详解 – 潘登同学的NLP笔记 文章目录 transfromer-XL论文详解 -- 潘登同学的NLP笔记 Vanilla Transformer Segment-Le ...

  9. KernelGAN论文详解分享

    KernelGAN- Blind Super-Resolution Kernel Estimation using an Internal-GAN论文详解 论文地址:https://arxiv.org ...

最新文章

  1. PropertiesFactoryBean PropertyPlaceholderConfigurer 区别
  2. 错误 1 “System.Data.DataRow.DataRow(System.Data.DataRowBuilder)”不可访问,因为它受保护级别限制...
  3. lzg_ad:使用Virtual PC 部署和测试XP Embedded 发布镜像
  4. opengles2.0 帧缓存对象(FBO)
  5. 介绍4种HTML5 Canvas库
  6. python中函数的调用_慢步python,编程中函数的概念,python中函数的声明和调用
  7. Vue.js2.0开发环境搭建(二)
  8. Unity Text 插入图片
  9. 网络编程BaseIO介绍
  10. 7-3 二叉搜索树的结构 (30 分)
  11. C语言中的.h文件的作用
  12. 找个好人就嫁了吧 - 刘思伟
  13. LORA+4G无线组网的方案
  14. mysql 按比例计算排名_计算MS SQL中的百分比排名
  15. 应用计算机测定线性电阻伏安特性实验器材,实验一电路元件伏安特性的测试
  16. 最牛逼的心理学家是如何看待人生的
  17. 家有妙招:教你一个在淘宝买东西打折的好方法
  18. 转给身边工程师:环形穿梭车控制系统设计细节来了!
  19. 使用内核驱动上手 x710 flow directory 功能
  20. (蓝桥杯)Sine之舞

热门文章

  1. 爬虫实现爬取牛客网数据结构试题
  2. Material Design设计规范与符合MD设计风格的库、APP
  3. intel 芯片 后缀 HK,K,T,S,HQ,R,U,
  4. 《操作系统第四版》(刘振鹏 王煜)(四)进程同步与通信
  5. C/C++系列之变量声明与使用——新手必须掌握的基础技能二
  6. HDU - Mophues(莫比乌斯反演)
  7. 连续邮资问题-回溯法
  8. 学习笔记:从技术到管理,在蜕变中成长
  9. web.config配置文件格式详细解读
  10. Linux TTY Driver