曾经看到过一部红极一时的纪录片《寿司之神》。

小野二郎是世界上年纪最大的米其林三星主厨,老爷子一辈子就钻研了一件事:寿司。

在垂直的领域做到世界顶级,靠的就是匠人精神。

如果我们抛开那些外在的包装和炒作,沉淀下来去观察他做的事情,就不难发现匠人精神的本质,其实就是专业和坚持。

捏寿司是这样,各行各业也是这样。

推动行业发展的,或许并不是图灵那样可遇不可求的天才,而是更多『匠人』对极致的追求,特别是他们在某个小领域不断地深耕、优化、提升。

打个最简单的比方,天才创造了开天辟地的理论,就像是1,但需要无数匠人在后面补上0,才能让这个数变的越来越大。

芯片行业也不例外。

当FPGA在1984年诞生的时候,就像是一个不起眼的1,没有人会想到这将成为一个价值几十亿美元的产业。不到四十年的时间,后面加了十个0。

这就是指数级的爆发。

摩尔定律描述的就是指数级的规律,而FPGA一直都是体现摩尔定律的最好例子。

接下来我们就从FPGA存储器这个小领域,看看匠人精神是怎么用在这里的。

01 

新型存储架构

英特尔总结过,FPGA现在和未来的发展趋势只有三个:

传输更快,存储更多,计算更广。

Move fast, Store more, Process everything.

所以,就像不要觉得寿司只是酸米饭配芥末一样,再也不要觉得FPGA只是用来做芯片原型验证的了。FPGA早就被用作高能效的硬件加速单元,去加速你能想到的所有应用了。

FPGA之所以有这样的能力,是由它本身的结构决定的。比如FPGA有着很强的硬件并行性,能像GPU那样进行并行运算,但功耗却低很多;它还能灵活地调整数据的精度,让神经网络的压缩和优化成为现实。

同样重要的是,FPGA能提供极高的内存带宽、同时兼顾计算的效率,从而解决很多应用都存在的内存瓶颈问题。

而存储,就是FPGA上最体现「匠人」功力的地方。

传统的FPGA存储单元并不是只有一种结构,而是分成下面两类:

  • 片上内存:如M20K、MLAB等

  • 片外内存:如DDR5、LPDDR5等

片上内存速度最快、容量最小、造价最高;片外内存速度慢、容量大、造价低。

这样的结构,并不是某个天才一拍脑门想出来的。最早的FPGA只支持片上内存。但是随着需要处理的数据越来越多,就慢慢加入了对片外内存的支持,并且逐渐成为了主流FPGA的标配。

匠人精神的本质,就是不断发现问题、解决问题、并且极致优化的过程。

在这个过程中人们逐渐发现,片上和片外这两种内存之间,仍然存在着一个巨大而关键的缺口:对于很多数据密集型的应用,它们的数据量比片上内存的容量大得多,但对于带宽的需求又比片外内存能提供的大得多。

这时出现了第三种内存类型:封装内存。这种内存的最典型代表,就是HBM。

典型的存储层次结构

它之所以叫「封装内存」,是因为内存颗粒与FPGA被集成在同一个芯片封装里了。

比如在英特尔最新的Agilex-M系列FPGA里,就在芯片的上下两侧通过EMIB技术集成了两个HBM2e,这也是业界第一个集成了HBM2e高带宽存储器的FPGA。这样不仅减小了芯片的尺寸,还能进一步降低功耗和数据传输的时延。

英特尔Agilex-M FPGA平面图

一个有趣的小知识,Agilex-M的“M”,就是Memory存储器的意思。也就是说,Agilex-M就是专门为高性能存储而优化的FPGA芯片。

和传统的芯片结构不同,HBM2e是一种三维结构。如果说传统芯片是平房,那么HBM2e就是大楼。所以在容量这个维度,HBM2e秒杀片上内存。

比如它可以包含4层或8层,每层提供2GB内存,再考虑到一个Agilex-M里包含两个HBM2e,这样FPGA就能提供高达32GB的内存容量,比片上内存多两个数量级。

从内存带宽这个维度来看,每个HBM2e能提供410Gbps的内存带宽,比业界前沿的DDR5和GDDR6分别高18倍、和高7倍,比更加“主流”的DDR4等等更不知道要高到哪里去了。

有了HBM,看起来存储的问题已经解决了?还远远没有:HBM只是第一步。

02 

新型非易失性存储

对于片外内存,新的问题又出现了。对于很多应用来说,DDR最大的问题并不是慢,而是断电后数据会消失。

这时人们就不得不采用闪存这样的“非易失性”存储,来保存那些关键数据。但硬币的另一面,是闪存的性能比DDR还要低。

为了解决这个问题,英特尔提供了一种名叫“傲腾”的新型存储介质,这种存储级内存其存储密度比普通内存高,但存取速度又比闪存快。

更重要的是,傲腾™技术作为一种持久内存的形态存在时(之所以这么表达是因为还有一个傲腾SSD。。。怕有混淆,您看看这样说是不是更好?),它独有的非易失性,使得它里面存的数据在断电后并不会消失。

与 DRAM 内存相比,持久内存具有更经济的价格和更大的容量,和固态盘相比则拥有更优的数据响应速度和传输速度(接近 DRAM 内存)。

正因于此,傲腾也逐渐成为了很多高性能应用里的关键存储单元,多用来做内存的大补充或者为内存密集型应用和延时敏感型应用服务。

03 

片上网络,终于来了

同样还在进化的,是FPGA的芯片架构。

之前的文章里介绍过,Agilex FPGA对芯片布局进行了大修,把各种I/O接口和存储单元都移到了芯片的上下两端,把各种高速收发器放在了芯片的左右两端,这样芯片中间就成了一个像足球场一样的特别平整的结构。

之前开一个大脚会踢到各种模块单元,数据跑起来自然就慢。现在一马平川,没有挡路的东西了,数据跑起来就快多了。

可以说,这已经是近几年来FPGA架构上最有创意的尝试了。但你以为这样就完了吗?

Agilex-M最大的架构变化,就是引入了片上网络Network-on-Chip。这就像在城市规划里,不仅有道路交通,还有轨道交通。在轨道上运行的地铁或城铁,不仅速度可以更快,还能运更多的人。更重要的是,轨道可以建在地上或者地下,不影响在路上跑的汽车自行车摩托车。

Agilex-M的片上网络NoC结构示意图

Agilex-M的片上网络专门为存储设计,也就是说,这是一趟专列。

有了片上网络,FPGA和各种内存之间的数据传输就不用经过FPGA的路由资源了。HBM2e通过UIB接口连接片上网络、DDR和傲腾这些片外内存则通过IO96子系统连接片上网络,并且可以实现7.52Tbps的总带宽。

04 

其他架构优化

除了片上网络,Agilex-M还有很多其他的架构优化。I/O方面,它的收发器带宽可以达到116Gbps,可以支持CXL、PCIe Gen5、400G以太网等等这些数据中心和网络通信的最新协议和接口。

计算性能方面,Agilex-M集成了高达12300个可变精度DSP模块,可以支持高达18.5TFLOPS的单精度浮点运算、37TFLOPS的半精度浮点运算、以及88.6TOPS的INT8运算。

05 

结语

作为专门针对存储性能进行优化的FPGA,Agilex-M已经把优化做到了极致。这样的优化方式和思路其实有着很强的普适意义:

它并不是由某个天才创造出来的突破性成果,而是在各种问题的驱动下,一步一步发展起来的,然后靠一个个拥有「匠人精神」工程师的专注与积累,达到最后的结果。

在大多数情况下,这种方式更加现实,也更加有效。

(关于Agilex M 系列FPGA的更多内容和技术细节,可以点击“阅读原文”查看)

-END-


往期推荐:点击图片即可跳转阅读

如何零基础入门FPGA?这篇文章让你吃透!

都说FPGA高端,它到底能干啥?详解六大应用领域!

FPGA搭建一个STM32内核?

什么是FPGA?为什么FPGA会如此重要?

为什么芯片设计也需要「匠人精神」?相关推荐

  1. 好心情精神心理平台:精神疾病怎样才算「治好」?医生和患者眼中的标准不一样!

    精神疾病恢复到什么程度才算「治好」了? 很多患者朋友认为,症状消失就代表病好了,就可以停药了. 不是我吓唬你,如果你见症状好转就停药,那病情出现反复是必然结果. 实现疾病症状的消除,这只是达到了「临床 ...

  2. 豪赌 ARM 梦碎:63 岁孙正义的「花甲历险记」

    来源 | HyperAI超神经 这几天,传出 NVIDIA 将以 400 亿 英镑的价格收购 ARM 的消息,不少媒体在争相报道收购进度的同时,也将整起交易的幕后推手 -- 孙正义,放到了聚光灯下. ...

  3. 荣获中国音视频产业大会「科技创新奖」,网易云信彰显行业领先水平

    10月20日,主题为"创新科技 无界未来"的2021(第十七届)中国音视频产业大会(AVF)在深圳拉开帷幕.作为音视频领域规模最大.最专业的行业盛会,每届中国音视频产业大会(AVF ...

  4. 艺术家与AI研究者的跨界碰撞丨记青源Workshop「AI+艺术」研讨会(2022年第10期)...

    艺术创造力是人类最无可替代的能力之一,曾几何时,艺术是AI无法涉足的疆域.但从2014年推出的GAN,到近年的DALL-E.CogView.MidJourney,再到今年横空出世的Stable Dif ...

  5. TIOBE 1月编程语言排行榜:C语言再度「C 位」出道,Python惜败

    整理 | 屠敏 来源 | CSDN(ID:CSDNnews) [导读]在 2020 年初雪来临之际,TIOBE 官方在最新发布的 1 月编程语言榜单中为我们最终揭开了「 2019 年度编程语言」的神秘 ...

  6. 让炼丹更玄学!苏大博士生用「天干地支」生成随机种子,项目已开源

      视学算法报道   编辑:好困 袁榭 [新智元导读]为了顺利炼出模型,搞AI的朋友们真的是什么路子都想过. 机器学习,俗称「炼丹」. 作为AI「黑魔法」的一种,再加点「玄学」又会如何? 最近,有位来 ...

  7. 13 岁上大学,19 岁南大读博!00 后天才少女研究「中国芯」

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 转自 | 新智元 来源 | 知乎 编辑 | Isabel 有这样一位「00后小姑娘」:小学只读 ...

  8. 太卷了!人大附中「内卷」到了美国?华裔家长抗议中国学生持F1签证抢占美国IMO名额...

      视学算法报道   来源:weibo 编辑:yaxin [新智元导读]近日,一封华裔家长的抗议公开信引发热议.他/她在信中抗议持F1签证的中国留学生入选美国IMO国家队. 国内的严重「内卷」慢慢卷到 ...

  9. 一个互联网「打工人」的卑微一天

    大家好,我是「打工人」安酱.午安!打工人! 今天是一年一度的程序员日,但是老天也给我们开了一个玩笑,2020-1024=996.冥冥之中在暗示着什么,但是好像也没啥办法.另外,不知道最近大家有没有被「 ...

  10. 三公子论「财务自由」

    视觉IMAX的第44篇文章 今天我们来讨论一个问题:如何才能实现财务自由? 经常会在知乎上看到一些关于如何实现财务自由,但是几乎没有什么回答令我满意,直至我读了三公子所著的<工作前五年,决定你一 ...

最新文章

  1. 7-3 逆序的三位数(C语言)
  2. 极简PaddlePaddle的房价预测Demo
  3. ES6 使用数据类型Set求交集、并集、差集
  4. wxWidgets:wxHTML 概述
  5. 五万块钱买什么车好_10万预算买什么车好?看空间、动力和配置
  6. 软件构造学习笔记-第二周
  7. c#查看远程文件是否存在
  8. 关于ios 里面碰到内存错误的两种设置
  9. 论文纠错和管理文献工具
  10. 创业公司一年工作总结(转载)
  11. 国际市场营销知识框架图_留学热门 | 伦敦里士满大学市场营销本科专业
  12. 2022/7/14小记
  13. 猿学~黑客、红客、白帽子之间的技术较量,为什么大公司都有黑客团队?
  14. XXX正在运行,点按即可了解详情或停止应用
  15. 78L05高耐压版本40V规格书
  16. 【CodingNoBorder - 06】无际软工队 - 会议纪要博客列表
  17. kotlin-android-extensions插件也被废弃了?扶我起来
  18. python和R语言比较
  19. php后缀名是什么意思,后缀php是什么文件(教你怎么打开php文件)
  20. Android Android应用资源 | 学习笔记

热门文章

  1. 1-001.人脸识别
  2. iOS App自定义View支持VoiceOver
  3. android模拟器 uidump,Genymotion模拟器的安装及脚本制作
  4. 道路交叉口、横断面设计分析软件
  5. Elasticsearch聚集查询之指标聚集
  6. 罗大佑精选五首(Powered by SmilewallV1.0)
  7. Dell电脑播放视频暂停后再开始声音突然变大解决方法
  8. 动态规划实例——换零钱的方法数(C++详解版)
  9. 回家了,送一台闲置曲面屏
  10. aws 成本_AWS成本分配标签和成本降低