有人经常问,深度学习的最佳GPU是什么?近日Lambda给出了答案,他们通过比较研究人员常用的前5个GPU来获得答案(测试结果也考虑到了成本和性能):

  • RTX 2080 Ti

  • RTX 2080

  • GTX 1080 Ti

  • Titan V

  • Tesla V100

·  结  ·  果  ·  总  ·  结  ·

截至2018年10月8日,NVIDIA RTX 2080 Ti是运行TensorFlow的单GPU深度学习研究的最佳GPU。其他与这款GPU相比将是:

  • FP32下比 1080 Ti 快 37%,FP16下快 62%,价格贵25%

  • FP32下比 2080 快 35%,FP16下快 47%,价格贵25%

  • FP32下比 Titan V 快 96%,FP16下快3%,成本约为二分之一

  • FP32下比 V100 快 80%,FP16下快82%,成本约为五分之一

·  结  ·  果  ·  深  ·  入  ·

通过测量FP32和FP16吞吐量来评估每个GPU的性能,同时训练常见模型。我们将每个型号的GPU吞吐量除以1080 Ti的吞吐量,这降标准化数据并提供了每个GPU与1080 Ti的加速比,是衡量处理同一工作的两个系统的相对性指标。

各个型号上GPU的吞吐量

FP32所有模型的平均速度与1080 Ti的对比

FP16所有模型的平均速度与1080 Ti的对比

最后,我们将每个GPU的值除以系统成本来计算最佳GPU:

2080 Ti vs V100 2080 Ti真的那么快吗?

2080 Ti的速度比V100快80%,但是价格比V100便宜了非常多,这是为什么?答案很简单:NVIDIA希望细分市场,以便那些支付意愿比较高的人只购买他们的TESLA系列卡。RTX和GTX系列仍然提供较好的性价比。

如果您不是在使用AWS,Azure或者Google Cloud,那么贵买2080 Ti可能要好得多。但是,有一些关键的用例,V100可以派上用场:

  1. 如果你需要FP64计算,如果你正在进行计算流体动力学,N体模拟或者其他需要高数值京都(FP64)的工作,那么您需要购买Titan V100。如果您不确定是否需要FP64,则不需要。

  2. 如果你绝对需要32GB的内存,V100可能有意义。然而,这是很少见的,只有5%的用户有这样的需求。大多数人使用像ResNet、VGG、Inception、SSD或Yolo之类的。

所以,你还在想,为什么有人会购买V100?它归结为营销。

原始性能数据

FP32 吞吐量

Model / GPU 2080 2080 Ti Titan V V100 1080 Ti
ResNet-50 209.89 286.05 298.28 368.63 203.99
ResNet-152 82.78 110.24 110.13 131.69 82.83
InceptionV3 141.9 189.31 204.35 242.7 130.2
InceptionV4 61.6 81 78.64 90.6 56.98
VGG16 123.01 169.28 190.38 233 133.16
AlexNet 2567.38 3550.11 3729.64 4707.67 2720.59
SSD300 111.04 148.51 153.55 186.8 107.71

FP16 吞吐量

Model/GPU 2080 2080 Ti Titan V V100 1080 Ti
VGG16 181.2 238.45 270.27 333.33 149.39
ResNet-152 62.67 103.29 84.92 108.54 62.74

FP32 (Sako)

Model/GPU 2080 2080 Ti Titan V V100 1080 Ti
VGG16 120.39 163.26 168.59 222.22 130.8
ResNet-152 43.43 75.18 61.82 80.08 53.45

FP16 和1080 Ti加速比

Model/GPU 2080 2080 Ti Titan V V100 1080 Ti
VGG16 1.21 1.60 1.81 2.23 1.00
ResNet-152 1.00 1.65 1.35 1.73 1.00

FP32 训练加速

Model/GPU 2080 2080 Ti Titan V V100 1080 Ti
VGG16 0.92 1.25 1.29 1.70 1.00
ResNet-152 0.81 1.41 1.16 1.50 1.00

实验方法

  • 所有的模型都在合成数据集上训练,这将GPU性能和CPU预处理性能隔离开来。

  • 对于每个GPU,对每个模型进行10次训练。测试每秒处理的图像数量,然后在10次实验中取平均值。

  • 通过对图像/秒得分并将其除以特定模型的最小图像/秒得分来计算加速基准。这基本显示了相对基准的百分比改善。(在此使用了1080 Ti)

GTX 2080TI TensorFlow GPU基准测试:2018年最佳GPU相关推荐

  1. eGPU 能否一战?- Tensorflow GPU 基准测试

    文章目录 前言 硬件环境 Tensorflow 版本 基准测试脚本 基准数据来源 测试方法 测试结果 结论 前言 开始学习 Tensorflow,但是又不想投资一台专用的 GPU 工作站.我现在使用的 ...

  2. 跳坑有心得,Happy research! Win10 + GTX 2080Ti + tensorflow-gpu-1.14.0 安装; timestamp=2019-10-3

    如果从GTX1080Ti平台正要升级到GTX2080Ti,看过来,你会少走很多弯路. 背景 从2018年末到现在,大半年时间里,我曾在win10平台上成功配置成功过Caffe, Pytorch, Te ...

  3. 用于视频编辑和渲染的最佳GPU是什么?

    购买新的图形卡(GPU)可能很困难,尤其是如果涉及您所不熟悉的所有技术问题. 显卡市场上的大多数消费者只需要了解显卡在自己喜欢的游戏中的性能,并确定购买决定即可.但是,如果您想购买GPU进行视频编辑或 ...

  4. 深度学习主机环境配置: Ubuntu16.04+GeForce GTX 1080+TensorFlow

    http://f.dataguru.cn/thread-660774-1-1.html 发表于 2016-7-20 09:04 | 只看该作者 |倒序浏览 |阅读模式 深度学习主机环境配置: Ubun ...

  5. 学习笔记TF061:分布式TensorFlow,分布式原理、最佳实践

    分布式TensorFlow由高性能gRPC库底层技术支持.Martin Abadi.Ashish Agarwal.Paul Barham论文<TensorFlow:Large-Scale Mac ...

  6. 深度学习笔记:windows+tensorflow 指定GPU占用内存(解决gpu爆炸问题)

    目录 文章目录 目录 前言 一.指定显卡 二.限制GPU用量 1.设置使用GPU的百分比 进行配置,使用30%的GPU 设置session 2.GPU按需使用 三.指定GPU并且限制GPU用量 指定第 ...

  7. 2018年最佳Linux服务器发行版

    翻译&转载来源:https://www.techradar.com/news/best-linux-server-distro 2018年最佳Linux服务器发行版 作为一个免费的开源操作系统 ...

  8. android三星note20.6,再次力压华为Mate20 Pro, 三星Note9评选为2018年最佳安

    原标题:再次力压华为Mate20 Pro, 三星Note9评选为2018年最佳安 前不久知名科技外媒Android Authority对于今年主流的30余款手机做了全面的评测,最终三星Note9以其全 ...

  9. GPU基准测试显示:苹果A15芯片比A14芯片快13.7%

    9月7日消息,据国外媒体报道,最新的GPU基准测试显示,iPhone13搭载的苹果A15芯片比iPhone 12搭载的A14芯片快13.7%,保持了苹果在移动性能方面的领先地位. 据外媒报道,苹果公司 ...

最新文章

  1. Wireshark数据抓包教程之Wireshark的基础知识
  2. FaceL:一个靠谱的开源人脸标注训练识别程序
  3. 解决sdk manager无法更新的问题
  4. 使用C语言中的宏来定位出错信息
  5. 个人作业收官——软件工程实践总结
  6. 论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset
  7. 可变参数(不定项参数)
  8. String length must be a multiple of four.
  9. c语言 炸弹文件,炸弹超人游戏c语言简板
  10. 软件工程复习提纲——第十章
  11. Codeforces 1065E(计数)
  12. 云计算网络基础第一天
  13. 如何在Windows上的Git Bash中退出'git diff'的结果? [重复]
  14. css hack 尽我所见
  15. MLFlow︱机器学习工作流框架:介绍(一)
  16. ubuntu+网易云安装
  17. 紫书刷题记录 UVa12100 打印队列
  18. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落
  19. 关于spark错误 [Could not locate executable null\bin\winutils.exe in the Hadoop binaries】解决方法
  20. [AV1] 谈谈AV1中的 S-Frame

热门文章

  1. 高考计算机如何检索投档,2018高考准备 必知平行志愿填报投档录取规则
  2. linux java 读取路径,java读取linux路径写法
  3. 方舟服务器维护公告11月19日,明日方舟11月19日更新总结 强制更新补偿5源石
  4. Nutch1.7二次开发培训讲义
  5. android 中的设计模式
  6. 7彩苹果 天天好心情
  7. 分流器的作用及应用范围
  8. 黑苹果hd630显存7m_黑苹果显存只有5mb_动漫台
  9. 坦白局!一个大厂Java工程师近20年的进阶心得
  10. office word2007怎样去掉回车符