在本文中,讨论了RTX 2080 Ti与其他GPU相比的深度学习性能。我们使用RTX 2080 Ti来训练ResNet-50,ResNet-152,Inception v3,Inception v4,VGG-16,AlexNet和SSD300。我们在训练每个网络时测量每秒处理的图像数。

注意事项:

  • 我们使用TensorFlow 1.12 / CUDA 10.0.130 / cuDNN 7.4.1
  • Tensor Core已被所有具有GPU的GPU所利用

RTX 2080 Ti-FP32 TensorFlow性能(1 GPU)

对于神经网络的FP32训练,RTX 2080 Ti是...

  • 比RTX 2080快37%
  • 比GTX 1080 Ti快35%
  • 比Titan XP快22%
  • 速度是Titan V的96%
  • 相当于Titan RTX的87%
  • 与Tesla V100(32 GB)一样快73%

由训练期间每秒处理的#张图像来衡量。

RTX 2080 Ti-FP16 TensorFlow性能(1 GPU)

RTX 2080 Ti用于神经网络的FP16训练。

  • 比GTX 1080 Ti快72%
  • 比Titan XP快59%
  • 比RTX 2080快32%
  • 速度是Titan V的81%
  • 速度是Titan RTX的71%
  • 速度是Tesla V100(32 GB)的55%

由训练期间每秒处理的#张图像来衡量。

FP32多GPU扩展性能(1、2、4、8个GPU)

对于每种GPU类型(RTX 2080 Ti,RTX 2080等),我们在训练每个神经网络上的1、2、4和8个GPU时的性能,然后取平均结果。下图提供了有关在FP32中对神经网络进行多GPU训练期间每个GPU如何缩放的指南。RTX 2080 Ti的缩放比例如下:

  • 2个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快1.8倍
  • 4个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约3.3倍
  • 8个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约5.1倍

RTX 2080 Ti-FP16和FP32

使用FP16可以减少训练时间并支持更大的批次大小/模型,而不会显着影响训练模型的准确性。与FP32相比,RTX 2080 Ti上的FP16训练是...

  • 在ResNet-50上快59%
  • 在ResNet-152上快52%
  • Inception v3快47%
  • Inception v4快34%
  • 在VGG-16上快50%
  • 在AlexNet上快38%
  • SSD300快31%

通过训练期间每秒处理的图像数来衡量。这样可以平均提高+ 44.6%。

警告:如果您是机器学习的新手,或者只是测试代码,我们建议使用FP32。将精度降低到FP16可能会干扰收敛。

GPU价格

  • RTX 2080 Ti:1,199.00美元
  • RTX 2080:799.00美元
  • 泰坦RTX:2,499.00美元
  • 泰坦五世:$ 2,999.00
  • Tesla V100(32 GB):〜$ 8,200.00
  • GTX 1080 Ti:699.00美元
  • Titan Xp:1,200.00美元

方法

  • 对于每个模型,我们进行了10次训练实验,并测量了每秒处理的图像数量;然后,我们将10个实验的结果取平均值。
  • 对于每个GPU /神经网络组合,我们使用了适合内存的最大批处理大小。例如,在ResNet-50上,V100的批处理大小为192;RTX 2080 Ti使用的批处理大小为64。
  • 我们使用合成数据而非真实数据来最大程度地减少与GPU不相关的瓶颈
  • 使用模型级并行性进行了多GPU训练

硬件

  • 单GPU培训:Lambda四重深度学习工作站。CPU:i9-7920X / RAM:64 GB DDR4 2400 MHz
  • 多GPU培训:Lambda Blade-深度学习服务器。CPU:至强E5-2650 v4 / RAM:128 GB DDR4 2400 MHz ECC
  • V100基准:Lambda Hyperplane-V100服务器。CPU:至强金牌6148 / RAM:256 GB DDR4 2400 MHz ECC

软件

  • Ubuntu 18.04(仿生)
  • TensorFlow 1.12
  • CUDA 10.0.130
  • cuDNN 7.4.1

在您自己的机器上运行基准测试

我们的基准测试代码在github上。

步骤1:克隆基准存储库

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

步骤2:运行基准测试

  • 输入适当的gpu_index(默认值为0)和num_iterations(默认值为10)
cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

步骤3:报告结果

  • 检查repo目录中的文件夹<cpu>-<gpu> .logs(由Benchmark.sh生成)
  • 在基准测试和报告中使用相同的num_iterations。
./report.sh <cpu>-<gpu>.logs num_iterations

原始基准数据

FP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)

Model / GPU

RTX 2080 Ti

RTX 2080

Titan RTX

Titan V

V100

Titan Xp

1080 Ti

ResNet-50

294

213

330

300

405

236

209

ResNet-152

110

83

129

107

155

90

81

Inception v3

194

142

221

208

259

151

136

Inception v4

79

56

96

77

112

63

58

VGG16

170

122

195

195

240

154

134

AlexNet

3627

2650

4046

3796

4782

3004

2762

SSD300

149

111

169

156

200

123

108

FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)

Model / GPU

RTX 2080 Ti

RTX 2080

Titan RTX

Titan V

V100

Titan Xp

1080 Ti

ResNet-50

466

329

612

539

811

289

263

ResNet-152

167

124

234

181

305

104

96

Inception v3

286

203

381

353

494

169

156

Inception v4

106

74

154

116

193

67

62

VGG16

255

178

383

383

511

166

149

AlexNet

4988

3458

6627

6746

8922

3104

2891

SSD300

195

153

292

245

350

136

123

给大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好。具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,

参考文献:

https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/

基于TensorFlow使用RTX 2080 Ti深度学习基准(2020年)相关推荐

  1. Tensorflow与keras学习 (9)——TensorFlow的RTX 2080 Ti深度学习训练基准

    TensorFlow的RTX 2080 Ti深度学习基准-2020年 在本文中,Lambda讨论了RTX 2080 Ti与其他GPU相比的深度学习性能.我们使用RTX 2080 Ti来训练ResNet ...

  2. 基于TensorFlow 2.0的中文深度学习开源书来了!GitHub趋势日榜第一,斩获2K+星

    十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...

  3. 显卡显存测试u盘 mats_影驰RTX 2080 Ti HOF Plus显卡评测:披坚执锐的性能王冠守护者...

    自影驰推出名人堂系列距今已有9年了.将系列名称定为"名人堂",能冠以"Hall of Fame"的产品自然非等闲之辈. 在DIY市场中,性能永远是玩家热议的话题 ...

  4. 英伟达RTX 2080 Ti值得买么?深度学习测试来了!

    Lambda Lab 出品  伊瓢 编译  量子位 报道 | 公众号 QbitAI 英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样? 美国人工智能公司Lambda用TensorFlow测试了 ...

  5. ubuntu18.04系统外接显卡(英伟达RTX 2080 Ti)驱动安装

    1.ubuntu18.04系统安装基于win10 网上教程很多,略... :) 2.硬件设备 带雷电3接口的笔记本,我这里是联想的YOGA S740(自带一块MX250独显 ),别的本本也行,一定得雷 ...

  6. 检验 pytorch,tensorflow,paddle,mxnet 深度学习框架是否正确支持GPU功能

    检验 pytorch,tensorflow,paddle,mxnet 深度学习框架是否正确支持GPU功能 1.pytorch 框架 import torch a = torch.cuda.is_ava ...

  7. YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS, RTX 2080 Ti:170 FPS)

    带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...

  8. YolactEdge: Real-time Instance Segmentation on the Edge (Jetson AGX Xavier: 30 FPS, RTX 2080 Ti: 170

    带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...

  9. 基于.NET下的人工智能|利用ICSharpCore搭建基于.NET Core的机器学习和深度学习的本地开发环境...

    每个人都习惯使用Python去完成机器学习和深度学习的工作,但是对于习惯于某种特定语言的人来说,转型不是那么容易的事.这两年我花了不少时间在Python,毕竟工作的重心也从移动开发转为机器学习和深度学 ...

最新文章

  1. UICollectionView之网络图片解析
  2. java与fabric区块链--fabric-java-jdk部署搭建--(1)
  3. JS版数据结构第三篇(链表)
  4. 强大的SqlCacheDependency
  5. ACDream - Dynamic Inversions II
  6. Vue 使用 screenfull 实现全屏
  7. 使用Xamarin.Forms的企业应用程序模式(电子书)--依赖注入
  8. matlab tf-idf,java 兑现tfidf
  9. (58)FPGA乘法器实现(task)
  10. python read函数报错_python 使用read_csv读取 CSV 文件时报错
  11. Android5.1--电源管理之省电模式分析
  12. 【C语言】c语言基础知识梳理(超全)
  13. 典型平面阵列分布的3D方向图
  14. 【数据结构】给定中序序列,有多少种前序序列
  15. LSF集群作业管理系统
  16. VMware中安装Ubuntu出现多个vmdk文件原因
  17. lua对接bmob数据库
  18. 如何快速通过pmp考试求攻略
  19. crmeb电商系统源码
  20. datatables .fnDraw is not a function

热门文章

  1. Utterance-level Aggregation For Speaker Recognition In The Wild笔记
  2. Scala中协变(+)、逆变(-)、上界(:)、下界(:)简单介绍
  3. PS 平转立的教程 红绿的挫
  4. 弹性布局flex属性详解
  5. w7计算机u盘在哪里打开,电脑win7如何使用U盘进行重装系统
  6. 一周极客热文:从分析8000条软件工程师招聘信息所学到的
  7. AttributeError: module ‘tensorflow._api.v2.train‘ has no attribute ‘NewCheckpointReader‘解决方案
  8. 给路由器配置Telnet远程登录
  9. 医疗行业的数字化转型之路:数据分析与预测是关键
  10. Oracle登录的几种方法