基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

在本文中，讨论了RTX 2080 Ti与其他GPU相比的深度学习性能。我们使用RTX 2080 Ti来训练ResNet-50，ResNet-152，Inception v3，Inception v4，VGG-16，AlexNet和SSD300。我们在训练每个网络时测量每秒处理的图像数。

注意事项：

我们使用TensorFlow 1.12 / CUDA 10.0.130 / cuDNN 7.4.1
Tensor Core已被所有具有GPU的GPU所利用

RTX 2080 Ti-FP32 TensorFlow性能（1 GPU）

对于神经网络的FP32训练，RTX 2080 Ti是...

比RTX 2080快37％
比GTX 1080 Ti快35％
比Titan XP快22％
速度是Titan V的96％
相当于Titan RTX的87％
与Tesla V100（32 GB）一样快73％

由训练期间每秒处理的＃张图像来衡量。

RTX 2080 Ti-FP16 TensorFlow性能（1 GPU）

RTX 2080 Ti用于神经网络的FP16训练。

比GTX 1080 Ti快72％
比Titan XP快59％
比RTX 2080快32％
速度是Titan V的81％
速度是Titan RTX的71％
速度是Tesla V100（32 GB）的55％

由训练期间每秒处理的＃张图像来衡量。

FP32多GPU扩展性能（1、2、4、8个GPU）

对于每种GPU类型（RTX 2080 Ti，RTX 2080等），我们在训练每个神经网络上的1、2、4和8个GPU时的性能，然后取平均结果。下图提供了有关在FP32中对神经网络进行多GPU训练期间每个GPU如何缩放的指南。RTX 2080 Ti的缩放比例如下：

2个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快1.8倍
4个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约3.3倍
8个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约5.1倍

RTX 2080 Ti-FP16和FP32

使用FP16可以减少训练时间并支持更大的批次大小/模型，而不会显着影响训练模型的准确性。与FP32相比，RTX 2080 Ti上的FP16训练是...

在ResNet-50上快59％
在ResNet-152上快52％
Inception v3快47％
Inception v4快34％
在VGG-16上快50％
在AlexNet上快38％
SSD300快31％

通过训练期间每秒处理的图像数来衡量。这样可以平均提高+ 44.6％。

警告：如果您是机器学习的新手，或者只是测试代码，我们建议使用FP32。将精度降低到FP16可能会干扰收敛。

GPU价格

RTX 2080 Ti：1,199.00美元
RTX 2080：799.00美元
泰坦RTX：2,499.00美元
泰坦五世：$ 2,999.00
Tesla V100（32 GB）：〜$ 8,200.00
GTX 1080 Ti：699.00美元
Titan Xp：1,200.00美元

方法

对于每个模型，我们进行了10次训练实验，并测量了每秒处理的图像数量；然后，我们将10个实验的结果取平均值。
对于每个GPU /神经网络组合，我们使用了适合内存的最大批处理大小。例如，在ResNet-50上，V100的批处理大小为192；RTX 2080 Ti使用的批处理大小为64。
我们使用合成数据而非真实数据来最大程度地减少与GPU不相关的瓶颈
使用模型级并行性进行了多GPU训练

硬件

单GPU培训：Lambda四重深度学习工作站。CPU：i9-7920X / RAM：64 GB DDR4 2400 MHz
多GPU培训：Lambda Blade-深度学习服务器。CPU：至强E5-2650 v4 / RAM：128 GB DDR4 2400 MHz ECC
V100基准：Lambda Hyperplane-V100服务器。CPU：至强金牌6148 / RAM：256 GB DDR4 2400 MHz ECC

软件

Ubuntu 18.04（仿生）
TensorFlow 1.12
CUDA 10.0.130
cuDNN 7.4.1

在您自己的机器上运行基准测试

我们的基准测试代码在github上。

步骤1：克隆基准存储库

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

步骤2：运行基准测试

输入适当的gpu_index（默认值为0）和num_iterations（默认值为10）

cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

步骤3：报告结果

检查repo目录中的文件夹<cpu>-<gpu> .logs（由Benchmark.sh生成）
在基准测试和报告中使用相同的num_iterations。

./report.sh <cpu>-<gpu>.logs num_iterations

原始基准数据

FP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)

Model / GPU	RTX 2080 Ti	RTX 2080	Titan RTX	Titan V	V100	Titan Xp	1080 Ti
ResNet-50	294	213	330	300	405	236	209
ResNet-152	110	83	129	107	155	90	81
Inception v3	194	142	221	208	259	151	136
Inception v4	79	56	96	77	112	63	58
VGG16	170	122	195	195	240	154	134
AlexNet	3627	2650	4046	3796	4782	3004	2762
SSD300	149	111	169	156	200	123	108

FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)

Model / GPU	RTX 2080 Ti	RTX 2080	Titan RTX	Titan V	V100	Titan Xp	1080 Ti
ResNet-50	466	329	612	539	811	289	263
ResNet-152	167	124	234	181	305	104	96
Inception v3	286	203	381	353	494	169	156
Inception v4	106	74	154	116	193	67	62
VGG16	255	178	383	383	511	166	149
AlexNet	4988	3458	6627	6746	8922	3104	2891
SSD300	195	153	292	245	350	136	123

给大家介绍一下租用GPU做实验的方法，我们是在智星云租用的GPU，使用体验很好。具体大家可以参考：智星云官网： http://www.ai-galaxy.cn/，淘宝店：https://shop36573300.taobao.com/公众号: 智星AI，

参考文献：

https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）相关推荐

Tensorflow与keras学习 (9)——TensorFlow的RTX 2080 Ti深度学习训练基准
TensorFlow的RTX 2080 Ti深度学习基准-2020年在本文中,Lambda讨论了RTX 2080 Ti与其他GPU相比的深度学习性能.我们使用RTX 2080 Ti来训练ResNet ...
基于TensorFlow 2.0的中文深度学习开源书来了！GitHub趋势日榜第一，斩获2K+星
十三发自凹非寺量子位报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...
显卡显存测试u盘 mats_影驰RTX 2080 Ti HOF Plus显卡评测：披坚执锐的性能王冠守护者...
自影驰推出名人堂系列距今已有9年了.将系列名称定为"名人堂",能冠以"Hall of Fame"的产品自然非等闲之辈. 在DIY市场中,性能永远是玩家热议的话题 ...
英伟达RTX 2080 Ti值得买么？深度学习测试来了！
Lambda Lab 出品伊瓢编译量子位报道 | 公众号 QbitAI 英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样? 美国人工智能公司Lambda用TensorFlow测试了 ...
ubuntu18.04系统外接显卡（英伟达RTX 2080 Ti）驱动安装
1.ubuntu18.04系统安装基于win10 网上教程很多,略... :) 2.硬件设备带雷电3接口的笔记本,我这里是联想的YOGA S740(自带一块MX250独显 ),别的本本也行,一定得雷 ...
检验 pytorch,tensorflow，paddle，mxnet 深度学习框架是否正确支持GPU功能
检验 pytorch,tensorflow,paddle,mxnet 深度学习框架是否正确支持GPU功能 1.pytorch 框架 import torch a = torch.cuda.is_ava ...
YolactEdge：边缘设备上的实时实例分割（Xavier: 30 FPS, RTX 2080 Ti：170 FPS）
带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...
YolactEdge: Real-time Instance Segmentation on the Edge (Jetson AGX Xavier: 30 FPS, RTX 2080 Ti: 170
带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...
基于.NET下的人工智能|利用ICSharpCore搭建基于.NET Core的机器学习和深度学习的本地开发环境...
每个人都习惯使用Python去完成机器学习和深度学习的工作,但是对于习惯于某种特定语言的人来说,转型不是那么容易的事.这两年我花了不少时间在Python,毕竟工作的重心也从移动开发转为机器学习和深度学 ...

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）

基于TensorFlow使用RTX 2080 Ti深度学习基准（2020年）相关推荐

最新文章

热门文章