基于TensorFlow使用RTX 2080 Ti深度学习基准(2020年)
在本文中,讨论了RTX 2080 Ti与其他GPU相比的深度学习性能。我们使用RTX 2080 Ti来训练ResNet-50,ResNet-152,Inception v3,Inception v4,VGG-16,AlexNet和SSD300。我们在训练每个网络时测量每秒处理的图像数。
注意事项:
- 我们使用TensorFlow 1.12 / CUDA 10.0.130 / cuDNN 7.4.1
- Tensor Core已被所有具有GPU的GPU所利用
RTX 2080 Ti-FP32 TensorFlow性能(1 GPU)
对于神经网络的FP32训练,RTX 2080 Ti是...
- 比RTX 2080快37%
- 比GTX 1080 Ti快35%
- 比Titan XP快22%
- 速度是Titan V的96%
- 相当于Titan RTX的87%
- 与Tesla V100(32 GB)一样快73%
由训练期间每秒处理的#张图像来衡量。
RTX 2080 Ti-FP16 TensorFlow性能(1 GPU)
RTX 2080 Ti用于神经网络的FP16训练。
- 比GTX 1080 Ti快72%
- 比Titan XP快59%
- 比RTX 2080快32%
- 速度是Titan V的81%
- 速度是Titan RTX的71%
- 速度是Tesla V100(32 GB)的55%
由训练期间每秒处理的#张图像来衡量。
FP32多GPU扩展性能(1、2、4、8个GPU)
对于每种GPU类型(RTX 2080 Ti,RTX 2080等),我们在训练每个神经网络上的1、2、4和8个GPU时的性能,然后取平均结果。下图提供了有关在FP32中对神经网络进行多GPU训练期间每个GPU如何缩放的指南。RTX 2080 Ti的缩放比例如下:
- 2个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快1.8倍
- 4个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约3.3倍
- 8个RTX 2080 Ti GPU的训练速度将比1个RTX 2080 Ti快约5.1倍
RTX 2080 Ti-FP16和FP32
使用FP16可以减少训练时间并支持更大的批次大小/模型,而不会显着影响训练模型的准确性。与FP32相比,RTX 2080 Ti上的FP16训练是...
- 在ResNet-50上快59%
- 在ResNet-152上快52%
- Inception v3快47%
- Inception v4快34%
- 在VGG-16上快50%
- 在AlexNet上快38%
- SSD300快31%
通过训练期间每秒处理的图像数来衡量。这样可以平均提高+ 44.6%。
警告:如果您是机器学习的新手,或者只是测试代码,我们建议使用FP32。将精度降低到FP16可能会干扰收敛。
GPU价格
- RTX 2080 Ti:1,199.00美元
- RTX 2080:799.00美元
- 泰坦RTX:2,499.00美元
- 泰坦五世:$ 2,999.00
- Tesla V100(32 GB):〜$ 8,200.00
- GTX 1080 Ti:699.00美元
- Titan Xp:1,200.00美元
方法
- 对于每个模型,我们进行了10次训练实验,并测量了每秒处理的图像数量;然后,我们将10个实验的结果取平均值。
- 对于每个GPU /神经网络组合,我们使用了适合内存的最大批处理大小。例如,在ResNet-50上,V100的批处理大小为192;RTX 2080 Ti使用的批处理大小为64。
- 我们使用合成数据而非真实数据来最大程度地减少与GPU不相关的瓶颈
- 使用模型级并行性进行了多GPU训练
硬件
- 单GPU培训:Lambda四重深度学习工作站。CPU:i9-7920X / RAM:64 GB DDR4 2400 MHz
- 多GPU培训:Lambda Blade-深度学习服务器。CPU:至强E5-2650 v4 / RAM:128 GB DDR4 2400 MHz ECC
- V100基准:Lambda Hyperplane-V100服务器。CPU:至强金牌6148 / RAM:256 GB DDR4 2400 MHz ECC
软件
- Ubuntu 18.04(仿生)
- TensorFlow 1.12
- CUDA 10.0.130
- cuDNN 7.4.1
在您自己的机器上运行基准测试
我们的基准测试代码在github上。
步骤1:克隆基准存储库
git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive
步骤2:运行基准测试
- 输入适当的gpu_index(默认值为0)和num_iterations(默认值为10)
cd lambda-tensorflow-benchmark ./benchmark.sh gpu_index num_iterations
步骤3:报告结果
- 检查repo目录中的文件夹<cpu>-<gpu> .logs(由Benchmark.sh生成)
- 在基准测试和报告中使用相同的num_iterations。
./report.sh <cpu>-<gpu>.logs num_iterations
原始基准数据
FP32: # Images Processed Per Sec During TensorFlow Training (1 GPU)
Model / GPU |
RTX 2080 Ti |
RTX 2080 |
Titan RTX |
Titan V |
V100 |
Titan Xp |
1080 Ti |
ResNet-50 |
294 |
213 |
330 |
300 |
405 |
236 |
209 |
ResNet-152 |
110 |
83 |
129 |
107 |
155 |
90 |
81 |
Inception v3 |
194 |
142 |
221 |
208 |
259 |
151 |
136 |
Inception v4 |
79 |
56 |
96 |
77 |
112 |
63 |
58 |
VGG16 |
170 |
122 |
195 |
195 |
240 |
154 |
134 |
AlexNet |
3627 |
2650 |
4046 |
3796 |
4782 |
3004 |
2762 |
SSD300 |
149 |
111 |
169 |
156 |
200 |
123 |
108 |
FP16: # Images Processed Per Sec During TensorFlow Training (1 GPU)
Model / GPU |
RTX 2080 Ti |
RTX 2080 |
Titan RTX |
Titan V |
V100 |
Titan Xp |
1080 Ti |
ResNet-50 |
466 |
329 |
612 |
539 |
811 |
289 |
263 |
ResNet-152 |
167 |
124 |
234 |
181 |
305 |
104 |
96 |
Inception v3 |
286 |
203 |
381 |
353 |
494 |
169 |
156 |
Inception v4 |
106 |
74 |
154 |
116 |
193 |
67 |
62 |
VGG16 |
255 |
178 |
383 |
383 |
511 |
166 |
149 |
AlexNet |
4988 |
3458 |
6627 |
6746 |
8922 |
3104 |
2891 |
SSD300 |
195 |
153 |
292 |
245 |
350 |
136 |
123 |
给大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好。具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,
参考文献:
https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/
基于TensorFlow使用RTX 2080 Ti深度学习基准(2020年)相关推荐
- Tensorflow与keras学习 (9)——TensorFlow的RTX 2080 Ti深度学习训练基准
TensorFlow的RTX 2080 Ti深度学习基准-2020年 在本文中,Lambda讨论了RTX 2080 Ti与其他GPU相比的深度学习性能.我们使用RTX 2080 Ti来训练ResNet ...
- 基于TensorFlow 2.0的中文深度学习开源书来了!GitHub趋势日榜第一,斩获2K+星
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...
- 显卡显存测试u盘 mats_影驰RTX 2080 Ti HOF Plus显卡评测:披坚执锐的性能王冠守护者...
自影驰推出名人堂系列距今已有9年了.将系列名称定为"名人堂",能冠以"Hall of Fame"的产品自然非等闲之辈. 在DIY市场中,性能永远是玩家热议的话题 ...
- 英伟达RTX 2080 Ti值得买么?深度学习测试来了!
Lambda Lab 出品 伊瓢 编译 量子位 报道 | 公众号 QbitAI 英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样? 美国人工智能公司Lambda用TensorFlow测试了 ...
- ubuntu18.04系统外接显卡(英伟达RTX 2080 Ti)驱动安装
1.ubuntu18.04系统安装基于win10 网上教程很多,略... :) 2.硬件设备 带雷电3接口的笔记本,我这里是联想的YOGA S740(自带一块MX250独显 ),别的本本也行,一定得雷 ...
- 检验 pytorch,tensorflow,paddle,mxnet 深度学习框架是否正确支持GPU功能
检验 pytorch,tensorflow,paddle,mxnet 深度学习框架是否正确支持GPU功能 1.pytorch 框架 import torch a = torch.cuda.is_ava ...
- YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS, RTX 2080 Ti:170 FPS)
带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...
- YolactEdge: Real-time Instance Segmentation on the Edge (Jetson AGX Xavier: 30 FPS, RTX 2080 Ti: 170
带有ResNet-101的YolactEdge在Jetson AGX Xavier上的速度高达30.8 FPS,在RTX 2080 Ti上的速度为172.7 FPS,AP性能超强!速度是目前主流方法的 ...
- 基于.NET下的人工智能|利用ICSharpCore搭建基于.NET Core的机器学习和深度学习的本地开发环境...
每个人都习惯使用Python去完成机器学习和深度学习的工作,但是对于习惯于某种特定语言的人来说,转型不是那么容易的事.这两年我花了不少时间在Python,毕竟工作的重心也从移动开发转为机器学习和深度学 ...
最新文章
- UICollectionView之网络图片解析
- java与fabric区块链--fabric-java-jdk部署搭建--(1)
- JS版数据结构第三篇(链表)
- 强大的SqlCacheDependency
- ACDream - Dynamic Inversions II
- Vue 使用 screenfull 实现全屏
- 使用Xamarin.Forms的企业应用程序模式(电子书)--依赖注入
- matlab tf-idf,java 兑现tfidf
- (58)FPGA乘法器实现(task)
- python read函数报错_python 使用read_csv读取 CSV 文件时报错
- Android5.1--电源管理之省电模式分析
- 【C语言】c语言基础知识梳理(超全)
- 典型平面阵列分布的3D方向图
- 【数据结构】给定中序序列,有多少种前序序列
- LSF集群作业管理系统
- VMware中安装Ubuntu出现多个vmdk文件原因
- lua对接bmob数据库
- 如何快速通过pmp考试求攻略
- crmeb电商系统源码
- datatables .fnDraw is not a function
热门文章
- Utterance-level Aggregation For Speaker Recognition In The Wild笔记
- Scala中协变(+)、逆变(-)、上界(:)、下界(:)简单介绍
- PS 平转立的教程 红绿的挫
- 弹性布局flex属性详解
- w7计算机u盘在哪里打开,电脑win7如何使用U盘进行重装系统
- 一周极客热文:从分析8000条软件工程师招聘信息所学到的
- AttributeError: module ‘tensorflow._api.v2.train‘ has no attribute ‘NewCheckpointReader‘解决方案
- 给路由器配置Telnet远程登录
- 医疗行业的数字化转型之路:数据分析与预测是关键
- Oracle登录的几种方法