node

物理节点,就是一台机器,节点内部可以有多个GPU(一台机器有多卡)。

rank & local_rank

用于表示进程的序号,用于进程间通信。每一个进程对应了一个rank。

rank=0的进程就是master进程。

local_rank: rank是指在整个分布式任务中进程的序号;local_rank是指在一台机器上(一个node上)进程的相对序号,例如机器一上有0,1,2,3,4,5,6,7,机器二上也有0,1,2,3,4,5,6,7。local_rank在node之间相互独立。

单机多卡时,rank就等于local_rank

nnodes

物理节点数量

node_rank

物理节点的序号

nproc_per_node

每个物理节点上面进程的数量。

group

进程组。默认只有一个组

world size 全局的并行数

全局(一个分布式任务)中,rank的数量。

每个node包含16个GPU,且nproc_per_node=8,nnodes=3,机器的node_rank=5,请问world_size是多少? 答案:world_size = 3*8 = 24

PyTorch多卡/多GPU/分布式DPP的基本概念(noderanklocal_ranknnodesnode_ranknproc_per_nodeworld_size)相关推荐

  1. Pytorch:多块GPU分布式|并行训练

    分布式与并行训练的区别 分布式: 多台服务器上的多个GPU,分布式涉及了服务器之间的通信,因此比较复杂,PyTorch封装了相应的接口,可以用几句简单的代码实现分布式训练. 并行: 一台服务器上的多个 ...

  2. PyTorch多卡分布式训练:DistributedDataParallel (DDP) 简要分析

    ©作者 | 伟大是熬出来的 单位 | 同济大学 研究方向 | 机器阅读理解 前言 因为课题组发的卡还没有下来,先向导师问了实验室的两张卡借用.之前都是单卡训练模型,正好在这个机会实践以下单机多卡训练模 ...

  3. Pytorch 分布式DPP 基本概念

    Reference PyTorch分布式DPP涉及的基本概念与问题(强烈推荐) GO 防喷指南,小小学生,啥也不会,欢迎指出错误. 1. 分布式参数解释 rank:用于表示在整个分布式任务中进程的序号 ...

  4. pytorch 指定卡1_如何为TensorFlow和PyTorch自动选择空闲GPU,解决抢卡争端

    原标题:如何为TensorFlow和PyTorch自动选择空闲GPU,解决抢卡争端 雷锋网按:本文作者天清,原文载于其知乎专栏世界那么大我想写代码,雷锋网获其授权发布. 项目地址:QuantumLiu ...

  5. 第25章 Pytorch 如何高效使用GPU

    第25章 Pytorch 如何高效使用GPU 深度学习涉及很多向量或多矩阵运算,如矩阵相乘.矩阵相加.矩阵-向量乘法等.深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的 ...

  6. pytorch 指定卡1_[原创][深度][PyTorch] DDP系列第一篇:入门教程

    引言 DistributedDataParallel(DDP)是一个支持多机多卡.分布式训练的深度学习工程方法.PyTorch现已原生支持DDP,可以直接通过torch.distributed使用,超 ...

  7. 在线GPU分布式实验环境+企业级项目,轻松斩获offer

    前 言 开课吧AI学院在前四期具有求职意向的同学中,已经有80%的同学拿到了国内外名企的AI算法岗位offer,或者国外名校的AI 硕士.全奖博士录取 offer. 在大家的认可下,我们对课程做了全面 ...

  8. pytorch多卡并行模型的保存与载入

    pytorch多卡并行模型的保存与载入 当模型是在数据并行方式在多卡上进行训练的训练和保存,那么载入的时候也是一样需要是多卡.并且,load_state_dict()函数的调用要放在DataParal ...

  9. 深度之眼Pytorch打卡(十三):Pytorch全连接神经网络部件——线性层、非线性激活层与Dropout层(即全连接层、常用激活函数与失活 )

    前言   无论是做分类还是做回归,都主要包括数据.模型.损失函数和优化器四个部分.数据部分在上一篇笔记中已经基本完结,从这篇笔记开始,将学习深度学习模型.全连接网络MLP是最简单.最好理解的神经网络, ...

最新文章

  1. python的语法结构_Python特点、语法结构、编码知识
  2. WCF异常:HTTP 无法注册,另一应用程序正在使用 TCP 端口 80
  3. android ImageSwitcher的使用
  4. zookeeper的设计猜想-Observer角色
  5. 如何通过 Impex 在 SAP Commerce Cloud 创建一个新的 Component
  6. 前端学习(812):dom导读
  7. ssh免密码远程执行sudo命令
  8. 动态(静态)加载DLL注意
  9. [转载] np.logical_and用法(有代码)
  10. POJ- 1751 Highways
  11. 为什么世界是由数学构成的
  12. 红米Note8手机图纸-电路原理图+主板元件位号图
  13. 华为安装gsm框架_华为手机怎么安装 GMS 框架和谷歌应用?
  14. 如何长时间高效学习?
  15. python判断火车票座位号分布图_如何选择火车靠窗座位和选座位技巧!
  16. JavaWeb09_Cookie Session
  17. 制动器作用停止 发那科机器人_FANUC机器人长期停机再运转时注意事项
  18. MapServer 之 发布网络地图服务(WMS-Web Map Service)
  19. 陕西万德信息科技面试题
  20. 自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 Standard NLP tasks with specific vocabulary

热门文章

  1. 八百里加急$数据结构追加2组织权限设计
  2. 服务器的网站怎么打包,网站程序上传空间如何打包
  3. 360借条通过CCRC权威认证,再获国家级认可
  4. COMODO网络安全专业版8下载
  5. 开源的成语答题小程序运营总结
  6. 零跑推出全新系列车型,助推零跑汽车股价发展
  7. 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)
  8. 计算机黑屏修复,电脑开机了但是一直黑屏的修复办法
  9. 深度揭示《愤怒的小鸟》如何赢得世界
  10. Vue(一)父子组件通信