榕树贷款L2为所有SM都能访问到,速度比全局内存块,所以为了提高速度有些小的数据可以缓存到L2上面;L1为SM内的数据,SM内的运算单元能够共享,但跨SM之间的L1不能相互访问。

L2 可以被显式的使用(cuda 11 ),去优化性能

榕树贷款Nvida示例: Cuda 11 L2 示例

榕树贷款共享内存(shared memory)
共享内存是片内内存,被 SM 独享,SM 内的块所共享。

共享内存是片内存储, 和 L1的速度相当

榕树贷款共享内存与L1的位置、速度极其类似,区别在于共享内存的控制与生命周期管理与L1不同,共享内存的使用受用户控制,L1受系统控制,shared memory更利于block之间数据交互。

Kernel <<< * , 线程, 共享内存>>>>,kernel 执行第三个分配资源

__global__ void staticReverse(int *d, int n)
  __shared__ int s[64]; // 分配的共享内存
  int t = threadIdx.x;
  int tr = n-t-1;
  s[t] = d[t];
  __syncthreads();
  d[t] = s[tr];
局部内存(local memory)
榕树贷款局部内存(local memory) 是线程独享的内存资源,线程之间不可以相互访问,硬件位置是off chip状态,所以访问速度跟全局内存一样。局部内存主要是用来解决当寄存器不足时的场景,即在线程申请的变量超过可用的寄存器大小时,会将变量存储在局部内存中。

寄存器(register)
榕树贷款寄存器(register)是线程能独立访问的资源,它所在的位置与局部内存不一样,是在片上(on chip)的存储,用来存储一些线程的暂存数据。寄存器的速度是访问中最快的,但是它的容量较小。以目前最新的Ampere架构的GA102为例,每个SM上的寄存器总量256KB,使用时被均分为了4块,且该寄存器块的64KB空间需要被warp中线程平均分配,所以在线程多的情况下,每个线程拿到的寄存器空间相当小。寄存器的分配对SM的占用率(occupancy)存在影响,可以通过CUDA Occupancy Calculator 计算比较,举例:如图当registers从32增加到128时,occupancy从100%降低到了33.0。 一般 Occupancy 越高,kernel 优化的越好。

Kernel <<< * , 线程>>>>,kernel 执行第二个分配资源

榕树贷款GPU 硬件架构相关推荐

  1. A100 GPU硬件架构

    A100 GPU硬件架构 NVIDIA GA100 GPU由多个GPU处理群集(GPC),纹理处理群集(TPC),流式多处理器(SM)和HBM2内存控制器组成. GA100 GPU的完整实现包括以下单 ...

  2. 【TA-霜狼_may-《百人计划》】图形2.7.2 GPU硬件架构概述

    [TA-霜狼_may-<百人计划>]图形2.7.2 GPU硬件架构概述 @[TOC]([TA-霜狼_may-<百人计划>]图形2.7.2 GPU硬件架构概述 GPU是什么 GP ...

  3. 深入GPU硬件架构及运行机制

    一.导言 对于大多数图形渲染开发者,GPU是既熟悉又陌生的部件,熟悉的是每天都需要跟它打交道,陌生的是GPU就如一个黑盒,不知道其内部硬件架构,更无从谈及其运行机制. 本文以NVIDIA作为主线,将试 ...

  4. 深入理解GPU硬件架构及运行机制

    目录 一.导言 1.1 为何要了解GPU? 1.2 内容要点 1.3 带着问题阅读 二.GPU概述 2.1 GPU是什么? 2.2 GPU历史 2.2.1 NV GPU发展史 2.2.2 NV GPU ...

  5. 【CUDA编程】学习笔记(二) GPU硬件架构

    一.CPU与GPU的链接模型 在计算机的硬件架构中,CPU与GPU有多种链接模式,下面介绍几种典型的架构 北桥 多CPU(SMP) 多CPU(NUMA) 多CPU(NUMA)多总线 具有集成PCI E ...

  6. NVIDIA GPU硬件架构发展(截至2022年)

    英伟达的GPU架构在近几年有了几次调整演进,如下所示 Fermi费米微架构 CUDA CORE是一种算术逻辑单元(ALU),他的内部不包含光栅单元和纹理单元,CUDA CORE也就是流处理器sp(st ...

  7. 从深度学习选择什么样的gpu来谈谈gpu的硬件架构

    2016-06-27 23:39 2511人阅读 评论(0) 收藏 举报 分类: GPU 从深度学习在2012年大放异彩,gpu计算也走入了人们的视线之中,它使得大规模计算神经网络成为可能.人们可以通 ...

  8. GPU硬件结构和程序具体参数设置

    目录 1.CUDA程序Thread的基本结构 3.单指令多线程架构(SIMT, Single Instruction Multi Thread) 4.硬件多线程(Hardward Multithrea ...

  9. Nvidia CUDA初级教程4 GPU体系架构概述

    Nvidia CUDA初级教程4 GPU体系架构概述 视频:https://www.bilibili.com/video/BV1kx411m7Fk?p=5 讲师:周斌 本节内容: 为什么需要GPU 三 ...

  10. CUDA学习:GPU硬件连接模型

    CUDA学习:GPU硬件连接模型 一.基本的CPU与GPU连接模型 CPU与GPU之间的连接是通过PCI-Express总线进行连接的.GPU不是一个独立运行的平台而是CPU的协处理器.因此,GPU必 ...

最新文章

  1. cobertura-maven-plugin
  2. tensorflow随笔-tf.no_op
  3. oracle data guard闪回,官方文档上的这段关于 DATAGUARD 闪回的解释,如何理解?
  4. OpenCV学习 4:摄像头视频读写与边缘检测
  5. getprivateprofilestring读不到数据_Tomcat NIO(11)请求数据读取
  6. 计算机视觉哪个方向最火?来看这篇综述《中国图像工程:2020》
  7. C# OpenTK教程 - 1.1 创建窗口
  8. Linux学习教程,Linux入门教程(超详细)| 网址推荐
  9. 文本文件与0、1文件
  10. python困境_学习 Python 编程的三种困境
  11. 51nod1079中国剩余定理
  12. 别总抱怨自己怀才不遇,告诉你将才与帅才的12个差别!
  13. modscan36--my milestone
  14. [RK3288][Android5.1] 调试笔记 --- LVDS+EDP双屏机器调节白平衡色温
  15. 初级会计最后一个月稳过秘籍
  16. iphone11各机型对比_9款旗舰系统对比 iPhone 11居然不是最好用的
  17. LoRaWAN介绍15 终端设计
  18. 烟台气象台发布蓝色预警信号: 今日大到暴雪
  19. 华为手机自带浏览器无法下载 iis 网站 apk 问题解决方案(和SSL有关)
  20. 福昕阅读器文档无法高亮的问题

热门文章

  1. 如何给别人介绍一个你做过的项目
  2. Vmware 显示“您在运行该虚拟机时启用了侧通道缓解+DevicePowerOn”启动失败+模块“VPMC”启动失败”
  3. 扎克伯格的新年愿望居然被他们实现了?!首个人工智能安全系统Flare横空出世...
  4. Java8新特性笔记--波哥带你学JAVA--Stream Api
  5. ConHost.exe机制
  6. 机器学习——sigmoid、tanh、relu等激活函数总结
  7. 2018年江苏省信息与未来小学生编程思维展示活动试题--(新)鸡兔同笼
  8. css入门教程资料(4)
  9. 让物体绕固定点做圆周运动 让物体到达目的点
  10. 中国商业为何缺诚信?