背景

在做高性能分析的时候,经常会出现一个什么bank conflict的名词,不仅是GPU的share memory会出现bank confict, 甚至连寄存器也会出现bank conflict, 那么这个是什么东西,下面进行一个系统的梳理。

硬件

从事计算机行业的同学肯定见过这个东西,没错这个玩意就是内存条,上面的小黑块就是内存颗粒,每一片称之为chip. 有兴趣的可以拆开自己的电脑看一下,这个chip大约有1mm左右的厚度,我们知道现在的半导体工艺一般都是纳米级别,所以这1mm后的内存,其实是由很多薄片累加一起的,每一个薄片叫做一个bank.图示如下:

接下来,每一个矩形bank可以继续拆成一个个二维的小方格,每次从一个bank取数和存数的话只有通过一根线(现在很多内存开了两个端口,分别做存数和取数),如果两个数据分布在不同的bank上(bank序列挨得近),那么一把就可以取出两个数据,如果两个数据在一个bank上,那么耗时就是2倍,因为只能串行拿出,也就是我们说的bank conflict,具体示意图如下,好了,硬件理解到这个程度已经可以了,下面来分析分析cuda中的share memory。

share_memory

share memory相比较device memory而言,share memory是在GPU芯片上的,而device memory是通过总线链接到GPU芯片上的,所以性能的高低一目了然,为此我们尽量要使用好share memory。share memory 有32个bank, 可以自己脑补上面图示的bank, 每一个小格子里面放4字节(也可以自己设置为8)大小的数据(int ,float),)被划分到32个bank中,每个bank的内存能同时读写(有两个port),但是同一个bank的不同地址的数据则只能串行读写, 如果不容线程访问一个bank的一个地址也没问题,根据上面图示可以看到可以把一个数据放到不同的buffer里。例如__shared__ float data[32][32],申请了1024个float数据,每个float正好是4字节,data按行存储,data[0][0]就位于第0个bank,data[0][1]位于第一个bank,以此类推.因此data[0][col]就被划分在了第col个bank中,即列数相同(data[0][1]和data[5][1])的数据划分至了同一个bank中(自己脑补上面bank位置).如果一个warp的线程按列处理data那么就会造成bank conflict.

测试

#define WARPSIZE 32
//conflict
__global__ void kernel1(float* A) {__shared__ float data[32][32];int tid = threadIdx.x;int col = tid/WARPSIZE;int row = tid%WARPSIZE;//为了测试同一个warp的memory bank conflict, 这里连续的线程要处理不同行,但是同一列的数据。data[row][col] = 1.f;A[tid] = data[row][col];
}
//noconflict
__global__ void kernel2(float* A) {__shared__ float data[32][32];int tid = threadIdx.x;int row = tid/WARPSIZE;int col = tid%WARPSIZE;data[row][col] = 1.f;A[tid] = data[row][col];
}

整体测试代码:

#include<stdio.h>
#include<time.h>
#define WARPSIZE 32
__global__ void kernel1(float* A) {__shared__ float data[32][32];int tid = threadIdx.x;int col = tid/WARPSIZE;int row = tid%WARPSIZE;data[row][col] = 100.f;A[tid] = data[row][col];
}__global__ void kernel2(float* A) {__shared__ float data[32][32];int tid = threadIdx.x;int row = tid/WARPSIZE;int col = tid%WARPSIZE;data[row][col] = 100.f;A[tid] = data[row][col];
}int main() {int blocksize = 32*32;float* h_A = (float*)malloc(sizeof(float)*blocksize);float* d_A;cudaMalloc(&d_A, sizeof(float)*blocksize);kernel1<<<1, blocksize>>>(d_A);cudaDeviceSynchronize();cudaMemcpy(h_A, d_A, blocksize*sizeof(float), cudaMemcpyDeviceToHost);kernel2<<<1, blocksize>>>(d_A);cudaDeviceSynchronize();cudaMemcpy(h_A, d_A, blocksize*sizeof(float), cudaMemcpyDeviceToHost);    cudaFree(d_A);free(h_A);return 0;
}

编译:

nvcc -O3 bankconflict.cu -o bankconflict

分析

利用下面命令分析耗时:

nvprof ./bankconflict

利用下面代码分析冲突事件:

nvprof --events shared_ld_bank_conflict,shared_st_bank_conflict ./bankconflict

可以得到下面的结果:

可以看到存数据(shared_st_bank_conflict=store bank conflict)的时候,会有992=31*32个冲突,因为每一个warp中的线程第一个线程是没有冲突的,所以是31*32,和预期的一模一样。不过这里有一个问题,kernel1最后执行了A[tid] = data[row][col],按道理来说应该也存在load bank conflict.但是为什么使用nvprof显示的结果却没有呢?
原因是我们编译的时候使用了-O3编译优化,编译器优化了我们的程序,减少了bank conflict的次数.可以通过禁止编译优化来观察结果,重新编译. //-g是debugcpu,-G是debug GPU并且关闭所有优化
nvcc -g -G bankconflict.cu -o bankconflict
测试:
nvprof --events shared_ld_bank_conflict,shared_st_bank_conflict ./bankconflict

参考:https://www.cnblogs.com/deepllz/p/11490544.html

share memory的bank conflict分析相关推荐

  1. Share memory中bank conflict问题

    Share memory是片上资源,生命周期是整个block中,它的数据读写十分快,有1个cycle latency.在Share memory中,经常存在bank conflict问题,如果没有ba ...

  2. bank conflict

    存储体冲突(bank conflict):当被访问的存储体没有恢复时又出现对该存储体新访问的现象. 简介目前 CUDA 装置中,每个 multiprocessor 有 16KB 的 shared me ...

  3. CUDA bank 及bank conflict

    bank 是CUDA中一个重要概念,是内存的访问时一种划分方式,在CPU中,访问某个地址的内存时,为了减少读写内次次数,访问地址并不是随机的,而是一次性访问bank内的内存地址,类似于内存对齐一样,一 ...

  4. 难理解的bank conflict

    之前看Nvidia-OpenCL-SDK里有一个例子讲到过bank conflict,但没怎么明白,它选择的是用奇数来避免. #define BLOCK_DIM 16// This kernel is ...

  5. CUDA:矩阵乘法的实现(Share Memory)

    本文参加2022CUDA on Platform线上训练营学习笔记 矩阵乘法的GPU端实现 一.矩阵乘法(Matrix Multiply)基础 二.矩阵乘法的CPU端实现 三.矩阵乘法的GPU端实现( ...

  6. 使用Memory Analyzer tool(MAT)分析内存泄漏(一)

    使用Memory Analyzer tool(MAT)分析内存泄漏(一) (2010年05月21日) 发表于 Java博客 前言的前言 :本文是自 2005 年 8 月以来,首次在一个月之内发布三篇文 ...

  7. 【Android 内存优化】使用 Memory Analyzer ( MAT ) 工具分析内存 ( MAT 工具使用 | 最大对象 | 类实例个数 | 引用与被引用 | GC Roots 最短链 )

    文章目录 一. 内存中最大的对象 二. 查看每个类的对象实例的个数 三. 查看对象的引用与被引用 四. 查看对象到 GC Roots 的最短距离 1. 选择 Merge Shortest Paths ...

  8. CA/TA通信的share memory设计思想解读

    引流关键词: WSM, 共享内存,sharememory,share memory, optee.ATF.TF-A.Trustzone.optee3.14.MMU.VMSA.cache.TLB.arm ...

  9. 使用Memory Analyzer tool(MAT)分析内存泄漏

    http://www.blogjava.net/rosen/archive/2010/05/21/321575.html http://www.blogjava.net/rosen/archive/2 ...

最新文章

  1. Nacos下载与安装-windows
  2. 为什么要学习源码?学习源码对我们有用吗?
  3. linux 配置 clang++ SDL 开发环境 (新手向)
  4. http响应最大时长 nginx_nginx反向代理时如何保持长连接
  5. samba 实现linux 共享,用Samba实现Linux之间的文件共享机制
  6. 计算机应用专业毕业设计总结,6.1-7(3)2005年计算机应用技术专业毕业生毕业设计和毕业答辩工作总结0207-ZH...
  7. 机器学习文献中的英文(part1)
  8. 数据增强 数据集扩充_数据扩充的抽象总结
  9. 遇到:ORA-27121: UNABLE TO DETERMINE SIZE OF SHAR...
  10. Spring的IoC理解,代码进行详解
  11. Android TextView 使用替换构建出不同样式的字符串
  12. 查oracle执行的sql,oracle查询正在执行的sql
  13. live share_带Live Share的Visual Studio Code中的实时编码入门
  14. 【征文】纸短情长叹朝夕
  15. Repeater:Redriver 和Retimer
  16. 帝国Empire采集-帝国如何免费采集
  17. CAD高版本窗体阵列LISP_如何把CAD高版本阵列对话框在低版本调出来?
  18. RN 在Android Studio运行闪退后报错
  19. Excel 单元格中插入附件
  20. 企业级nginx使用

热门文章

  1. 灾备联盟牵头研制《云灾备技术发展趋势与应用白皮书》
  2. 编程范式,函数汇编过程 7/11/18
  3. 最大信息系数(MIC)
  4. 项目管理基础之逻辑思维学习
  5. vue中的@代表什么
  6. 打篮球与企业管理有相似之处吗?
  7. 如何有效训练你的研究能力
  8. 修改testlink服务器ip,简单明了的TestLink配置手册
  9. ROS1云课→17化繁为简stdr和f1tenth
  10. Vue axios请求自带域名,接口及项目名