CPU高速缓存和内存屏障
一、CPU性能优化手段——缓存
为了提高程序运行的性能,现代CPU在很多方面对程序进行了优化。
例如:CPU高速缓存。尽可能地避免处理器访问主内存的开销,处理器大多会利用缓存以提高性能。
二、多级缓存
1、 L1 Cache(一级缓存)
是CPU第一层高速缓存,分为数据缓存和指令缓存。一般服务器CPU的L1缓存的容量通常在32-4096kb。
2、 L2 Cache(二级缓存)
由于L1高速缓存容量的限制,为了再次提高CPU的运行速度,在CPU外部放置一高速存储器,即二级缓存。
3、L3 Cache(三级缓存)
现在的都是内置的,L3缓存的应用可以进一步降低内存延迟,同时提升大数据量计算时处理器的性能。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列的长度。一般是多核共享一个L3缓存。
备注:CPU在读取数据时,先在L1中寻找,再从L2中寻找,再从L3中寻找,然后是内存,再后就是外存储器。
三、缓存同步协议
多CPU读取同样的数据进行缓存,进行不同运算后,最终写入主内存以哪个CPU为准?
在这种高速缓存回写的情况下,有一个缓存一致性协议,多数CPU厂商对它进行了实现。
MESI协议,规定每条缓存有个状态位,同时定义了下面四个状态:
- 修改态:此cache行已被修改过(脏行),内容已不同于主存,为此cache专有。
- 专有态:此cache行内容同于主存,但不出现与其它cache中。
- 共享态:此cache行内容同于主存,但也出现在其它cache中。
- 无效态:此cache行内容无效(空行)。
多处理器单个CPU对缓存中数据进行了改动,需要通知给其它CPU。也就是意味着,CPU处理要控制自己的读写操作,还要监听其它CPU发出的通知,从而保证最终一致。
四、CPU性能优化手段-运行时指令重排
指令重排的场景:当CPU写缓存时发现缓存区块正在被其它CPU占用(如L3缓存多核共享),为了提供CPU处理性能,可能将后面的读缓存命令优先执行。
指令重排要遵守
as-if-serial
语义:不管怎么重排序,(单线程)程序的执行结果不能改变。编译期,runtime和处理器都必须遵守as-if-serial
语义。也就是说,编译器和处理器不会对存在数据依赖关系的操作做重排序。
五、CPU性能优化手段-运行时指令重排
1、CPU高速缓存下有一个问题:
缓存中的数据与主内存的数据并不是实时同步的,各CPU(或CPU核心)间缓存的数据也不是实时同步。在同一个时间点,各CPU所看到同一内存地址的数据的值可能是不一致的。
2、CPU执行指令重排序优化后有一个问题:
虽然遵守了as-if-serial语义,单仅在单CPU自己执行的情况下能保证结果正确。多核多线程中,指令逻辑无法分辨因果关联,可能出现乱序执行,导致程序运行结果错误。
六、内存屏障
处理器提供了两个内存屏障的指令(Memory Barrier),用于解决上面的两个问题:
(1)写内存屏障(Store Memory Barrier)
:在指令后面插入Store Barrier,能让写入缓存中的最新数据更新写入主内存,让其它线程可见。强制写入主内存,这种显示调用CPU不会因为性能考虑而去对指令重排。
(2)读内存屏障(Load Memory Barrier)
:在指令前插入Load Barrier,可以让高速缓存中的数据失效,强制重新从主内加载数据。强制读取主内存内容,让CPU缓存与主内存保存一致,避免了缓存导致的一致性问题。
CPU高速缓存和内存屏障相关推荐
- Linux高速缓存和内存屏障
目录 一.高速缓存与地址映射 二.MESI缓存一致性协议和伪共享 三.指令重排序和内存屏障 四.Java volatile和final关键字 一.高速缓存与地址映射 CPU访问内存(DRAM)较慢, ...
- CPU缓存和内存屏障
CPU性能优化手段-缓存 为了提高程序运行的性能,现代CPU在很多方面对程序进行了优化. 例如:CPU高速缓存.尽可能地避免处理器访问主内存的时间开销,处理器大多会利用缓存(cache)以提高性能. ...
- 汇编为什么分段执行总是执行不了_iOS汇编教程(六)CPU 指令重排与内存屏障...
系列文章 iOS 汇编入门教程(一)ARM64 汇编基础 iOS 汇编入门教程(二)在 Xcode 工程中嵌入汇编代码 iOS 汇编入门教程(三)汇编中的 Section 与数据存取 iOS 汇编教程 ...
- 内存屏障与java的内存屏障 —— JVM篇
内存屏障与java的内存屏障 内存屏障 前言 一.什么是内存屏障? 二.volatile变量规则 1.volatile简介 2.volatile原理 3.volatile特性 4.volatile变量 ...
- Linux RCU机制+内存屏障
Linux RCU机制+内存屏障 1. RCU 1.1 RCU 背景(读写锁的问题) 1.1.1 读写锁(写独占,读共享,写锁优先级高) 1.1.2 读写锁的缺点(写独占时不可读) 1.1.3 RCU ...
- 缓存一致性MESI与内存屏障
文章目录 1. 高速缓存 1.1. 什么是高速缓存Cache 1.2. 缓存行 2. 伪共享问题 2.1. 什么是伪共享 2.2. 解决伪共享 3. 总线锁 4. 缓存锁 5. 缓存一致性协议 5.1 ...
- 多线程基础——内存屏障
内存屏障 内存屏障(memory barrier)是一种概念.编译器和CPU可以在保证输出结果一样的情况下对指令重排序,使性能得到优化.插入一个内存屏障,相当于告诉CPU和编译器先于这个命令的必须先执 ...
- java内存栅栏_内存屏障(Memory Barriers/Fences) - 并发编程中最基础的一项技术
我们经常都听到并发编程,但很多人都被其高大上的感觉迷惑而停留在知道听说这一层面,下面我们就来讨论并发编程中最基础的一项技术:内存屏障或内存栅栏,也就是让一个CPU处理单元中的内存状态对其它处理单元可见 ...
- # 内存屏障:骇客的硬件视角(1)
翻译自内存屏障 那么到底是什么让CPU的设计大师们着了魔,要把内存屏障这个鬼东西强行塞给了毫不知情的多处理器系统的软件开发者? 简单点说,就是因为内存访问顺序的重排会带来更好的性能.同步原语的正确操作 ...
最新文章
- 过滤内容字段_巧用参数组件和过滤组件,教你快速定位目标数据
- c语言中的fock方法输出hello,涉及fork()的C程序输出的说明
- plsql 记录型变量
- linux 卸载 openldap,Linux下安装openldap
- 32 CO配置-控制-产品成本控制-成本对象控制-期末结算-定义差异码
- 使用jquery简化ajax开发
- 机械硬盘的改进想法:一臂多头
- tecplot批量导出图片_科研画图工具Tecplot使用教程
- AlphaGo Zero算法简介
- opencms10.5.1如何汉化
- 医院时钟系统(子母钟系统)构成及应用
- 外置MOS LED驱动IC7195
- 第四章——数据库安全性
- LVGL+NES|基于lvgl实现nes模拟器(lv_100ask_nes)
- 关于Enterprise library logging中一个没搞明白的东西,希望有大大们进来帮忙释疑一下, THKS...
- Final shell配置
- vue 在线编辑excel表格(原生和使用组件的两种方式)
- 50行实现C语言FM收音机-Taskbus Stdio封装器在SDR课程中的应用
- 齿轮系统动力学模型matlab程序代码
- 使用Angular cli(ng generate)创建组件、服务、类、路由、指令、管道