CPU、内存与分布式

文章目录

一、CPU与内存的硬件知识
- CPU的概念
- CPU与内存之间：Cache（高级缓存）
- 多核CPU的内存共享问题（Cache一致性问题）
- - Cache Line
  - MESI协议
  - 缓存伪共享问题
- SMP架构与NUAM架构
二、内存计算技术
- - 超高性能一体机的内存数据库
- 内存数据库
- 内存数据网格/内存计算网格（IMDG/IMCG）
- - 分布式数据库
- 实时流处理系统
- 新型的数据仓库系统
三、内存缓存技术

一、CPU与内存的硬件知识

CPU的概念

CPU：泛指，中央处理器（CPU，central processing unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。
Socket或者Processor：指一个物理CPU芯片，盒装的或者散装的，上面有很多针脚，直接安装在主板上。
Core：每个Socket里面的一个CPU核心，一个独立的计算单元。我们常说的4核CPU指的就是一个Socket里面有4个Core
Hyper-Threading：超线程技术，支持一个Core里并行执行两个线程。对于操作系统来说就相当于两个逻辑CPU。

CPU与内存之间：Cache（高级缓存）

CPU与内存之间的速度差了差不多100倍，所以CPU不可能直接与内存相连。中间过渡的缓冲区就是Cache。
Cache属于SRAM，内存属于DRAM。这两者的区别是SRAM更快、更小、电路更复杂和更贵。巨大差距的原因如下：

存储1bit数据，DRAM需要1个电容和1个晶体管，而SRAM需要6个晶体管。DRAM数据存放在电容里，电容的充放电需要时间，所以比较慢。
SRAM的频率基本与CPU的频率保持一致，而DRAM会慢很多。
Cache一般会集成在CPU里面。由于Cache很贵，所以一般采取金字塔形的多级缓存的方式，级数越高性能越低，但是容量越大。例如Intel Sandy Bridge架构的CPU，L1 Cache容量为64KB，L2 Cache容量为256KB,L3 Cache的容量为32MB。另外L3 Cache是Socket内部所有CPU共享的。

多核CPU的内存共享问题（Cache一致性问题）

多核CPU的内存共享问题，即多个CPU使用同一个内存时的数据一致性问题。每个CPU看到的Cache数据应该是一样的，如果不一样就可能发生数据错乱。
来自Intel的MESI协议是目前业界公认的解决Cache一致性问题的最佳方案。

Cache Line

首先要说一下缓存行的概念（Cache Line）。Cache Line 是Cache中的最小存储单位，Intel CPU一般为64B。当Cache 从内存中加载数据时，一次加载一条Cache Line的数据。为什么这么设计呢？因为CPU的速度远快于IO，一次读一个字节与一次读多个字节的速度差不多。另外数据访问一般具有连续性，需要某个字节很可能需要后面的字节，索性一起读取了。

MESI协议

Cache Line 的前两bit表示当前状态，所以共4个状态：

M：modified 修改状态，其他CPU上没有数据副本，且在本CPU上被修改过，与存储器中的数据不一致，最终必然引发系统总线的写指令，将Cache Line 中的数据写回到内存中。
E：exclusive 独占状态，当前Cache Line中的数据与内存中的数据一致，且其他CPU上没有副本。
S：shared 共享状态，当前Cache Line中的数据与内存中的数据一致，且其他CPU上有副本。
I：invalid 无效状态，当前的Cache Line 中没有有效的数据，或者已失效。此状态也是Cache Line的初始状态。
由此可见，MESI也可以理解为一种状态机模型。我们讨论4中状态转移场景：
一个读，另一个再读：刚开始所有的Cache Line 都是Invalid 状态，有个CPU A读取某个变量，此时Cache中没有数据，Cache会发起一个到内存的Load指令进行数据加载，加载完之后Cache Line变成Exclusive状态。此时另一个CPU B也读取同一个变量，在总线上发起读请求。这个读请求会被CPU A嗅探到（snoop）。CPU A会在内存总线上复制一份Cache Line 作为应答，同时将自身的Cache Line修改为shared状态。CPU B收到应答并保存到自己的Cache Line中，同时状态改为shared。
一个写，另一个读：CPU A 写完数据后，缓存行状态为modified。此时CPU B对同一变量进行读操作。CPU A在总线上嗅探到这个读操作后，先将数据回写到内存，然后复制一份缓存行数据作为应答，并把自己的缓存行状态改为shared。CPU B收到应答后缓存行状态为shared。
一个写，另一个写：CPU A发起写操作，其缓存行数据为Modified。CPU B也发起写操作，当CPU A在总线上嗅探到此操作后，会阻止CPU B的写请求并取得总线控制权，随后将自己缓存行的数据写入内存，同时将自己的缓存行状态改为invalid，因为马上要被改。此时CPU B发现自己的请求没有回应，会进行重试。
如果某个变量被多个CPU加载到各自的缓存行，其中某个CPU对此变量的修改会导致所有拥有此变量缓存的缓存行都失效，这是引发性能下降的一种典型Cache Miss问题。

缓存伪共享问题

讲这个的比较多，这里简单说一下。问题原因上面已经说到了。当两个CPU同时各自缓存了某个缓存行，但是这个缓存行包含多个变量，两个CPU各自操作自己的变量，按理说应该是互不影响的。由于缓存行的是最小操作单位，当一个CPU修改缓存行中某个变量时，另一个CPU的相应缓存行会失效，不得不频繁地从内存中加载，导致频繁的Cache Miss，性能会急剧下降。
如果解决这个问题？尽量让这种变量占用整个缓存行，使变量之间互不影响。java8之前可以进行填充，java8提供了@Contented注解，确保变量与其他变量不在同一个Cache Line 中。

SMP架构与NUAM架构

SMP : Symmetrical Multi-Processing 对称多处理，是一种对称结构，所有CPU Core都连接到一个内存总线上，每个CPU Core都是平等的，而且内存是一个统一寻址的整个内存（UAM, Uniform Memory Architecure）。
随着CPU核数不断增长，一条内存总线的带宽已经无法满足。这时提出了所谓的NUAM架构（None Uniform Memory Architecture）。
NUMA架构：内存不再是一个整体，而是被分割成相互独立的几块，被不同的CPU私有化。CPU优先访问离自己近的内存，如果要访问其他CPU控制的内存，需要通过互联通道访问，这会相对慢一些。这种架构可以使CPU扩展到几百个而不会导致性能严重下降。
- 这种架构由多个Node组成，一个Node由一个或多个Socket组成，一个Socket由多个Core组成。Node之间通过Intel QuickPath Interconnect技术形成点到点的全互联系统。
- 无法像SMP架构那样使用嗅探总线的方式来实现Cache的一致性。Intel引入了MESI协议的扩展协议——MESIF来实现一致性。此协议没有公开文档，暂不深究了。
对于NUMA架构的使用情况：
- 编程语言方面，Java在支持NUAM的系统里，可以开启基于NUAM的内存分配方案，使得当前线程优先在自己所在的Node对应的内存上分配内存，大大加快性能。
- 大数据方面：SAP的HANA平台已经开始应用。
- 云计算和虚拟化方面：OpenStack和VMware已经支持基于NUAM技术的虚机分配能力，使得不同的虚机运行在不同的Node上，虚机内存不会跨越多个Node。
- 在基于多进程的高性能单机分布式系统上很有前景，既享受优先访问本地内存的好处，也享受进程间高性能通信带来的优势。进程间通信使用Intel QuickPath Interconnect等技术比基于网络的分布式系统速度快很多。

二、内存计算技术

超高性能一体机的内存数据库

Oracle的Exalytics一体机，单核支持8个线程（我们知道Intel的超线程也就是2个线程），单机支持512个CPU内核，每秒265G的IO，4TB主内存、3.2T闪存、7.2T硬盘。太强大了！一般人买不起。

内存数据库

SAP HANA平台：
- 把数据全部放在内存中，定期回写到磁盘
- 利用NUAM架构和并行编程技术
- 最小化数据传输：数据压缩技术（基于数据字典），计算逻辑下推到数据存储层。
- 同时支持OLTP和OLAP
- 同时支持基于行的数据存储和基于列的数据存储
- 支持分布式集群，可以水平扩展。目前最大的HANA集群有100个节点和250T内存。

内存数据网格/内存计算网格（IMDG/IMCG）

IMDG/IMCG是一个完全分布式的内存存取系统，可以将便宜的X86服务器的内存整合成一个超大的内存。存放的是序列化数据，且支持动态扩容缩容。主要代表产品如下：

Hazelcast：java实现的开源框架
- 使用简单，只有一个jar包，方便集成
- 功能全面
- 当需要一个分布式的超大的map时，可以考虑Hazelcast。
- tomcat集群的session管理
BigMemory (Terracotta) ：java实现的开源框架。收购Ehcache后，推出了Ehcache+BigMemory组合产品。
Gemfire (VMware Pivotal )：铁道部的12306售票系统采用此方案，解决了售票系统瘫痪问题
Ignite（Apache）
Infinispan(JBoss)：Java实现的开源框架，可以对接Hadoop和Spark

分布式数据库

VoltDB：支持在内存中执行SQL，支持ACID，支持定期将数据持久化到磁盘中。

实时流处理系统

Storm/Spark/Flink

新型的数据仓库系统

Hive
Impala：Cloudera公司开发，提供SQL功能，能查询在Hadoop中的HDFS和Hbase中PB级数据

三、内存缓存技术

堆内缓存：Guava工具包、Ehcache
堆外缓存：BigMemory
单机版缓存：早期的Memcache和Redis
分布式缓存：Redis
- 丰富的缓存失效策略
- 支持超大对象
- 丰富的数据类型
- 持久化和主从复制，可以当做数据库使用
- HyperLogLog：通过固定的空间统计较大数据集的不相等数据总数。
- Bloom Filter：大数据集的黑名单
- Bitmap：存储用户画像数据
- GeoHash：地理相关API