标量处理机

5 标量处理机
- 5.1 先行控制技术
- - 5.1.1 指令的重叠执行方式
  - - 1 顺序执行
    - 2 一次重叠执行方式
    - 3 二次重叠执行方式
  - 5.1.2 先行控制方式的原理
  - - 1 采用二次重叠执行方式必须解决两个问题
    - 2 解决访存冲突的方法
    - 3 处理机结构
    - 4 指令执行时序
    - 5 先行缓冲栈
    - 6 缓冲深度的设计方法
  - 5.1.3 数据相关
  - - 1 指令相关
    - 2 主存操作数相关
    - 3 通用寄存器数据相关
    - 4 变址相关
  - 5.1.4 控制相关
  - - 1 无条件转移
    - 2 一般条件转移
    - 3 复合条件转移
    - 4 转移预测技术
- 5.2 流水线技术
- - 5.2.1 流水线工作原理
  - 5.2.2 流水线的分类
  - - 1 线性流水线和非线性流水线
    - 按流水线级别来分
    - 单功能流水线与多功能流水线
    - 4 静态流水线与动态流水线
    - 5 流水线的其他分类方式
  - 5.2.3 线性流水线的性能分析
  - - 1 吞吐率
    - 2 加速比
    - 3 效率
    - 流水线最佳段数的选择
    - 5 流水线性能分析举例
  - 5.2.4 非线性流水线的调度
  - - 1 非线性流水线的表示
    - 2 非线性流水线的冲突
    - 3 无冲突调度方法
  - 5.2.5 局部相关
  - - 1 顺序流动方式
    - 2 乱序流动方式
    - 3 乱序流动中的数据相关
    - 4 乱序流动中数据相关的避免方法
    - 5 数据重定向方法
    - 6 Tomasulo 动态调度算法
  - 5.2.6 全局相关
  - - 1 条件分支在流水线中执行过程
    - 2 条件分支对流水线性能的影响
    - 3 条件分支的处理方法
    - 4 动态分支预测技术
    - 5 提前形成条件码
    - 6 精确断点与不精确断点
- 5.3 超标量处理机
- - 5.3.2 单发射与多发射
  - - 1 单发射处理机
    - 2 多发射处理机
    - 3 超标量处理机
  - 5.3.3 多流水线调度
  - 5.3.4 资源冲突
  - 5.3.5 超标量处理机性能
- 5.4 超流水线处理机
- - 5.4.1 指令执行时序
  - 5.4.3 超流水线处理机性能
- 5.5 超标量超流水线处理机
- - 5.5.1 指令执行时序
  - 5.5.3 超标量超流水处理机性能
  - 5.7.4 三种标量处理机的性能比较

5 标量处理机

5.1 先行控制技术

5.1.1 指令的重叠执行方式

指令的三个阶段：

取指令：按照指令计数器的内容访问主存储器，取出一条指令送到指令寄存器
指令分析：对指令的操作码进行译码，按照给定的寻址方式和地址字段中的内容形成操作数地址，并用这个地址读取操作数。分析指令的时候，就要去寄存器中取数了。
指令执行：根据操作码要求，完成规定的功能，将运算结果写到寄存器或主存储器

1 顺序执行

优点：控制简单，节省设备
缺点，速度慢

2 一次重叠执行方式

缩短时间，提高功能部件利用率

3 二次重叠执行方式

执行n条指令的时间为 T = (2+n)*t

5.1.2 先行控制方式的原理

1 采用二次重叠执行方式必须解决两个问题

1）有独立的取指令部件、指令分析部件和指令执行部件

把一个集中的指令控制器，分解成三个独立的控制器：存储控制器、指令控制器、运算控制器
2）主存储器的冲突问题
取指令、分析指令、执行指令都可能要访问存储器

2 解决访存冲突的方法

（1）低位交叉存取：不能根本解决冲突问题
（2）两个独立的存储器：独立的指令存储器和数据存储器
在许多高性能处理机中，有独立的指令Cache和数据Cache。这
种结构被称为哈佛结构
（3）先行控制技术

3 处理机结构

1）三个独立的控制器：存储控制器、指令控制器、运算控制器
2）四个缓冲栈：先行指令缓冲栈、先行读数缓冲栈、先行操作栈、后行写数栈。

先行指令缓冲栈

作用：只要指令缓冲栈没有充满，就自动发出取指令的请求
设置两个程序计数器：线性程序计数器PC1，用来知识取指令；线性程序计数器PC，记录指令分析器正在分析的指令地址

存在的主要问题

各类指令“分析”和“执行”的时间相差很大、数据相关、
转移或转子程序指令

4 指令执行时序

设置了指令缓冲栈，取指令的时间就可以忽略不计。一条指令的执
行可分为2个过程,即指令分析和指令执行

1）分析指令和执行指令的时间不相等：

2）采用纤细你个缓冲栈的指令执行过程

5 先行缓冲栈

设置先行缓冲栈的目的：使指令分析器和指令执行部件能够独立工作

1）先行指令缓冲栈：

处于主存储器与指令分析器之间，用它来平滑主存储器取指令和指令分析器使用指令之间的速度差异

2）先行操作栈：

采用先进先出方式工作，由指令寄存器堆和控制逻辑组成
指令分析器对已经放在先行指令缓冲栈里的指令进行预处理，把处理之后的指令送入先行操作栈
处于指令分析器和运算控制器之间，使指令分析器和运算器能够各自独立工作

3）先行读数栈

由一组缓冲寄存器和有关控制逻辑等组成，处于主存储器与运算器之间，平滑运算器与主存储器的工作
每个缓冲寄存器由地址寄存器、操作数寄存器和标志三部分组成。也可以把地址寄存器和操作数寄存器合为一个
当收到从指令分析器中送来的有效地址时，将地址的有效标志置位，向主存申请读操作数
读出的操作数存放在操作数寄存器中或覆盖掉地址寄存器中的地址，置位数据有效标志

4）后行写数栈
请添加图片描述

6 缓冲深度的设计方法

以静态分析为主，通过模拟来确定缓冲深度
1）先行指令缓冲栈的设计
两种极端情况，设缓冲深度为 DI
尽可能让指令分析不断流
(1) 先行指令缓冲栈已经充满

(2) 先行指令缓冲栈原来为空

5.1.3 数据相关

数据相关：在执行本条指令的过程中，如果用到的指令、操作数、变址量等是前面指令的执行结果，这种相关称为数据相关。

控制相关：由条件分支、转子程序指令、中断等引起的相关

解决数据相关的两种方法：退后处理，设置专用路径。

1 指令相关

解决指令相关的根本方法：在程序执行过程中不允许修改指令

2 主存操作数相关

解决办法：后推法

3 通用寄存器数据相关

解决办法

4 变址相关

方法一：推后分析
方法二：设置变址相关专用通路

5.1.4 控制相关

因程序的执行方向可能被改变而引起的相关，也称为全局相关
无条件转移、一般条件转移、复合条件转移、中断

1 无条件转移

在流水线处理机中，无条件转移指令不进入执行流水段，一般在指令译码阶段就实际执行完成
如果在处理机中设置有指令先行缓冲栈，则要全部或部分作废先行指令缓冲栈中的指令

2 一般条件转移

如果条件码是上一条指令产生，要等上一条指令执行完才能判断是否转移成功

3 复合条件转移

4 转移预测技术

1 软件猜测法：通过编译器尽可能降低转移成功概率
2 硬件猜测法：通过改变硬件结构来降低转移指令对流水线的影响

在先行指令缓冲站的入口处设置一个简单的指令分析器，当检测到转移指令是们就将转移目标地址L送入先行程序计数器PC1中，同时保留当前PC1中内容到另一个寄存器。
转移成功，猜测正确。对流水线没有影响
转移不成功，用保存下来的地址回复PC1和PC，清除先行指令缓冲栈、先行操作栈和先行读数栈，重新开始取指令

3 两个先行指令缓冲栈

在先行指令缓冲栈中增加一个先行目标缓冲栈
按照转移成功的方向预取指令到先行目标缓冲栈中
先行指令缓冲栈仍然按照转移不成功的方向继续预取指令
如果转移不成功，则继续分析原来先行指令缓冲栈中指令
如果转移成功，则分析新增设的先行目标缓冲栈中的指令

5.2 流水线技术

空间并行性：设置多个独立地操作部件
时间并行性：分时使用同一个部件的不同部分

5.2.1 流水线工作原理

在每一个流水段的末尾或开头必须设置一个寄存器，称为流水寄存器、流水锁存器、流水闸门寄存器等
加入流水寄存器，会增加指令的执行时间

流水线的主要特点：

只有连续提供同类任务才能发挥流水线效率；尽量减少因条件分支造成的“断流”，通过编译技术提供连续的相同类型操作
每个流水线段都要设置一个流水寄存器
各流水段的时间应尽量相等。流水线处理机的基本时钟周期等于时间最长的流水段的时间长度
流水线需要有“装入时间”和“排空时间”

5.2.2 流水线的分类

1 线性流水线和非线性流水线

按流水线级别来分

处理机流水线，又称为指令流水线
部件及流水线（操作流水线）
宏流水线

单功能流水线与多功能流水线

单功能流水线（Unifunction Pipelining）：只能完成一种固定功
能的流水线。
多功能流水线（Multifunction Pipelining）：流水线的各段通过
不同连接实现不同功能

4 静态流水线与动态流水线

静态流水线：同一段时间内，各个功能段只能按照一种方式连接，实现一种固定的功能

动态流水线：在同一段时间内，各段可以按照不同的方式连接，同时执行多种功能。

5 流水线的其他分类方式

按照数据的表示方法：标量流水和向量流水
按照控制方式：同步流水线和异步流水线

顺序流水线与乱序流水线，乱序流水线又称为无序流水线、错序流水线或异步流水线等

5.2.3 线性流水线的性能分析

1 吞吐率

TP=nTkTP = \frac{n}{T_k}TP=Tkn
其中：n为任务书，Tk为完成n个任务数所用的时间

各段执行时间相等，输入连续任务情况下，完成n个任务需要的总时间为：
Tk=k△t+(n−1)△tT_k = k\triangle t + (n-1)\triangle t Tk=k△t+(n−1)△t
各段时间不等，完成n个连续任务:

(1) 如果瓶颈部分可分，则在细分

（2） “瓶颈”流水段重复设置：增加分配器和收集器

)]

2 加速比

加速比计算的基本公式：
S=顺序执行时间T0流水线执行时间TkS = \frac{顺序执行时间T_0}{流水线执行时间T_k}S=流水线执行时间Tk顺序执行时间T0

当流水线段数增加时，需要连续输入的任务数也必须增加

3 效率

计算流水线效率的一般公式

E=n个任务展用的时空区k个流水段的总时空区E = \frac{n个任务展用的时空区}{k个流水段的总时空区}E=k个流水段的总时空区n个任务展用的时空区

流水线的吞吐率、加速比与效率的关系

流水线最佳段数的选择

5 流水线性能分析举例

好好看看这个例子，我感觉会考原题

5.2.4 非线性流水线的调度

非线性流水线调度的任务是要找出一个最小的循环周期，按照这周期向流水线输入新任务，流水线的各个功能段都不会发生冲突，而且流水线的吞吐率和效率最高

1 非线性流水线的表示

流水线预约表

2 非线性流水线的冲突

启动距离：连续输入两个任务之间的时间间隔
流水线冲突：几个任务争用同一个流水线

3 无冲突调度方法

禁止向量 ：预约表中每一行任意两个“×”之间距离的集合。
（3，4，6）

冲突向量： C=(CmCm−1...C2C1)C = (C_mC_{m-1}...C_2C_1)C=(CmCm−1...C2C1)
其中：m是禁止向量中的最大值。
如果i在禁止向量中，则Ci＝1，否则Ci＝0
（3，4，6） C＝(101100)

状态图：将冲突向量逻辑右移，若移出去的位是1，则表示用相应启动距离向流水线输入新任务时会产生功能段冲突；若移出去的位是0，则表示不会产生功能段冲突

如果移k位后移出出0，则证明可以在k个间隔后，启动一次。

启动后，更新冲突向量：

构造状态转换图：

简单循环：在状态图中各种冲突向量只经过一次的启动循环

5.2.5 局部相关

指令相关、访存操作数相关和通用寄存器相关等都是局部相关。

1 顺序流动方式

任务按照顺序流入流水线，也按顺序流出流水线

优点：流水线控制逻辑比较简单
缺点：吞吐率和效率比较低

2 乱序流动方式

指令流入流出流水想的顺序并不相同。错序流动方式、无序流动方式、异步流动方式

3 乱序流动中的数据相关

4 乱序流动中数据相关的避免方法

延迟执行
建立专用路径

5 数据重定向方法

6 Tomasulo 动态调度算法

5.2.6 全局相关

由条件转移或程序中断引起的相关称为全局相关
处理好条件转移和中断的两个关键问题：确保流水线正常工作、减少断流引起效率和吞吐率下降

1 条件分支在流水线中执行过程

2 条件分支对流水线性能的影响

3 条件分支的处理方法

1 延迟转移技术和指令取消技术
2 动态分支预测技术：根据近期转移是否成功的记录来预测下一次转移的方向
3 静态分支预测技术：转移预测的方向是确定的
4 提前形成条件码

4 动态分支预测技术

两个关键问题

如何记录转移历史信息
如何根据历史信息预测转移方向

记录转移历史信息的方法

5 提前形成条件码

只要在一个时钟周期之内产生条件码，流水线就不会“断流”

6 精确断点与不精确断点

采用精确(Precise)断点法，要设置一定数量的后援寄存器，把整个流水线中所有指令的执行结果和现场都保存下来

5.3 超标量处理机

三种主流处理机：

超标量处理机
超流水线处理机
超标量超流水线处理机

普通标量处理机：一条流水线一个多动嫩个部件，每个时钟周期平均执行指令的条数小于1
多操作部件标量处理机：一条指令流水线，多个独立的操作部件，指令级并行度小于1。
超标量处理机典型结构：多条并行工作的指令流水线，多个独立的操作部件，指令级并行度（ILP）大于1。

5.3.2 单发射与多发射

1 单发射处理机

2 多发射处理机

3 超标量处理机

有两条或两条以上能同时工作的指令流水线
先行指令窗口：能够从指令Cache中预取多条指令，能够对窗口内的指令进行数据相关性分析和功能部件冲突检测
操作部件的个数一般多于每个周期发射的指令条数。通常为4 个至16个操作部件
超标量处理机的指令级并行度：1＜ILP＜m

5.3.3 多流水线调度

顺序发射(in-order issue)与乱序发射(out-order issue)：指令发射顺序是按照程序中指令排列顺序进行的称为顺序发射
顺序完成(in-order completion)与乱序完成(out-order completion)：
指令完成顺序是按照程序中指令排列顺序进行的称为顺序完成

多流水线调度的三种方式：

顺序发射顺序完成
顺序发射乱序完成
乱序发射乱序完成

5.3.4 资源冲突

这个相差指的是指令序号相差，如果采用部件操作流水线结构，使用同一操作的部件需要再下个周期被发射，因此序号相差应为m及m以上。

在超标量处理机中，操作部件一般要采用流水线结构
如果由于某种原因，操作部件不能采用流水线结构，则必须设置多个相同种类的操作部件
普通标量处理机，希望相同操作连续出现，只有连续出现相同操作的指令序列时，流水线的效率才能得到充分发挥
超标量处理机则正好相反，希望相同操作不要连续出现，相同操作的指令序列连续出现时，会发生资源冲突；要求相同操作的指令能够相对均匀地分布在程序中

5.3.5 超标量处理机性能

5.4 超流水线处理机

5.4.1 指令执行时序

每隔 1/n 个时钟周期发射一条指令，处理机的流水线周期为1/n个时钟周期。

5.4.3 超流水线处理机性能

5.5 超标量超流水线处理机

一个时钟周期发射m次，每次发射n条指令

5.5.1 指令执行时序

5.5.3 超标量超流水处理机性能

5.7.4 三种标量处理机的性能比较

目前，一般认为，m 和 n 都不要超过 4
一个特定程序由于受到本身的数据相关和控制相关的限制，它的指令级并行度的最大值是有限的，是有个确定的值

计算机体系结构标量处理机相关推荐

cpi 计算机体系结构转移指令,计算机体系结构题目.ppt
<计算机体系结构题目.ppt>由会员分享,可在线阅读,更多相关<计算机体系结构题目.ppt(26页珍藏版)>请在人人文库网上搜索. 1.计算机系统结构(2010年春)-基本概念 ...
计算机体系结构——名词解释
计算机体系结构--名词解释文章目录计算机体系结构--名词解释一.第一章 1.计算机系统结构,计算机组成,计算机实现 2.计算机系统结构分类法 ①Flynn分类法 ②冯氏分类法 ③Handler分 ...
【计算机体系结构】计算机体系结构(1) 计算机系统结构的设计基础
文章目录 1.1 计算机系统结构的基本概念 1.1.1 计算机系统的层次结构 1.1.2 计算机系统结构 1.1.3 计算机组成与实现 1.1.4 计算机系统结构的分类 1. `Flynn` 分类法 ...
【体系结构】山东大学计算机体系结构知识点清单
涵盖所有考点,复习绝对高效,点赞+留邮箱获取pdf版本计算机体系结构复习提纲第一章基本概念 1. 计算机系统的层次结构语言实现的两种基本技术: 翻译:先把 N+1 级程序全部转换成 N 级程序 ...
[笔记]计算机体系结构-预习笔记
前言本文为预习计算机体系结构这门课时的一些笔记,,仅列出老师画出的重点以及我所不知道的一些内容(教材是计算机系统结构,西电) 第一章计算机系统结构基础及并行性的开发计算机系统中的多层次结构: ...
计算机体系结构（复习资料）
第一章:计算机体系结构的基本概念 1.存储程序计算机(冯诺依曼):4部分运算器(用于完成数值运算) 存储器(用于存储程序和数据) 输入输出设备(用于完成计算机与外部信息交互) 控制器(根据程序形成控 ...
计算机体系结构期末复习
计算机体系结构期末复习文章目录计算机体系结构期末复习 5 流水线技术 5.1 知识点 5.2 大题 (完) 5 流水线技术 5.1 知识点计算机体系结构在向着多核并行的趋势发展,包括数据级并行( ...
【计算机体系结构】计算机体系结构(6) 并行处理技术(1) SIMD并行计算机、算法和互联网络
文章目录 6.1 并行处理技术的基本概念 6.2 `SIMD` 并行计算机(阵列处理机) 6.2.1 阵列机的基本结构 1. 分布式存储器的阵列机 2. 共享存储器的阵列机 6.2.2 阵列机的主要特 ...
计算机体系结构-备考总结
文章目录划重点: 第一大题为概念题第二大题简答题三计算具体章节 1. 第一章计算机系统结构基础及并行性的开发 1.1计算机系统的定量原理 1.3 计算机系统的评价标准 1.4 计算机系统的发 ...

计算机体系结构 标量处理机