Explorations in Computer Science
& Beyond

Welcome to my personal corner of the web. I share my notes on computer organization, deep dives into modern tech, and general research.

计算机组成原理 105：中央处理器（CPU）

Jun 9, 2026

101 给了你一个取指-译码-执行的循环，却跳过了两件事：那些寄存器之间的搬运，控制信号到底是谁发的；以及这个循环一条接一条，怎么才能跑快。这一章把 CPU 这个盒子打开——从数据通路、控制器，一路到流水线和多核。

Computer OrganizationCPUStudy

101 在结尾给了我们一个循环：

取指（Fetch）→ 译码（Decode）→ 执行（Execute）→ 取下一条 → ...

这句话很顺，但它其实把 CPU 里最精彩、也最容易糊的部分全压扁了。

比如 101 里写过：

PC → MAR
主存 → MDR
MDR → IR
ACC + X → ACC

看起来只是几行箭头，但真到硬件里，每一行都会变成一堆非常具体的问题：

PC → MAR 到底是谁把 PC 放上总线？谁允许 MAR 收下？
ALU 做加法要两个输入，可 CPU 内部如果只有一条总线，同一拍只能送一个数，另一个数放哪？
ALU 是组合逻辑，输入一变它就一直在算。那结果寄存器是不是也一直在“吃”？
书上说的指令周期、机器周期、节拍，到底是在干嘛？为什么不就一个时钟一路往下走？

这一章就是来把这些“箭头背后的东西”拆开。风格还是 101 那套：先看我们撞上了什么问题，再看 CPU 为什么长成现在这样。 顺序是这样：

里面有什么（5.1）——先看清 CPU 由哪些部件、哪些寄存器组成。
谁在指挥（5.2）——把"控制器发信号"这句话拆到一个个时钟节拍上。
出意外怎么办（5.3）——循环假设一切顺利，可除零、缺页、键盘敲击随时会来。
怎么跑快（5.4）——流水线，这一章的重头戏。
一个核不够用（5.5）——多核与多处理器。

5.1 打开盒子：CPU 里到底有什么

101 给 CPU 下过一个定义：控制器 + 运算器。这句话没错，但它漏了一个东西。

运算器要算 A + B，A 和 B 得先送到 ALU 的两个输入端，算完的结果还得送出去。这些数据靠什么在 CPU 内部跑来跑去？ 靠内部总线和一堆导线。可"控制器 + 运算器"这个切法里，根本没有总线的位置。

所以工程上更常用、也更诚实的切法是另一种：

数据通路（Datapath）：指令执行时，数据真正流经的那条路径，以及路径上的所有部件——ALU、寄存器组、多路选择器、内总线都算。它是指令的执行部件：负责"真的把活干了"。
控制器（Control Unit）：对指令译码，生成控制信号，指挥数据通路的每一个动作。它是指令的控制部件：自己不搬数据、不做运算，只负责"指挥谁在什么时候动"。

CPU 的两种切法：左侧执行部件（数据通路：通用寄存器、ALU、总线控制逻辑），右侧控制部件（控制器：时序信号产生、指令译码器、指令寄存器），通过内总线连接到地址/控制/数据总线

记住这条分界线：数据从哪来、经过谁、到哪去，是数据通路的事；什么时候让它动、往哪走，是控制器的事。

可以把 CPU 想成一个很小的舞台：寄存器、ALU、总线都是演员和道具；控制器是导演。演员不会自己决定“现在该我上场了”，导演也不会亲自去搬箱子。导演只发信号：谁把数据送出来，谁收进去，ALU 现在做加法还是减法。

后面整整两节（5.1 讲数据通路里有什么，5.2 讲控制器怎么发号施令）都在这条线两边展开。

数据通路里的两类零件

数据通路里的部件，按"记不记得住事"可以分成截然不同的两类。这个区分后面讲流水线时还会用到，先记牢。

第一类：组合逻辑元件（操作元件）。 它的输出只取决于当前的输入——你给它什么，它立刻算出结果，不看时钟、也不记得上一拍发生过什么。输入变了，输出马上跟着变。常见的有：

ALU：算术逻辑运算的核心，加减与或都靠它。
译码器（Decoder）：把 n 位输入翻译成 $2^n$ 种输出中的一种——n 位有 $2^n$ 种组合，所以有 $2^n$ 条输出线，但每次只有一条被使能。操作码译码、地址译码都用它。
多路选择器（MUX）：好几个输入，输出等于其中某一个，靠一根 Select 控制信号决定"放哪个进来"。
三态门：一个由 EN 信号控制的开关。EN = 1 时门打开，输出 = 输入；EN = 0 时输出端呈高阻态，相当于这根线被断开了。总线上挂着一堆部件却不打架，全靠三态门轮流上线。

数据通路中的组合逻辑元件示意：ALU、译码器（n 位输入对应 2 的 n 次方个输出，每次只使能一个）、多路选择器（Select 选择输入）、三态门（EN 控制通断）

第二类：时序逻辑元件（状态元件）。 它的输出不只看当前输入，还看以前发生过什么——因为它有状态、能存东西。而且它必须踩着时钟节拍工作：不到下一个时钟沿，它就老老实实保持原值不变。

各种寄存器和存储器都属于这一类：通用寄存器组、程序计数器（PC）、状态寄存器、移位/暂存/锁存寄存器……它们是数据通路里"能把值停住"的地方。

一句话对照：组合逻辑元件负责"算"，时序逻辑元件负责"记"。 ALU 算完一个加法，结果必须落进某个寄存器（时序元件）停住，否则下一拍输入一变，这个结果就没了。101 里 ACC + X → ACC 那一步，左边的"算"是 ALU 干的，右边的"落进 ACC"是寄存器干的——现在你知道这是两类不同的零件在配合。

控制器在这套零件里干嘛

数据通路是一堆"算"和"记"的零件，它们自己不会动。谁来决定第 3 拍打开哪个三态门、让 ALU 做加法还是减法、把结果写进哪个寄存器？ 控制器。

把 101 那个循环落到部件上，控制器干的就是这四件事，循环往复：

取指令：指挥 PC 送出当前指令地址，从存储器取出指令，送进指令寄存器（IR）。
分析指令：对 IR 里的指令译码，搞清楚它要做什么操作（加法？跳转？）、用什么寻址方式、要哪些操作数。
执行指令：按正确的时序发出一串控制信号，打开/关闭特定的数据通路、选择 ALU 的运算、决定写不写寄存器或内存。
转向下条：更新 PC，准备取下一条，开始新一轮。

控制器具体怎么把这四件事拆成一个个时钟节拍的信号，是 5.2 的主题。这一节我们先把数据通路里的零件——尤其是那一堆寄存器——认全。光看抽象的"数据通路 + 控制器"还是悬空的，我们需要一个真实的、小到能整个装进脑子的 CPU 来把它坐实。

用 8086 把它坐实

这个 CPU 就是 8086。

它是 Intel 第一款真正的 16 位处理器，也是现代 x86 家族的起点。选它不是因为它先进，恰恰相反——它够老、够小、够简单，寄存器数得过来，结构画得下，而且考试里能遇到的绝大多数问题，靠它都能讲明白。

它的结构

8086 CPU 内部结构：左侧通用寄存器 AX–DI、段寄存器 CS/DS/SS/ES、IP，中间 T 暂存器、CU、IR、ALU、Flags、指令队列，全部挂在 Internal Bus 上，MAR/MDR 连向 External Bus

照着 5.1 开头那条分界线看这张图，它正好分成两半：

数据通路这边：一组寄存器、ALU、T 暂存器、Flags，还有把它们串起来的指令队列和内总线（Internal Bus）。
控制器这边：指令译码器、时序控制单元、标志控制逻辑、微指令控制逻辑。

MAR、MDR 站在内总线和**外总线（External Bus）**的交界处，是 CPU 伸向外部存储器的两只手——这跟 101 里讲主存接口时说的完全一致。

下面我们顺着"数据通路里有哪些寄存器"这条线，把 8086 的寄存器一类一类过一遍。这是本节信息量最大的地方，也是考试最爱抠的地方。

寄存器：CPU 里离 ALU 最近的存储

8086 的寄存器按功能分五大类，外加几个特殊的。先上一张全景图，再逐类拆。

8086 寄存器全景：通用寄存器 AX/BX/CX/DX（各分高低字节 AH/AL 等）、段寄存器 CS/DS/ES/SS、指针寄存器 SP/BP/IP、变址寄存器 SI/DI、标志寄存器 FLAGS

通用寄存器——啥都能存，地址或数据都行。四个，名字带着各自的"出身":

AX（Accumulator，累加器）：算术逻辑运算的默认主角，101 里的 ACC 就是它。
BX（Base，基址寄存器）：常用来存内存地址。
CX（Counter，计数寄存器）：循环计数、移位次数的专用计数器。
DX（Data，数据寄存器）：输入/输出、以及大整数运算的搭档。

段寄存器——存的是"某一段内存的起始地址"。为什么需要它？因为一个程序在内存里不是一坨，而是分段摆放的，每段干不同的事：

CS（Code Segment）指向代码段（.text）的开头——指令住这儿。
DS（Data Segment）指向数据段（.data）的开头——全局数据住这儿。
SS（Stack Segment）指向栈段的开头——函数调用的现场住这儿。
ES（Extra Segment）指向附加段，留点灵活性给程序员。

8086 程序的内存分段逻辑结构：代码段、数据段、栈段、额外段，分别由 CS/DS/SS/ES 指向各自起始地址

逻辑上，一个程序跑起来需要四个段：代码段（放编译后的指令）、数据段（放全局数据）、栈段（函数嵌套调用的现场）、额外段（机动用）。每个段寄存器认领一个段，指向它的起始地址。这套"分段"的思路，101 讲存储程序时埋了个头——指令和数据都在内存里，但总得有个办法把"哪段是代码、哪段是数据"框出来，段寄存器就是干这个的。

指针寄存器——光知道一个段从哪开始还不够。栈段里函数一层套一层，代码段里指令一条接一条，段内的"当前位置"得有人盯着。指针寄存器就盯这个：

SP（Stack Pointer，栈指针）：指向当前栈的顶。
BP（Base Pointer，栈基址）：指向当前栈帧的底。
IP（Instruction Pointer，指令指针）：当前指令在代码段内的偏移——它就是 8086 里的"程序计数器 PC"。

栈这块值得停一下，因为它直接对应你写过的每一次函数调用。函数执行时要保存的东西（返回地址、局部变量）天然是后进先出的，所以用栈。8086 的栈从高地址向低地址生长，嵌套调用的函数栈帧一层层往下堆。比如在 main() 里调用 f(g(h(1)))：

高地址  ┌─────────────┐
        │  main 的栈帧 │
        ├─────────────┤
        │   f 的栈帧   │
        ├─────────────┤
        │   g 的栈帧   │
        ├─────────────┤  ← BP 指向最后那个栈帧的底
        │   h 的栈帧   │
低地址  └─────────────┘  ← SP 指向最后那个栈帧的顶

BP 和 SP 一上一下，正好把最后一个（最内层）栈帧框住：从哪开始、到哪结束。函数返回时，弹掉这一帧，BP/SP 再退回上一层。

IP 则盯着代码段。指令在 .text 段里从低地址往高地址排，所以取完一条指令后，控制器会把 IP = IP + 指令长度，让它指向下一条——这正是 101 里"PC 自增"那一步的真身。

变址寄存器——专门为"遍历"而生，方便你对数组、字符串里的第 i 个元素下手。8086 有两个：SI（源变址）和 DI（目的变址）。看两段汇编就懂了。

数组遍历（对前 5 个元素逐个处理，注意循环次数存在 CX 里，每执行一次 LOOP 它自动减一）：

MOV DS, addr          ; 数组起始地址放进 DS
MOV CX, 5             ; CX = 循环计数器，数组有 5 个元素
MOV SI, 0             ; SI = 索引，从 0 开始

NEXT_ELEMENT:
    MOV AX, [SI]      ; 取当前元素到 AX
    ; ……对 AX 里的数据做处理……
    ADD SI, 2         ; 移到下一个元素（每个 2 字节）
    LOOP NEXT_ELEMENT ; CX 自减，不为 0 就继续

字符串复制（把源串前 length 个字节搬到目的串，SI 指源、DI 指目的）：

MOV SI, OFFSET source ; SI 指向源串
MOV DI, OFFSET dest   ; DI 指向目的串
CLD                   ; 清方向标志，确保从低地址往高地址搬
MOV CX, length        ; CX = 串长
REP MOVSB             ; 重复 CX 次：把 DS:SI 的字节搬到 ES:DI

注意 REP MOVSB 一条指令就干完了整段循环——它隐含地用 SI、DI 当源/目的指针，用 CX 当次数。这就是变址寄存器的价值：把"遍历"做成了寄存器自动推进的事。

标志寄存器（FLAGS）——它不存数据，存的是运算完之后的状态。这些状态紧接着会被控制器拿去用，决定下一步要不要跳转。8086 的 FLAGS 是 16 位，其中 9 位有意义，7 位空着。

8086 标志寄存器 16 位布局：条件标志 OF/SF/ZF/AF/PF/CF 与控制标志 IF/TF/DF 分布在 16 位中，其余位保留

这 9 位分两拨。第一拨是条件标志（conditional flags），运算指令、比较指令（CMP）一执行，硬件就自动把它们设好，不用你手动管：

OF（Overflow，溢出）：有符号数运算结果超出了能表示的范围，置 1。
CF（Carry，进位）：无符号数运算溢出了寄存器位数，置 1。加法时是进位，减法时是借位。
SF（Sign，符号）：结果是负数（符号位为 1），置 1。
ZF（Zero，零）：结果为 0，置 1。
AF（Auxiliary Carry，辅助进位）：低 4 位向高位的进位，主要给 BCD 运算用。
PF（Parity，奇偶）：结果里 1 的个数是偶数置 1，奇数置 0。

这些标志的用处，是喂给条件跳转指令：跳转指令查一眼相关标志位，决定要不要把 PC 改到目标地址，程序的分支就是这么拐弯的。

下面两个点最容易被考、也最容易被搞混，单独拎出来。

CF 和 OF 到底差在哪？

| 标志 | 含义 | 服务于 | 何时置 1 | |:--|:--|:--|:--| | CF | 进位标志 | 无符号数运算 | 加法进位、减法借位 | | OF | 溢出标志 | 有符号数运算 | 结果超出有符号数范围（如 +127 + 1 变成 -128） |

关键认知：上面这套"无符号看 CF、有符号看 OF"只是逻辑上的解读。硬件加法器根本不区分你这串比特是有符号还是无符号——底层全是补码 + 加法器那一套电路。CF 和 OF 是电路从结果的某几位组合出来的，然后我们才赋予它"进位/溢出"的含义。

OF 这一位具体是怎么算出来的？

对两个 n 位补码整数 $A$ 、 $B$ 相加得 $C$ ，盯它们的符号位（最高位，第 $n-1$ 位）：

| 情况 | 结果 | |:--|:--| | 异号相加（一正一负） | 永远不会溢出 | | 同号相加，结果符号不变 | 无溢出 | | 正 + 正，结果却变成负 | 溢出 | | 负 + 负，结果却变成正 | 溢出 |

所以判据一句话：两个操作数同号，结果却跟它俩不同号，就溢出了。 写成布尔表达式（ $A_{n-1},B_{n-1},C_{n-1}$ 是三者的符号位）：
$\text{OF} = A_{n-1}\,B_{n-1}\,\overline{C_{n-1}} + \overline{A_{n-1}}\,\overline{B_{n-1}}\,C_{n-1}$
减法 $A - B$ 怎么办？转成加法 $A + (-B)$ ，再套上面这套符号位判据即可。

第二拨是控制标志（control flags），它们不会被普通运算指令自动改，得靠专门的指令去设/清。了解即可：

IF（Interrupt，中断允许）：IF = 1 时 CPU 才响应可屏蔽中断，IF = 0 时把它们全挡在门外。这一位在 5.3 讲中断时会再出现。
TF（Trap，单步）：TF = 1 时每执行一条指令就触发一次单步中断，调试器逐条调试就靠它。
DF（Direction，方向）：管字符串操作往高地址走还是往低地址走（上面那段 CLD 清的就是它）。

特殊寄存器——还有几个不属于上面五类，但绕不开。

先说 T 暂存器。它的存在理由特别能体现 101 那个思路：不是教材想多加一个名词，而是硬件限制逼出来的。

ALU 一次运算要两个操作数。可如果 CPU 内部是单总线结构，同一时刻公共总线上只能有一个部件往外送数据。否则两个寄存器一起“喊话”，总线上电平就打架了。

那执行 R0 + R1 怎么办？不能让 R0 和 R1 同时上总线，只能分拍：

| 时钟 | 微操作 | 为什么这样做 | |:--|:--|:--| | T1 | R0out, Tin | 先把第一个数放上总线，存进暂存器 T | | T2 | R1out, Add, Zin | 第二个数上总线，ALU 同时看到 T 和总线，结果进 Z | | T3 | Zout, R0in | 结果再从 Z 写回 R0 |

这里有两个容易卡住的点。

第一，为什么没有 Tout？因为 T 到 ALU 通常不是走公共总线，而是专线直连。T 像 ALU 旁边的一个小托盘，第一个数放进去以后，它一直把这个数摆在 ALU 的一个输入端。第二个数才需要通过公共总线送到 ALU 的另一个输入端。所以 T2 这一拍只需要 R1out，不需要 Tout。

第二，ALU 是组合逻辑，确实会一直算。只要 T 和总线的输入一变，ALU 输出就跟着变，前半拍甚至可能因为电路延迟出现毛刺。那 Z 为什么不会把垃圾结果吃进去？因为 Z 是寄存器，属于时序逻辑。它不是“随时吃”，而是等到这一拍末尾的时钟沿，并且 Zin 有效时，才像按快门一样把稳定结果锁住。

所以这套配合可以一句话记住：ALU 负责一直算，暂存器负责卡点记。 单总线下，T/Y 负责先存一个输入，Z 负责把 ALU 的输出稳定地接住。

再说 IR（指令寄存器）：CPU 从内存或指令队列取出一条指令，先扔进 IR 停着，供译码和执行用。控制单元译的就是 IR 里这条。

最后一个常考的小问题：哪些寄存器对汇编程序员可见？ 写过 8086 汇编的人知道，可见 = 你能用指令直接点名操作。可见的有：通用寄存器、段寄存器、标志寄存器、指令指针 IP。反过来记更省事——不可见的只有三个：MAR、MDR、IR。它们是 CPU 取指访存的内部草稿纸，你的程序碰不到。

引脚：CPU 怎么跟外面通电

寄存器是 CPU 的"内务"，可它终究要跟外面打交道——读内存、连外设、接收中断、对时。这些都通过引脚（Pin） 走：它是 CPU 和主板之间的电气接口，负责数据传输、地址定位、中断控制、时序控制。

这一节以了解为主，考试一般不直接考引脚，但它能帮你把"CPU 怎么和外部世界交互"想具体。

Intel 8086 双列直插 40 引脚图：左右两列共 40 个引脚，含 AD0–AD15 地址/数据复用、A16/S3–A19/S6、NMI/INTR/RESET、RD/WR/ALE/READY/HOLD/HLDA 等

8086 是 16 位机，数据总线 16 位；它能寻址 1 MB 空间，所以地址总线 20 位。但芯片一共就 40 个引脚，不够分——于是 8086 玩了个"复用"：

| 引脚 | 方向 | 干嘛 | |:--|:--|:--| | AD0–AD15 | 双向 | 地址/数据复用：发地址时走 A0–A15，传数据时走 D0–D15 | | A16/S3–A19/S6 | 输出 | 高位地址线和状态线复用 |

同一组 AD0–AD15，这一拍当地址用、下一拍当数据用，靠时序区分。为了让外部电路别认错，8086 用一根 ALE（地址锁存使能）信号配合外部锁存器，在"现在是地址"的那一刻把地址锁存下来。

为了让外设能打断 CPU、以及能复位 CPU，有这几根：

| 引脚 | 方向 | 干嘛 | |:--|:--|:--| | NMI | 输入 | 不可屏蔽中断，紧急、必须立刻响应 | | INTR | 输入 | 可屏蔽中断请求 | | RESET | 输入 | 复位，把 CPU 状态初始化 | | INTA# | 输出 | 中断响应，告诉外设"我开始处理你的中断了" |

还有一组控制信号，是 CPU 对外设发号施令用的：

| 引脚 | 方向 | 干嘛 | |:--|:--|:--| | RD# / WR# | 输出 | 读 / 写信号（低电平有效），对内存或 I/O 读写 | | ALE | 输出 | 地址锁存使能，标志"现在 AD 上是地址" | | DT/R | 输出 | 数据方向：读 = 0，写 = 1 | | READY | 输入 | 外设就绪信号，没就绪 CPU 就等 | | HOLD / HLDA | 输入/输出 | 外设请求总线控制权 / CPU 应答交权 |

最后两组里藏着两个之后会反复用到的机制。READY 是给慢速外设留的台阶：设备处理不过来时把 READY 拉低，CPU 就暂停、干等它准备好，避免数据出错。HOLD/HLDA 是一对总线"借/还"信号，它让外设能绕过 CPU 直接访问内存——这就是 101 末尾提过的 DMA，到 6.x 讲 I/O 方式时会展开。

到这里，CPU 这个盒子里"有什么"算是看清了：一条数据通路（ALU + 一堆寄存器 + 内总线）、一个还没拆开的控制器、几只伸向外部的引脚。下一节，我们把控制器拆开。

5.2 谁在发号施令：控制器

现在来还第一笔账。

101 那条 ADD 指令，从 PC → MAR 一路走到 ACC + X → ACC，每一步都是"某个寄存器的内容被送到另一个寄存器"或"ALU 被触发"。当时我们说，这些动作"由控制器按正确顺序发出控制信号"完成。可控制器凭什么知道顺序？信号长什么样？它自己又是怎么造出来的？ 这一节全答。

控制器是整个系统的指挥中心，它的活儿归纳起来是三样：

指令解码：CPU 取出一条指令后，控制器把它译开，搞清楚要做什么操作、碰哪些操作数。
生成控制信号：基于译码结果，发出一串信号，驱动 ALU、寄存器、存储器按预期动作。
时序控制：让这些信号在正确的先后顺序、正确的节拍上发出，谁先谁后绝不能乱。

换个特别糙的说法：控制器就是 CPU 的"大脑"。输入是一条机器指令；输出是几乎每个时钟"嘀嗒"都要发出的一批微命令——"让寄存器 A 把数据送出去""让 ALU 做加法"这种最小颗粒的命令。

但这里千万别把“大脑”想得太玄。控制器做的事更像一个排练表：

第 1 拍：PCout, MARin
第 2 拍：MemR, MDRin
第 3 拍：MDRout, IRin
...

每一拍哪些信号亮，哪些信号不亮，CPU 就按这个节奏走。后面所谓硬布线、微程序，本质都在回答同一个问题：这张排练表到底是焊在电路里，还是写在一块小 ROM 里？

按"控制信号是怎么产生的"，控制器分硬布线和微程序两种造法（本节最后讲）。先看它由哪些部件组成。

组成：三个配合的部件

控制器组成与数据通路的配合：左侧运算器（ALU、通用寄存器组、MDR、PSW），右侧控制器（指令译码器、时序发生器/操作控制器、OP码与地址码），通过数据总线 DBUS 与指令总线 IBUS 连接主存中的数据与指令

从功能倒推，控制器可以拆成三个部件：

指令控制器：负责取指、译码，并算出下一条指令的地址。
时序控制器：产生各种时序信号，掌控指令执行的节奏，让各部件步调一致。
控制信号发生器：根据译码结果，在每个时钟周期产出具体的控制信号。

逐个看。

指令控制器 干的事，正是 101 取指阶段那几步的硬件落地：由 CS:IP 给出当前指令地址（CS 标出代码段开头，IP 标出段内偏移）→ 从内存读出指令、放进 IR → 改 IP 指向下一条。

时序控制器 是给整台机器打拍子的。它解决的不是“做什么”，而是“什么时候做”。

先别急着背指令周期、机器周期、时钟周期。直接从最朴素的问题开始：

执行 MOV R1, [addr]（把内存 addr 处的数据搬进 R1）时，CPU 内部至少要做三件事：

addr → MAR              ; ① 把地址送进 MAR
M[MAR] → MDR            ; ② 存储器按 MAR 取数，放进 MDR
MDR → R1                ; ③ 把 MDR 的数据经内总线送进 R1

这三步绝不能乱：地址还没进 MAR，主存不知道该读哪；数据还没进 MDR，R1 也没东西可收。

所以 CPU 需要一个“节拍器”，把连续的时间切成一格一格：

T1：addr → MAR
T2：M[MAR] → MDR
T3：MDR → R1

这里的 T1/T2/T3 就是节拍，也就是最小的小步。你可以先把它理解成“每个小步开始干一组不会冲突的微操作”。

时序层次：晶振产生的脉冲定义时钟周期；若干时钟周期组成一个 CPU 周期（取指周期、执行周期）；取指与执行两个 CPU 周期组成一个指令周期

书上会把时间分成三层，从大到小是：

\text{指令周期} \supset \text{CPU 周期（机器周期）} \supset \text{时钟周期/节拍}

这三个词可以这样理解：

为什么中间还要有“机器周期”这一层？因为很多教材和早期 CPU 会按访存动作来切大阶段。访问一次主存很慢，工程师干脆以“完成一次主存访问需要的时间”为标杆，把取指、取数、写回这种大动作切成一个个机器周期。纯内部的 ALU 运算很快，但为了跟这套节奏配合，也常常被放进某个机器周期里。

这就产生了两种控制策略：

定长机器周期：每个大阶段都给一样多的小节拍。简单，但浪费。简单操作做完了也得等。
不定长机器周期：不同大阶段给不同数量的小节拍。复杂，但更省时间。比如纯寄存器加法不必硬等一个完整访存周期。

更细一点，教材还会区分节拍电位和节拍脉冲。这个也不用玄学化：

节拍电位：持续一小段时间，负责“开路”。比如这一拍让 R1out 打开，数据有时间在总线上稳定下来。
节拍脉冲：通常出现在末尾的尖峰，负责“写入”。比如数据稳定后，给 Zin 一个写入沿，让寄存器把值锁住。

这正好对应 5.1 里 ALU 和 Z 的关系：ALU 可以在一拍中一直算，但寄存器只在卡点那一下记。

时序控制器内部通常由晶振/脉冲源、节拍发生器和机器周期发生器配合完成。晶振给出稳定时钟；节拍发生器数出 T1/T2/T3...；机器周期发生器决定现在处在取指、取数、执行还是中断响应这种大阶段。

控制信号发生器 接过译码结果，在每个时钟周期产出控制信号。信号分两去向：发给 CPU 内部部件的（走内总线），和发给系统其他设备的（走系统控制总线，协调 CPU 与外设）。

控制信号长什么样

控制信号是发生器吐出的电信号，指挥着 CPU 内的每个动作——让 ALU 做加法还是减法、让某个寄存器读还是写。种类很多，但现阶段会考的可以归成三类：

内存读写：对内存或 I/O 读写。如 MemR、MemW 分别是读、写内存。
寄存器选择：选哪个寄存器读写。如 Rin、Rout 分别是写入、送出某寄存器。
ALU 操作码：选 ALU 干哪种运算。如 ALUop = Add 让 ALU 做加法。

一条小数据通路上的控制信号：PC、MAR、MDR、寄存器、ALU 之间的传送，每条通路上标注 PCout/MARin/MemR/MDRin 等控制信号，由控制信号发生器在各时钟周期发出

你已经能感觉到，这些信号大多是成对的：一个 Xout（把 X 的值送上总线）配一个 Yin（让 Y 从总线收下）。一次"把 X 搬到 Y"的传送，本质就是同一拍里 Xout 和 Yin 一起有效。

单总线里有一条铁律：

同一拍里只能有一个 out 有效，但可以有多个 in 有效。

只能一个 out，是因为公共总线同一时刻只能被一个部件驱动；可以多个 in，是因为同一份数据可以同时被好几个寄存器收下。

所以 PCout, MARin, Yin 这种“一个人说，几个人听”可以；PCout, MDRout 这种“两个人同时往总线上说”不行。

先学会"写下来"：寄存器传送语言（RTL）

在把信号铺到具体指令上之前，得先有个记法，把"哪个寄存器的值搬到哪个寄存器"清清楚楚写下来。这套记法叫寄存器传送语言（Register Transfer Language, RTL）。它有好几种写法，考试用的是教学里最常见的伪代码版。

常见符号就这么几个：

| 符号 | 含义 | |:--|:--| | R1, R2, … | 通用寄存器 | | PC | 程序计数器 | | IR | 指令寄存器 | | MAR | 内存地址寄存器 | | MDR | 内存数据寄存器 | | M[x] | 内存中地址为 x 的单元 | | ← | 传送：右边送到左边 | | , | 并行：同一时钟周期内同时发生 | | if | 条件执行 |

四条语法规则，配合例子记：

赋值用 ←，别跟编程语言的 = 混了。右边是源，左边是目标：

R1 ← R2 + R3        // 把 R2 + R3 的结果写入 R1

（有的教材把源寄存器的读取用括号括起来写成 R2 ← (R1)，跟 R2 ← R1 一个意思，看题目约定。）

逗号 = 同一拍并行：

PC ← PC + 4, MAR ← PC   // 一个时钟周期内：PC 自增；同时把(自增前的)PC 送进 MAR

多行 = 顺序，每行占一个时钟周期：

MAR ← PC               // 第 1 拍
MDR ← M[MAR]           // 第 2 拍
IR ← MDR               // 第 3 拍

访存固定套路：地址走 MAR，数据走 MDR。

// 读内存：
MAR ← PC
MDR ← M(MAR)

// 写内存：
MAR ← R1, MDR ← R2
M(MAR) ← MDR

把信号落到一条真实指令：`ADD R0, (R1)`

工具齐了，现在做 101 没做完的事——给那条 ADD 指令配上每一拍的控制信号。我们换一条稍微复杂点的：ADD R0, (R1)，意思是"把 R1 指向的内存单元里的数，加到 R0 上"。它会完整跑过取指、译码、执行、访存、写回。

取指与译码阶段

这一阶段做的事跟指令具体是什么无关——任何指令都得先被取出来、译开。

取指译码阶段的数据通路：PC→MAR→存储器→MDR→IR 的取指路径，以及 PC 经 MUX(+1)→ALU→T2→PC 的 PC 自增路径，每条边标注 C1–C7 对应的控制信号

PC 先给出当前指令地址，取出指令后顺手把 PC 加到下一条，最后译码。落到节拍上：

| 时钟 | 功能（RTL） | 控制信号 | 在干嘛 | |:--|:--|:--|:--| | C1 | MAR ← PC | PCout, MARin | 把指令地址从 PC 送进 MAR | | C2 | MDR ← M(MAR) | MemR, MDRin | 存储器按 MAR 取出指令，进 MDR | | C3 | IR ← MDR | MDRout, IRin | 指令送进 IR，准备译码 | | C4 | MUXop ← PCIncr | PCIncr | 多路选择器选出常数 1，送到 ALU 一端 | | C5 | T2 ← PC + 1 | PCout, T2in, Add | ALU 算出下一条指令地址 | | C6 | PC ← T2 | T2out, PCin | 把新地址写回 PC | | C7 | 指令译码 | （无） | 由指令译码器件完成 |

对着图把 C1–C3 走一遍，你会发现它跟 101 里 PC → MAR、主存 → MDR、MDR → IR 一模一样——只是现在每一步右边都钉上了具体信号（PCout + MARin 这种成对的"送出/收下"）。C4–C6 是把"PC 自增"也用 ALU 实打实算了一遍（借 T2 暂存器中转）。

执行、访存与写回阶段

译码知道了这是 ADD R0, (R1)，接下来才是这条指令特有的动作。注意 C7 在这里复用——译码完就接着执行。

执行/访存/写回阶段数据通路：R1→MAR 取出操作数地址，M(MAR)→MDR 取数，R0→T1 暂存，ALU 做 MDR+T1→T2，最后 T2→R0 写回，各步标注 C7–C11 控制信号

| 时钟 | 功能（RTL） | 控制信号 | 在干嘛 | |:--|:--|:--|:--| | C7 | MAR ← R1 | R1out, MARin | R1 里是操作数地址，送进 MAR | | C8 | MDR ← M(MAR) | MemR, MDRin | 取出那个操作数，进 MDR | | C9 | T1 ← R0 | R0out, T1in | 把 R0（加数）暂存到 T1 | | C10 | T2 ← MDR + T1 | MDRout, MUXop, Add, T2in | ALU 把两个操作数相加，结果进 T2 | | C11 | R0 ← T2 | T2out, R0in | 把和写回 R0 |

看 C9：为什么 R0 要先绕去 T1？正是 5.1 里那个单总线的毛病——ALU 要两个输入，但总线一次只能送一个，所以先把 R0 存进暂存器 T1，下一拍再让 MDR 上总线，两者在 ALU 会合。一个"硬件受限 → 多一个暂存器 → 多一个节拍"的设计后果，在这里看得清清楚楚。

到这儿，101 欠的第一笔账还清了：所谓"控制器发控制信号"，落到实处就是这样一张表——每个时钟周期，发哪几个成对的 out/in 信号，外加一个 ALU 操作码。 控制器的全部工作，就是为每条指令生成并按拍发出这张表。

这张表是怎么造出来的：两种控制器

最后一个问题：上面那张"C1 发这些、C2 发那些"的信号表，控制器是怎么实现的？两种思路，正好是硬件派和软件派。

硬布线控制器：把表焊死在电路里

硬布线控制器（Hardwired Controller） 的做法简单粗暴：用逻辑门、触发器、译码器这些硬件，直接把控制逻辑用导线连出来。它本质是一个有限状态机（FSM），控制逻辑靠电路的实际布线固定下来。

硬布线控制器结构：输入为指令译码信号 I、节拍信号 T、状态反馈 B，经固定的组合逻辑门网络，直接生成微操作控制信号序列 C1…Cn，控制信号 Cn 由 I、M、T、B 的逻辑组合决定

它的逻辑可以概括成三段：

输入端：指令信息（经译码器转换）、时序信息（时钟脉冲产生的节拍）、来自执行部件的状态反馈（比如运算的标志位）。
核心：一大片预先设计好、连线固定的组合逻辑门网络（与、或、非门）。
输出端：当前输入的某种组合，经过这片固定网络，直接生成一串微操作控制信号。

说白了它就是个复杂的"查表器"，只不过这张"表"是用硬件电路焊死的——特定的输入组合一出现，对应的输出信号立刻产生。图里那个 $C_n = \sum (I_m \cdot M_i \cdot T_k \cdot B_j)$ 表达的就是这个意思：第 n 个控制信号，是"哪条指令、哪个机器周期、哪个节拍、哪些状态"这些条件的逻辑组合（与/或）的结果。

这里很容易误会：T1/T2/T3 不是指令译码器“翻译”出来的。更准确地说，CPU 里有三类角色：

时序发生器像鼓手，只负责盲目打拍子：T1, T2, T3...
指令译码器像导演，只负责看 IR：现在这条是 ADD 还是 LOAD
硬布线控制网络像舞者，听到“现在是 ADD，又正好是 T2”，就让对应控制线亮起来

所以某个控制信号常常长得像这样：

R1_{out} = ADD \cdot M_{EX} \cdot T_2

意思是：只有当前指令是 ADD、当前处在执行机器周期、当前又走到第 2 个节拍时，R1out 才有效。

指令很多时，状态机会分出很多路吗？

这里有个很自然的问题：如果 CPU 有 20 条机器指令，取指结束之后，状态机是不是要从某个状态分出 20 条路？

不会。状态机不会按“每条指令一条路”来修路，而是按指令类别来合流。

比如经典的多周期数据通路里，取指结束后常见的分流大概是这样：

也就是说，20 条指令最后可能只对应 4、5 条主干道。因为从“时间安排”的角度看，很多指令在某些阶段做的是同一类事情，可以共用同一段状态。

比如 lw 和 sw 是不同指令，一个读内存，一个写内存，但它们前面都有一个共同动作：先用 ALU 算有效地址。所以状态机不会给它俩各修一条路，而是让它们先共用“地址计算”这段路。等真正读/写内存时，再由译码信号决定是 MemR 还是 MemW。

那如果 add 和 sub 走的是同一段执行状态，CPU 怎么区分到底该加还是该减？答案还是那句话：状态机只负责粗粒度卡时间，控制矩阵负责细粒度抠动作。

同样走到执行周期第 1 拍，输出控制线可以长这样：

ALU_{add} = ADD \cdot M_{EX} \cdot T_1

ALU_{sub} = SUB \cdot M_{EX} \cdot T_1

add 和 sub 可以共享同一个时间状态，但因为 IR 译码出来的指令线不同，最后被点亮的 ALU 控制线也不同。

所以硬布线控制器的分工是：

状态机（路）：只按指令大类安排时间，所以路很少。
与或门矩阵（开关）：用“指令线 × 时间线 × 状态反馈”精确生成具体控制信号。

状态转换表：把圆圈图翻译成电路剧本

如果教材继续往下画，通常会把“状态圆圈跳转图”翻译成一张状态转换与输出表。这张表就是给电路看的剧本。

它一般有四类信息：

| 表格列 | 含义 | |:--|:--| | 现态 | 当前状态寄存器里存的是哪个状态，比如 S3 = 0011 | | 输入条件 | 指令译码信号、状态反馈、中断请求等 | | 次态 | 下一个时钟沿到来后要跳到哪个状态 | | 输出 | 当前状态下要拉高哪些 M、T 或控制线 |

关键看分叉状态。假设取指结束停在 S3，那表里可能写成这样：

| 现态 | 输入条件 | 次态 | 输出 | |:--|:--|:--|:--| | S3 | lw / sw / beq | S4 | M_IF = 1, T4 = 1 | | S3 | add / addi | S6 | M_IF = 1, T4 = 1 |

这就解释了“机器周期是不是在 IR 译码后分配”的问题：是的，至少在这种多周期硬布线模型里，取指完成后，IR 译码信号会参与决定状态机下一步去哪。 复杂访存类指令继续走地址计算状态，简单算术类指令直接跳过那段，进入执行状态。

还有一个常见细节：如果表格里“输出”只取决于现态，不取决于外部输入，那它就是 Moore 型状态机。比如只要现态是 S0，输出就固定是 M_IF = 1, T1 = 1；只要现态是 S3，输出就固定是 M_IF = 1, T4 = 1。输入信号只影响“下一步去哪”，不直接影响“当前输出什么”。

时序发生器真正怎么做成电路

把状态转换表落到硬件上，时序发生器通常就是三个东西首尾相接：

         ┌────────────┐
现态 ──► │  次态逻辑   │ ──► 次态
         └────────────┘       │
              ▲               ▼  时钟沿
              │          ┌────────────┐
              └──────────│ 状态寄存器 │
                         └────────────┘
                               │
                               ▼
                         ┌────────────┐
                         │ 输出函数   │ ──► M、T、控制信号
                         └────────────┘

三块分别干这三件事：

状态寄存器：记住“现在走到哪一步”。它由触发器组成，比如里面存着 0011，就代表当前是 S3。每来一个时钟沿，它就把门口的“次态”吞进去，更新成新的现态。
次态逻辑 / FSM：计算“下一步去哪”。它是纯组合逻辑，输入包括现态、IR 译码信号、状态反馈、中断请求等，输出是下一状态编码。
输出函数：根据当前现态产生 M_IF、T1、T2 这类时序信号，或者进一步参与生成各条控制线。

所以 CPU 的“时间”不是一个抽象概念，它真的可以做成这样一圈硬件闭环：

晶振脉冲
  → 状态寄存器更新
  → 次态逻辑算下一步
  → 输出函数点亮时序线
  → 控制信号驱动数据通路

指令执行完时，状态机还会通过清零/重置逻辑回到取指初态，比如从最后一个执行状态跳回 S0。这根“回到 S0”的线，本质上就是在告诉控制器：这一条指令结束，下一条指令重新开始取指。

它的脾气也就定了：

硬件实现：逻辑就在导线和焊点上。
功能固定：想改控制逻辑？基本得重新布线、换芯片。
快：信号是组合逻辑直接生成的，没有任何"查指令、跑软件"的额外开销，延迟只取决于门电路的传播时间。
设计复杂：逻辑一复杂，这片门网络就难设计、难验证。

微程序控制器：把表当成"程序"存起来

微程序控制器（Microprogrammed Controller） 是另一条路。它不把逻辑焊进电路，而是把控制逻辑当成程序，存进一块专门的存储器——控制存储器（Control Memory, CM）。

核心思想是"用程序控制程序的执行"：CPU 的每条机器指令，都被拆成一串更基本的微操作；这串微操作写成一段微程序，存在控制存储器里。要执行某条指令，就去把它对应的那段微程序"跑"一遍。

为什么要这么绕？因为硬布线有一个很现实的问题：指令一多，逻辑门会爆炸。

如果 CPU 只有几十条规整指令，硬布线很好：快、直接、干净。但如果 CPU 有几百上千条形态各异的复杂指令，有的 2 步，有的 10 步，有的还要根据状态拐弯，那么把所有控制逻辑都焊成门电路，设计和验证都会变得极其痛苦。

微程序的思路就是：惹不起复杂电路，那就把复杂性挪到一块小 ROM 里。ADD 对应一段微代码，LOAD 对应另一段微代码。想加一条复杂指令，不一定要重画整张门电路图，往控制存储器里加一段微程序就行。

这也顺便解释了后来两条路线的分歧：

CISC（复杂指令集）倾向于用微程序消化复杂指令，例如传统 x86 里大量复杂指令会被拆成内部微操作。
RISC（精简指令集）反过来砍掉复杂指令，让指令规整、步数接近，这样硬布线控制器又能重新发挥“快”的优势。

微程序控制器结构：IR 中的 OP 字段送入起始和转移地址形成部件，结合标志与 CLK 算出微指令地址送 μPC，μPC 寻址控制存储器读出微指令到 μIR，μIR 分微命令字段（输出控制信号）和下地址字段（送回地址形成部件）

对着图认部件：

指令寄存器 IR：存着取来的机器指令，里头有操作码（OP）。
起始和转移地址形成部件：这是大脑。它根据 OP 算出该指令对应微程序的起始地址；又根据当前微指令的"下地址"和外部标志，算出下一条微指令地址。
微程序计数器 μPC：存着上面算出来的微指令地址——它就是控制存储器里的"PC"。
控制存储器 CM：按 μPC 给的地址，读出对应的微指令。
微指令寄存器 μIR：存着当前正在执行的那条微指令。一条微指令分两段：微命令字段（直接控制 CPU 各部件——这就是控制器的最终输出）和下地址字段（指明下一条微指令在哪，送回地址形成部件）。

工作流程就是绕着这张图转圈：译码（OP 译出微程序起始地址）→ 取微指令（μPC 寻址 CM）→ 执行（μIR 的微命令字段发出控制信号）→ 循环（用下地址字段算出下一条微指令地址，回到 μPC），直到这条机器指令的微操作全跑完。

微指令里的微命令字段怎么编码

微指令里那个"微命令字段"，要表示"这一拍激活哪些微命令"。怎么把它编码，是个在灵活性、速度、微指令长度之间权衡的事，有三种经典方案。

直接编码（水平编码）：字段里每一位直接对应一个微命令，1 激活、0 不激活，不需要译码器，输出直接驱动控制线。

直接编码：微命令字段每一位对应一个微命令，例如 D7..D0 分别为 RA_load/RB_load/ALU_ADD/ALU_SUB/BUS_A/BUS_B 等，置 1 即激活

举个例子，假设有这些微命令，字段排成这样：

| 位 | D7 | D6 | D5 | D4 | D3 | D2 | D1 | D0 | |:--|:--|:--|:--|:--|:--|:--|:--|:--| | 含义 | RA_load | RB_load | ALU_ADD | ALU_SUB | BUS_A | BUS_B | … | … |

如果这个字段是 1 1 1 0 1 0 0 0，就表示同一拍里同时：给 RA 装载、给 RB 装载、ALU 做加法、选总线 A。特点：并行性高（一拍能激活多个不冲突的微命令）、最快（不经译码）；但字长长（要控制的微命令越多，位数线性膨胀，控制存储器吃不消）、设计复杂（每一位都要精确照顾）。

字段直接编码（垂直编码）：把微命令字段切成若干互斥的组。每组内部是一批互斥的微命令（同一拍只能选一个），组与组之间是相容的（可同时激活）。每组编成一个值，经译码器才变成具体的微命令。

字段直接编码：微命令字段划分为 F1/F2/F3 等若干字段，每个字段内部互斥、经译码器选出一个微命令，字段之间可并行

还是上面那些微命令，这次分组：

| 字段 | F1（寄存器操作，2 位） | F2（ALU 操作，2 位） | F3（总线选择，1 位） | |:--|:--|:--|:--| | 00 | 无操作 | 无操作 | 无操作 | | 01 | RA_load | ALU_ADD | BUS_A | | 10 | RB_load | ALU_SUB | — |

字段 01 | 01 | 1 表示：F1 译出 RA_load、F2 译出 ALU_ADD、F3 选 BUS_A。这里 RA_load 和 RB_load 互斥（在同一字段），ALU_ADD 和 ALU_SUB 互斥，但 RA_load 和 ALU_ADD 不同字段可以并行。特点：字长短（字段内编码共享位）、设计简单；代价是并行受限（同字段内不能并行）、稍慢（多了译码器这一层延迟）。

混合编码：前两者的结合。一部分字段用直接编码（管那些频繁同时发生、对速度敏感、互不冲突的关键微命令，保住并行度和速度）；另一部分用字段编码（管互斥的、并行要求不高的，压缩长度）。在并行度和控制存储器容量之间取个平衡。

混合编码：微命令字段一部分采用直接编码（保并行与速度），另一部分采用字段直接编码（压缩微指令长度）

微程序 vs 硬布线

跟硬布线对着看，微程序的脾气正好相反：

| | 硬布线 | 微程序 | |:--|:--|:--| | 控制逻辑放哪 | 焊在门电路里 | 存在控制存储器里 | | 改逻辑 | 要重新布线/换芯片 | 改存储的微指令即可 | | 加新指令 | 难 | 相对容易 | | 速度 | 快（组合逻辑直出） | 慢（要多访问 CM、还要算下地址） | | 设计 | 复杂逻辑难设计验证 | 复杂逻辑反而更好组织 |

一句话：硬布线拿速度换灵活，微程序拿灵活换速度。

指令、微指令、微命令：三层

最后把三个词彻底分清，它们是一条自顶向下的控制层次：

指令：程序员的代码经编译、汇编后，CPU 能直接识别执行的最小功能单位（如 ADD R0, (R1)）。
微指令：控制存储器里的一个"字"。一条机器指令被拆成一串步骤，每步对应一条（或多条）微指令。
微命令：最基本、不可再分、由硬件电路直接完成的操作（如 PCout、MARin）。

关系是：一条指令 = 一段微程序 ⊃ 多条微指令 ⊃ 多个微命令。拿前面那条 ADD R0, (R1) 当例子，它就是一段微程序：

整段是微程序，每一行是一条微指令，每行右边那几个就是这条微指令包含的微命令。控制器逐拍执行这段微程序，101 那条指令就被它一步步"演奏"出来了。

5.3 当意外发生：异常与中断

到目前为止，我们的循环有一个隐含假设：一切顺利。取指、译码、执行，一条接一条，岁月静好。

可现实不是这样。指令执行到一半，可能除数突然是 0；要访问的内存页根本不在物理内存里；程序想往只读区域写东西。与此同时，外面的世界也不安分——键盘被敲了、网卡收到包了、定时器到点了，这些事随时会发生，CPU 总不能装作没看见。

所以 CPU 需要一种能力：在执行流的任意一点，暂停手头的活，跳去处理突发情况，处理完再回来（如果还能回来的话）。 这就是异常与中断机制。两个词经常被混着用，但它们的来源不同——这正是考试爱抠的点。

异常：来自指令内部的意外

异常（Exception） 指程序执行过程中冒出的非正常情况。一旦发生，CPU 暂停当前执行，转去运行操作系统准备好的异常处理程序。它的特征是来自 CPU 内部、由当前正在执行的指令引起——所以也叫"内中断"。

执行指令时，常见的异常有五类。每类配一段最小的 C 代码，你一看就知道是什么场景：

① 除法错误——除以零或非法除法。OS 通常捕获后中断程序、报错或终止。

int a = 10;
int b = 0;
int c = a / b;   // 除以零，触发除法错误

② 浮点异常——浮点运算出错：溢出、下溢、除零、非法操作（如对负数开平方）。OS 可能中断程序、置异常标志，或产生 NaN。

float y = sqrt(-1.0);   // 非法操作，结果为 NaN

③ 缺页异常——要访问的内存页还没调进物理内存。OS 把所需页从磁盘调入、更新页表，然后恢复程序继续执行（这一类通常是可恢复的）。

char* ptr = mmap(NULL, 4096, PROT_READ, MAP_PRIVATE, fd, 0);
char c = ptr[0];   // 访问 ptr[0] 时触发缺页，内核调页后程序继续

④ 保护错误——非法操作：写只读内存、访问内核空间、执行特权指令。OS 中断程序，挡住非法访问（你熟悉的"段错误 Segmentation Fault"就在这类）。

int* ptr = (int*)0xFFFF0000;   // 指向只读或内核地址
*ptr = 42;                     // 写操作触发保护错误

⑤ 硬件错误——内存故障、总线错误、电源故障等硬件层面的问题。可能记录错误、尝试修复，或者直接宕机。

char* bad_addr = (char*)0xDEADBEEF;
char c = *bad_addr;            // 假设该地址引发硬件错误

自陷：程序主动"投案"

上面五类大多是"被动撞上"的。但有时程序是主动想让操作系统介入的——这种主动转入异常处理的机制叫自陷（trap）。它跟外部中断不同：由当前执行的指令或条件触发，是程序自己发起的。

自陷最典型的三个用途：

异常处理：除零、非法访问、无效指令等错误发生时，进入异常处理流程。
系统调用：用户程序想请求操作系统服务（开文件、分配内存），用一条专门的指令（如 x86 的 syscall）触发自陷，借此从用户态进内核态，执行系统调用处理程序。
调试断点：调试时设的断点，程序跑到断点就触发自陷，停下来交给调试器。

自陷的处理流程（简化版）是这样一条链：

① CPU 检测到自陷条件（异常 / 系统调用 / 断点）
② 暂停当前程序，保存现场（PC、寄存器等）
③ 切换到内核态，转入操作系统的自陷处理程序
④ OS 按具体情况处理异常或完成服务
⑤ 可恢复 → 恢复现场继续执行；否则 → 终止程序

那条用来显式触发自陷的指令，就叫陷阱指令——它是用户程序跟操作系统打交道的重要入口。

中断：来自外部世界的打断

中断（Interrupt） 是 CPU 正常执行时，由外部设备或软件指令触发的事件，迫使 CPU 暂停当前执行、转去处理。它让 CPU 能及时响应键盘、定时器、网络这些外部事件——是现代操作系统和硬件协同的核心机制之一。

怎么给中断分类

中断是个大概念，有两种切法。

按来源切：

外部中断：外部设备/事件触发，如输入设备、时钟、外部信号。
内部中断（也就是上面说的异常）：程序或 CPU 内部状态触发，如错误、异常。

按能不能屏蔽切：

可屏蔽中断（Maskable）：可以通过设置中断屏蔽位（还记得 5.1 标志寄存器里的 IF 吗？）暂时禁止。一般外设中断都属于此类——键盘、鼠标、网卡。
不可屏蔽中断（NMI）：屏蔽不了的紧急中断，专门留给系统级灾难——电源故障、内存校验错误。

中断分类示意：按来源分为外部中断与内部中断（异常），按是否可屏蔽分为可屏蔽中断与不可屏蔽中断 NMI

中断和异常到底怎么区分？（这是选择题的常客）

在很多分类法里，异常被当成中断的一种（内中断）。但有些教材把两者明确分开：

异常：CPU 执行指令时内部冒出的意外（同步——同一个输入跑一遍，异常必然在同一条指令上出现）。

中断：来自 CPU 外部、与当前指令无关的事件（异步——什么时候来，跟你执行到哪条指令没关系）。

记住这条"内部/同步 vs 外部/异步"的分界，碰到题目灵活分辨即可。

中断真正被响应后的处理流程（保存现场 → 找到中断服务程序 → 执行 → 恢复现场返回），和上面自陷那条链是同一套思路，在组成原理的中断专题里会细讲，这里先建立"它存在、它打断循环、它处理完要能回来"这个认知。

5.4 让循环跑快：指令流水线

第二笔账，到了。

101 的循环跑得有多笨，看一眼就知道：取指部件取指时，执行部件在干等；执行部件忙时，取指部件又闲着。一条指令必须完完整整跑完，下一条才敢开始。这是这一章的重头戏要解决的问题。

先把一条指令拆成五段

要并行，先得有能并行的"零件"。我们把一条指令的执行，从逻辑上切成五个阶段：

取指（IF, Instruction Fetch）：按 PC 从指令存储器取出指令，并更新 PC。
译码（ID, Instruction Decode）：解析指令、读出源寄存器、生成后续阶段要用的控制信号。
执行（EX, Execute）：用 ALU 做计算或算分支，产出中间结果。
访存（MEM, Memory）：读写数据存储器；不访存的指令这一段空着。
写回（WB, Write Back）：把结果写回寄存器；不写回的指令这一段空着。

用 ADD R1, R2, R3 串一遍：IF 取出它 → ID 读出 R2、R3 → EX 算 R2 + R3 → MEM 这条用不上（空）→ WB 把和写进 R1。再看 BEQ R1, R2, label：EX 阶段比较 R1 和 R2 决定跳不跳。

MEM 和 WB 一定会出现吗？

在标准五段流水线里，所有指令都会按顺序走过这五段（结构上都在），但 MEM 和 WB 对某些指令是空操作：算术/逻辑/分支指令不访存，MEM 空；存储、分支、跳转不写寄存器，WB 空。而 IF、ID、EX 是每条指令都得实打实做的。

单周期 vs 多周期：为什么要拆

拆之前，先看不拆会怎样。

单周期处理器：每条指令在一个时钟周期里从头干到尾。听着干脆，但有个致命问题——这个时钟周期必须容得下最慢的那条指令。于是一条简单的加法，也得陪着最慢的访存指令一起，把周期拉得老长。简单，但低效。

多周期处理器：把指令拆成上面那五段，每段花一个时钟周期，不同段交给不同部件。先看不拆时的样子——指令一条接一条，整条整条地排队：

不使用流水线的串行执行：指令 I1 完整执行结束后 I2 才开始，I2 结束 I3 才开始，时间轴上首尾相接、无重叠

下一条必须等上一条整个结束才能开始，部件大把时间在闲置。多周期流水线就是来治这个的：既然五段用的是不同部件，那 I1 走到 EX 时，IF 部件已经空出来了，干嘛不让 I2 进 IF？让不同指令的不同阶段重叠起来跑——这就是流水线。

物理结构：五段住在哪些部件里

五段流水线的物理结构：IF（PC、指令存储器、+4）、ID（寄存器堆、符号扩展）、EX（ALU、分支判断）、MEM（数据存储器）、WB（写回多路选择），数据自左向右流动

五个阶段分别由 CPU 里不同的部件处理，下一阶段吃上一阶段的输出。因为是不同部件，它们可以同时工作——这样部件利用率上去了，CPU 执行指令的吞吐也就上去了。

逻辑结构：靠流水段寄存器锁住中间结果

物理图里器件太多。把它抽象一下，就是流水线的逻辑结构：

五段流水线的逻辑结构：IF/ID、ID/EX、EX/MEM、MEM/WB 之间各插入一个流水段寄存器，统一由时钟 CLK 同步，每来一个时钟把本段结果锁存给下一段

关键在每两段之间那个流水段寄存器：它把本段处理完的所有数据锁存住，保证这一拍的结果能稳稳地在下一拍交给下一段。所有寄存器和存储器都用统一时钟 CLK 同步——每来一个时钟，各段算完的数据齐刷刷锁进段尾的流水段寄存器，成为下一段的输入；同时本段也收下前一段递过来的数据。还记得 5.1 说的吗？流水段寄存器正是"时序逻辑元件"，负责把值"停住"。

执行时序图：把重叠画出来

流水线的本质，是把并行的粒度从"整条指令"降到了"指令的某个阶段"。这种细粒度的重叠，能大幅压缩总时间：

单周期（不使用流水线）与多周期流水线对比：上半部分指令串行排列，下半部分各指令的阶段错开重叠，总时钟数明显减少

画流水线常用两种图，最好都会看。

常规画法：横轴时钟周期，纵轴不同指令。最直观——一眼能看出每条指令在每一拍处于哪个阶段，以及指令之间怎么错开。

流水线常规画法：纵轴为 I1–I4 四条指令，横轴为时钟周期 1–8，每条指令的 IF/ID/EX/M/WB 依次向右错开一拍，形成阶梯状重叠

时空图：更抽象一点，横轴时间，纵轴是阶段/资源。它强调的是"每一拍各个流水段分别被哪条指令占着"，看重叠和资源占用更清楚。

流水线时空图：纵轴自下而上为 IF/ID/EX/MEM/WB 五个流水段，横轴为时间，每个格子标注该拍该段正在处理的指令 I1、I2……呈对角线推进

理想很美好：流水线冒险

上面这些图都是理想情况。可一旦指令之间有了纠葛，理想就破了。

流水线要正确工作，得满足两个前提：

指令重叠跑时不抢同一个硬件资源（同一拍里各段别用同一条数据通路）。
流水线跑出来的结果，必须和老老实实串行执行的结果一模一样。

违背这两条前提的调度，就叫冒险（Hazard）。冒险分三类：

结构冒险：硬件资源不够，撞车了。
数据冒险：一条指令要用前面指令还没算出来的结果。
控制冒险：分支/跳转改了 PC，导致"下一条到底取哪条"一时说不清。

"冒险"和"冲突"是一回事吗？

几乎可以互换，但有微妙差别：冒险（Hazard） 是更宽的概念——它指"有出错的可能"，但不一定真出错；冲突（Conflict） 则指"已经出错了"。冒险是隐患，冲突是事故。

结构冒险：硬件不够用

结构冒险来自 CPU 硬件资源有限。两条指令在同一拍要用同一个硬件，就撞上了。

结构冒险示意：横轴时钟周期、纵轴四条指令，画出每拍各指令所需硬件；指令 0 与指令 1 在第 4 拍分别要写/读寄存器，指令 0 与指令 3 在第 3 拍分别要写/读存储器，若硬件不支持则发生结构冒险

图里画出了各指令每一拍要用的硬件：指令 0 和指令 1 在第 4 拍分别想写和读寄存器，指令 0 和指令 3 在第 3 拍分别想写和读存储器。如果硬件不支持"同时读写"，就发生了结构冒险。处理办法两个，都很直白：

资源重复：既然是资源不够，那就加硬件。比如把指令存储器和数据存储器分开（这样取指和访存就不抢同一个存储器了），寄存器堆支持同拍读写。
流水线停顿：如果指令 A 和 B 撞了，就让 B 等一等，推迟到不撞为止。

数据冒险：要用的数还没算好

数据冒险来自指令之间的依赖。一条指令要用另一条的结果，可如果它们挤进流水线太近，后面那条可能在数据还没准备好时就去用了。按"读/写顺序被打乱的方式"，数据冒险分三种：

数据冒险三种类型示意：写后读 RAW、读后写 WAR、写后写 WAW，分别表示后一条指令在前一条完成相应读/写之前就进行了读或写

写后读（RAW, Read After Write）：后一条要读的，正是前一条要写的。本该等前一条写完再读，结果它抢先读了——读到旧值。
读后写（WAR, Write After Read）：后一条要写的，正是前一条要读的。本该等前一条读完再写，结果它抢先写了——把前一条要读的值冲掉了。
写后写（WAW, Write After Write）：两条都写同一个地方。本该后写的更晚，结果顺序反了，最终留下的是错的那个值。

中文名容易绕。直接记英文：前一条叫 A、后一条叫 B，"A 写、B 读、出了冒险"就是 Read After Write（RAW），其余照此类推。核心始终是那条前提——流水线的结果必须和串行一致；只要某个数据的读写顺序跟串行不一样，就出了数据冒险。

处理数据冒险，三招：流水线停顿、数据前推、编译器重排序。前两招细看。

第一招：流水线停顿。 检测到冒险，就暂停后面的指令，往流水线里塞气泡（bubble，空操作），让它干等，直到依赖的数据就绪。具体到画法：如果 A、B 冲突（A 在前），就把 B 的译码（ID）推迟到 A 的写回（WB）之后——A 都写回了，B 再去读，自然读到新值。停顿是个"万金油"方案，结构冒险也能用它兜底。

第二招：数据前推（旁路转发，Data Forwarding）。 停顿太亏了——数据其实在 A 的 EX 段末尾就算出来了，何必非等它走完 WB 写回寄存器、B 再从寄存器读？直接从流水段寄存器里把这个中间结果抄给 B 的 ALU 输入端不就行了。看个 RAW 的例子：

I1: ADD R1, R2, R3   ; R1 = R2 + R3
I2: SUB R4, R1, R5   ; R4 = R1 - R5   ← 要用 I1 刚算出的 R1

I1 在 EX 段末尾就得到了新的 R1，存进了 EX/MEM 流水段寄存器。那就直接从这个寄存器把值送回 ALU 输入端，I2 执行时用的就是新 R1，根本不用等 I1 走完 WB：

数据前推：I1 的 EX 段结果不写回寄存器就直接转发到 I2 的 EX 段输入，用一条旁路通路消除 RAW 停顿

能建的旁路通路主要三条：EX→EX（前一条 EX 产出的 ALU 结果直接转给下一条用，如 add → add）、M→EX（前一条在 MEM 段才出结果、当前指令 EX 要用）、WB→EX（依赖的是更早之前那条指令的写回结果，只能从 WB 段取）。

但数据前推不是万能的，Load-Use 冒险就治不了。 它是 RAW 的一个特例，专出现在 load 指令后面紧跟一条用它结果的指令：

I1: load r1, 0(r2)   ; 从内存加载到 r1
I2: add  r3, r1, r4  ; 立刻就要用 r1

问题在于：load 要到 MEM 段才能从内存把数据捞出来，可 I2 在 EX 段就要用它——而此刻 I1 的 MEM 还没跑完，数据压根还不存在，你拿什么前推？

Load-Use 冒险问题：I1 load 在第 4 拍 MEM 才取到数据，但 I2 在第 4 拍 EX 就要用，时间上对不上，前推线是反向的，无法实现

办法也朴素：先停一拍（插一个气泡），等 load 走完 MEM，再用 M→WB 的转发线把值送过去。停这一拍是省不掉的，前推只是把"停三拍"压到了"停一拍"：

Load-Use 冒险修复：在 I2 前插入一个 stall 气泡，使 I2 的 EX 推迟一拍，等 I1 的 MEM 完成后再用转发线把数据送到 I2 的 EX

一个完整的冒险处理实例

把上面这些缝起来。考试里画"解决了冒险的流水线"，有一招简单粗暴但稳妥的通法。假设某条赋值语句被汇编成四条指令：

I1   LOAD  R1, [a]
I2   LOAD  R2, [b]
I3    ADD  R1, R2
I4  STORE  R1, [x]

先把依赖捋清楚：

I3 和 I1 之间是 WAW（都写 R1）
I3 和 I2 之间是 RAW（I3 要读 I2 写的 R2）
I4 和 I3 之间是 WAR（I4 读 I3 写的 R1……实为先后读写顺序约束）

通法就一句话：A、B 冲突且 A 在前，就把 B 的 ID 放到 A 的 WB 之后——用停顿把有冲突的两条在时间上彻底错开。按这个规则排下来：

冒险处理实例：I1–I4 四条指令通过插入停顿，使每对有冲突指令的后者 ID 阶段落在前者 WB 之后，画出错开后的流水线时序

考试画流水线，用这种"停顿错开"的画法最不容易错。

控制冒险：下一条到底取哪个

控制冒险来自分支和跳转。麻烦在于：CPU 得等分支指令执行完，才知道下一条该取哪里——可流水线早就抢跑、把后面的指令取进来了。看例子：

100: ADD R1, R2, R3    ; R1 = R2 + R3
104: BEQ R1, #0, 200   ; 若 R1 == 0，跳到 200
108: SUB R4, R5, R6    ; ← 流水线会抢先把它取进来
112: MUL R7, R8, R9
...
200: OR  R10, R11, R12 ; 但如果真跳了，该执行的是这条

BEQ 还没在 EX 段算出"到底跳不跳"，流水线已经把地址 108 的 SUB 取进来了。万一 BEQ 成立、该跳到 200，那 108 这条就白取了——这就是控制冒险。

控制冒险示意：BEQ 分支指令在 EX 段才确定是否跳转，但其后的指令已被取入流水线，若分支成立则这些已取入的指令需作废

处理办法三种：

流水线停顿：分支指令之后先别取，停下来插气泡，等分支结果出来再说。简单但浪费。
分支预测（Branch Prediction）：猜——猜它跳还是不跳，提前按猜的结果取指。猜对了，零开销；猜错了，把错取的指令清空，重新取。现代 CPU 几乎都靠它，且预测准确率很高。
延迟分支（Delayed Branch）：编译器把分支后面那些不依赖分支结果的指令挪到分支指令之后先执行，填上等待的空档，减少浪费。

流水线快了多少：两个指标

流水线到底带来多大提升？两个公式说清楚。设时钟周期为 $T_c$ 、流水线段数为 $k$ 、任务（指令）数为 $n$ 。

吞吐率（Throughput）——单位时间完成的任务数。理想无阻塞下，一条 $k$ 段流水线完成 $n$ 个任务需要 $k + n - 1$ 个时钟周期（第一条指令灌满流水线要 $k$ 拍，之后每拍出一个结果，再出 $n-1$ 个）。于是：

\text{TP} = \frac{n}{(k + n - 1)\,T_c}

加速比（Speedup）——流水线相对串行快了几倍。串行做 $n$ 个任务要 $n \cdot k \cdot T_c$ ，流水线只要 $(k + n - 1)\cdot T_c$ ：

S = \frac{T_{\text{串行}}}{T_{\text{流水线}}} = \frac{n \cdot k}{k + n - 1}

当任务数 $n$ 很大时，分母里的 $k-1$ 可以忽略，于是：

S \approx k

这是流水线最漂亮的一句话：当指令足够多，最大加速比趋近于流水线的段数。 五段流水线，理想下能快近 5 倍——这就是我们费这么大劲拆五段、加流水段寄存器、还要对付三种冒险的全部回报。

还想更快：高级流水线

把单条流水线榨干之后，还想提升，就得在指令级并行（ILP） 上做文章。两条大思路：多发射（一拍同时发射多条指令）和超流水（把级切得更细）。对应三种技术：

超标量（Superscalar）：配多套执行单元（多个 ALU、FPU），一个时钟周期里并行发射多条指令。硬件动态分析指令间有没有依赖，没依赖就分到不同执行单元同时跑。
超流水线（Superpipeline）：把每个阶段再切成更小的阶段（5 段细分成 10 段甚至更多），每段更短，于是可以跑更高的时钟频率。
超长指令字（VLIW, Very Long Instruction Word）：把多条能并行的子操作，由编译器在编译期就打包进一条"超长指令"的多个槽位里：

| ALU_op | MUL_op | LOAD_op | BRANCH_op |

处理器一拍把这些互不相干的操作一起执行。它的妙处是把"找并行"这件难事甩给了编译器——编译器提前分析好数据相关、控制相关、资源冲突，硬件就不用再搞乱序执行、寄存器重命名、动态相关性检测那一套，大大简化、还省功耗。

三者并排着看，思路差异一目了然：

| 技术 | 怎么提升 ILP | 并行发生在哪 | 控制复杂度 | |:--|:--|:--|:--| | 超标量 | 并行多发射 | 同一拍多条指令 | 极高 | | 超流水线 | 拆细流水级 | 不同拍高度重叠 | 中 | | 超长指令字 | 编译期打包并行 | 一条指令内并行 | 极低 |

一句话记住本质区别：超标量——硬件很聪明；超流水线——时钟切得很细；VLIW——编译器很聪明。

5.5 一个核不够用：多处理器

流水线、超标量，这些都是在一条指令流内部榨并行。可这条路总有头。再往上要更多算力，就得换层思路：多条指令流、多条数据流一起上。

弗林分类法：按"几条流"切

弗林分类法（Flynn's Taxonomy） 是 1966 年 Michael Flynn 提出的，按计算机里指令流和数据流的数量，切成四类：

先说清两个"流"：指令流是程序里一连串有序的指令，决定"计算机要做什么"；数据流是执行时处理的数据序列，是"计算机要处理什么"。

弗林分类法四象限：SISD（单处理单元处理单指令单数据）、SIMD（多处理单元执行同一指令处理不同数据）、MISD（多处理单元对同一数据执行不同指令）、MIMD（多处理单元各自执行不同指令处理不同数据）

SISD（单指令单数据）：一个处理单元（PU）收一条指令流，每条指令处理一份数据。就是最经典的单核——101 那台机器、前面整章讲的流水线 CPU，都是 SISD。
SIMD（单指令多数据）：多个处理单元在同一时刻执行相同的指令，但各自处理不同的数据，实现数据级并行。举个例子，N × N 矩阵加法：SISD 要一个 PU 连续算 N × N 次；SIMD 若有 N 个 PU，只需 N 次。
MISD（多指令单数据）：多个 PU 对同一份数据执行不同指令。现实里极罕见、难实现，主要见于容错系统——几个不同的 PU 算同一份数据，比对结果以确保没出错。
MIMD（多指令多数据）：多个 PU 各自执行不同指令、处理不同数据。现代多核处理器就是 MIMD 的典型——每个核跑自己的线程。

SIMD 和 SIMT 别搞混。 SIMD 就是"堆硬件"：多加几个 PU 同时处理多份数据，但有个硬约束——同一时刻所有 PU 必须执行同一条指令。而 SIMT（Single Instruction Multiple Thread）是 GPU 的路子：单条指令同时在多个线程上跑，但允许一个 warp 里的线程在一定程度上偏离同一执行路径——不同线程同一时刻不必执行同一条指令。这点灵活性，正是 GPU 能跑复杂分支的原因。

多核：把多个核塞进一块芯片

MIMD 落到今天的桌面/手机芯片上，就是多核。这里要分清三个词。

单核处理器与多核处理器对比：单核含一个 Core（CPU、寄存器、缓存）连到 Memory 和 I/O；多核在一块芯片上集成多个 Core，各自有寄存器与缓存，共享访问内存与 I/O

物理核心：CPU 芯片上真实存在的、独立的硬件处理单元。每个物理核都有自己的运算电路和缓存，能独立执行指令。它是实打实的硬件。
逻辑核心：通过超线程等技术，在一个物理核上虚拟出的多个处理单元。它是操作系统看到的处理单元，并非真实硬件。

超线程（Hyper-Threading） 的核心想法是：让一个物理核心模拟成多个逻辑核心，从而同时跑多个线程。每个逻辑核有自己的一套寄存器，但它们共享同一个物理核的执行单元、缓存等资源。

超线程：物理硬件上每个物理核心含两个硬件线程 HThread，操作系统则看到翻倍数量的逻辑 CPU（CPU0–CPU7）

注意一个常被误解的点：超线程不等于性能翻倍。因为两个逻辑核共享同一套物理执行资源，提升通常只在 20% 到 30% 之间——它榨的是物理核在某个线程卡住（比如等内存）时闲下来的那部分资源。一句话打比方：物理核心是真盖出来的"房子"，逻辑核心是在房子里隔出来的"房间"。 房间多了点，但地基还是那块地基。

共享内存多处理机：多个处理器，一块内存

多个处理器凑一起干活，最自然的协作方式是共享同一块物理内存——这就是共享内存多处理机（Shared Memory Multiprocessor）。处理器之间靠读写共享内存来通信和交换数据。

共享内存多处理机：多个处理器 P1/P2/P3 通过系统互连（总线、交叉开关、多级网络）连接到共享的内存模块与 I/O，所有处理器访问同一物理内存空间

它有两个关键特点：

共享内存空间：所有处理器访问同一个物理内存空间，数据共享简单高效；处理器之间通过读写共享内存里的数据来通信和同步。
处理器互连：处理器通过互连网络（总线、交叉开关等）连到共享内存。这张互连网络的性能，直接决定整个系统的上限——处理器再多，如果都堵在通往内存的那条路上，也快不起来。这也呼应了 101 的老结论：内存（以及通往内存的路）始终是绕不开的瓶颈。

小结

这一章我们把 CPU 这个盒子打开了，还清了 101 欠下的两笔账。把每一节"遇到的问题 → 给出的设计"折叠成一张表，能 30 秒复述：

回头看，CPU 不是凭空设计出来的一块神秘芯片。它就是把 101 那个"取指 → 译码 → 执行"的朴素循环，一层层落到硬件上、再一点点想办法跑快的产物：要执行就得有数据通路，要协调就得有控制器，嫌慢就上流水线，流水线打架就处理冒险，单核到顶了就上多核。每一步，都是对上一步暴露出的某个具体麻烦的回应——这正是这门课最值得带走的思维方式。

计算机组成原理 104：主存（DRAM）与多模块存储器

May 16, 2026

主存不是一个黑箱：DRAM 为什么必须刷新；高位/低位交叉编址到底在“交叉”什么；以及 16K×8 这类扩展题，真正想让你连哪几根线。

Computer OrganizationMemoryStudy

上一章我们把“数据长什么样”拆开了：整数、浮点数、字符、指令，最后都只是 0 和 1。

这一章换一个视角：这些 0 和 1 到底住在哪？

更具体一点，是三个非常工程味的问题：

DRAM 那个“会漏电的电容”到底怎么存一个比特？为什么不刷新就会忘？
CPU 连续读一段数组时，主存为什么有时像“接不住球”？多体交叉是怎么把带宽做出来的？
一看到 16K × 8、32K × 16 这种格式就头大——其实它只是在问：字长不够还是字数不够？你准备把地址线用来干嘛？

我们按这三个问题走一遍。

4.1 DRAM 芯片：一个比特怎么“活”下来

DRAM（Dynamic RAM）之所以叫“动态”，不是因为它速度快，而是因为它自己不会永远记得。

它最经典的存储单元是 1T1C：1 个晶体管 + 1 个电容。

你可以把它想成一个带阀门的小杯子：

电容里有电荷 ≈ 记作 1
电容里没电荷 ≈ 记作 0
晶体管就是那个阀门：什么时候允许外面“看一眼”或者“倒进去/放出去”，由控制信号决定

麻烦在于：杯子会渗漏。电荷会慢慢跑掉，所以 “1” 会往 “0” 漂。

DRAM 1T1C 存储单元示意：晶体管像阀门，电容像小杯子，电荷会泄漏，因此需要周期性刷新

所以 DRAM 的“记忆”不是一次写入就完事，它需要一件额外的事：刷新（refresh）。

刷新听起来像“把数据再写一遍”，本质上就是：在电荷完全漏光之前，把每一行再读出来、再补回去一次，让电容重新充满/放空到该有的状态。

这也是 DRAM 能做到高容量、低成本的代价：单元简单、密度高，但必须不停照看。

4.2 刷新怎么安排：你把“补课”放在什么时候

把刷新想成一个必须完成的后台任务：你不能不做，但你可以选择怎么插进正常读写的时间轴里。

常见的三种安排方式是：集中刷新、分散刷新、异步刷新。

4.2.1 集中刷新（Burst Refresh）

做法很直接：先别访问了，我把所有行一次性刷完。

它的气质像“停机维护”：维护期间你什么都别干。

优点：控制简单，刷得快
代价：会出现一段明显的访问空窗（延迟抖一下）

4.2.2 分散刷新（Distributed Refresh）

做法更像“每天都擦一点灰”：把刷新均匀打散在时间里，和正常访问交错出现。

优点：不会出现那种整段的空窗
代价：控制更复杂，而且每段访问的节奏会被刷新切走一点点

4.2.3 异步刷新（Asynchronous Refresh）

你可以把它理解成“由控制器按需触发”：在规定的刷新窗口内，外部控制器决定什么时候插入刷新。

优点：更灵活，能根据系统忙闲来调度
代价：更依赖控制器设计（硬件/逻辑复杂度更高）

把三者放在一起会更清晰：

这里你不需要把表背下来，抓住那条主线就够了：刷新不可避免，区别只是“堵在一起”还是“掺着做”，以及谁来做决定。

4.3 多模块存储器：同样的 DRAM，怎么让它“更像流水线”

单个存储体有一个硬限制：它完成一次读写后，需要一段时间恢复内部状态，才能接下一次。

这段“我刚忙完，先喘口气”的时间，就是后面要用到的概念：存储周期（下一节会正式定义）。

如果 CPU 连续发出访问请求，而存储体总在“喘气”，那 CPU 就只能等。

多模块存储器的思路很朴素：别只开一个窗口，多开几个。

做法有两类：

单体多字存储器：一次访问读出更多字（让“每次能搬的量”变大）
多体交叉存储器：让连续地址分散到不同存储体（让“每次能接的频率”变高）

4.3.1 单体多字存储器：一次把“字”变宽

单体多字存储器的关键动作是：同一个地址，同时选中多个模块的对应单元。

你可以想象有 n 个完全相同的模块排成一排。CPU 给出地址 A 时：

模块 0 选中自己的第 A 个单元
模块 1 也选中自己的第 A 个单元
…
模块 n-1 同样选中第 A 个单元

于是一次访问就能并行读出 n 个“字”（每字 m 位），主存带宽在理想情况下提升 n 倍。

它很像你把数据总线从 m 位，硬生生拓宽到 n×m 位：一次搬更多。

这个结构的副作用也很直观：你一次读出来是一整坨，如果你只想改其中一小部分，有时就得“整坨搬出来、改一口、再整坨搬回去”——它更适合连续、成块的访问模式。

4.3.2 多体交叉存储器：地址怎么分，决定你能不能并行

多体交叉存储器把主存划分为多个存储体（memory bank）。关键问题变成：

线性地址 0、1、2、3… 到底怎么落到这些存储体上？

答案有两种经典分法：高位交叉编址、低位交叉编址。

先把“交叉”这件事说清楚：它其实是在决定一段地址里，哪几位用来选“体号”，哪几位用来当“体内地址”。

高位交叉与低位交叉对比：高位交叉让连续地址扎堆在同一存储体，低位交叉让相邻地址轮转分散到不同存储体

高位交叉编址（High-order interleaving）

规则：地址高位选存储体，低位是体内地址。

如果有 4 个存储体，总地址空间大小是 4n，那么地址分布会像这样：

0 ~ n-1 在 M0
n ~ 2n-1 在 M1
2n ~ 3n-1 在 M2
3n ~ 4n-1 在 M3

直觉非常强：一个存储体负责一整段连续地址。

这带来一个后果：如果 CPU 正在顺序读取 0, 1, 2, 3, ...，这些地址很可能长时间都落在同一个存储体里。

于是其他存储体只能干看着——结构上是“多体”，行为上却经常是“单体”。

在这种组织方式下，常见的实现是：多个存储体共享一套地址寄存器（AR）和数据寄存器（DR），每次只访问一个体，其他体空闲。它简单，但吞吐并不会因为“有很多体”自动变好。

低位交叉编址（Low-order interleaving）

规则反过来：地址低位选存储体，高位是体内地址。

还是 4 个存储体时，最典型的分布是：

地址 0,1,2,3 分别落到 M0,M1,M2,M3
地址 4,5,6,7 又分别落到 M0,M1,M2,M3

也就是：相邻地址被刻意打散到不同存储体。

这才是“交叉存储器想要的那种交叉”：CPU 顺序读一段数组时，存储体轮流接球，你就能把访问做成类似流水线的节奏。

代价也很实在：为了真的并行，每个存储体通常要配自己的地址寄存器和数据寄存器，不然你就没法同时给不同体投地址、收数据。

4.4 并行性：为什么最小连续访问间隔是 $T/n$

这一节我们只做一件事：把一个看起来像公式的东西，变成你能“看见”的节奏。

4.4.1 存储周期 $T$ ：同一个存储体多久能再接一单

存储周期指的是：某个存储体完成一次读/写之后，到它能够再次响应下一次读/写之间，至少要隔多久。

如果一个存储体的存储周期是 40 ns，你可以把它理解成：

这个存储体最多每 40 ns 才能交付一个字。

这不是“地址解码要这么久”的意思，而是“做完这次之后内部还要恢复状态”的总节拍。

4.4.2 $n$ 个存储体：轮转起来就像流水线

现在我们把主存做成低位交叉，分成 n 个存储体，每个体的存储周期都是 $T$ 。

如果连续访问的地址被轮流分配到不同体：

地址 0 -> M0
地址 1 -> M1
...
地址 n-1 -> M(n-1)
地址 n -> M0

你会发现一个很关键的事实：

M0 第一次被访问之后，要等 $T$ 才能再次被访问
但在这 $T$ 的等待里，我们完全可以去访问 M1、M2、...

只要我们每次都落在不同体上，就不会发生冲突。

于是最理想的节奏是：在 $T$ 这段时间里，刚好把 n 个体都启动一遍——那两次启动同一个体之间的间隔就是 $T/n$ 。

所以：

\text{最小连续访问间隔}=\frac{T}{n}

换句话说：在理想轮转不冲突的前提下，主存系统可以做到每隔 $T/n$ 就交付一个字。

它不是凭空来的，而是一个很朴素的“轮转不撞车”条件。

4.4.3 拆成 $P_1/P_2/P_3$ ：你会更像在看流水线

把一次读取再拆得更细一点，经常会用三段表示：

$P_1$ ：送地址与命令（把地址送进存储体的地址寄存器 AR）
$P_2$ ：存储体内部读取（数据进入数据寄存器 DR，这段通常就是“存储周期”对应的主体）
$P_3$ ：数据传送（从 DR 把数据送到外部总线/CPU）

假设 CPU 时钟周期是 $t$ ，并且：

$P_1$ 用 $t$
$P_2$ 用 $4t$
$P_3$ 用 $t$

如果我们有 4 个存储体并且采用低位交叉，那么连续读 8 个字时，你可以把它想成这样一种重叠：

M0 进入 $P_2$ 的同时，我们已经可以给 M1 投地址（做 $P_1$ ）
等 M0 还在忙，我们让 M2、M3 依次启动
轮到再次访问 M0 的时候， $4t$ 的等待刚好过去

四体低位交叉的访问流水示意：P1(送地址)/P2(体内访问 4t)/P3(传送数据)在不同存储体之间重叠，从而让连续访问变成每隔约 t 就能出一个字

你真正要记住的是这个味道：低位交叉把“一个体的等待”变成“另一个体的工作”。

4.5 主存容量的扩展：字不够宽，还是地址不够长

现实里你很少能“刚好买到”满足要求的单片芯片。于是扩展题总在问同一个工程问题：

给你一堆小芯片，你能不能把它们拼成我想要的“字数 × 字长”？

先统一一下写法。一个存储芯片如果写成：

M × N

意思是：

存储字数 = M
存储字长 = N bit
容量 = M × N bit

扩展就三种：位扩展、字扩展、字位扩展。

主存容量扩展三种拼法：位扩展加宽字长、字扩展加深字数、字位扩展同时做；示意地址线/片选线/数据线该怎么接

4.5.1 位扩展：扩展字长（同一个地址，多片一起出力）

例子：用 16K × 8 bit 芯片拼出 16K × 32 bit。

第一眼判断：字数没变（都是 16K），字长从 8 变 32 ——这就是位扩展。

芯片数量：

\frac{16K\times 32}{16K\times 8}=4

连接直觉：

4 片芯片用同一组片选（一次访问同时选中）
地址线（片内地址）也并联在一起
数据线分工：每片贡献 8 位，拼成 32 位

一个容易让人疑惑的细节是地址线数量。

16K × 32 bit 这个存储器，按字节算容量是：

16K\times 32\text{ bit}=16K\times 4\text{ Byte}=64KB=2^{16}\text{ Byte}

所以系统一侧常会出现 16 根地址线（A0 到 A15）。

但单片 16K × 8 bit 芯片要寻址 16K=2^{14} 个单元，只需要 14 根片内地址线。

于是你会看到一种典型连法：片内只接 A2 ~ A15，A0 ~ A1 不接到芯片地址脚。

这不是“浪费”，而是因为当我们把字长做成 32 位（4 字节）后：

A0/A1 这两位更像“一个 32 位字里的第几个字节”（byte offset）
而我们用 4 片芯片把 4 个字节分到 4 条“字节通道”上了，它们不再需要靠片内地址去区分

你可以把它理解成：低两位地址的作用，被你用“并行的 4 片芯片”吸收掉了。

4.5.2 字扩展：扩展字数（高位地址去做片选）

例子：用 16K × 8 bit 芯片拼出 64K × 8 bit。

第一眼判断：字长没变（都是 8），字数从 16K 变 64K ——这是字扩展。

芯片数量：

\frac{64K\times 8}{16K\times 8}=4

地址线怎么想：

64K=2^{16}，系统需要 16 位地址来覆盖所有单元
单片 16K=2^{14}，片内只需要 14 位地址

所以多出来的 2 位高位地址（常写作 A14、A15）就用来做片选译码：它们决定“这一段地址落在哪一片芯片上”。

连接直觉：

A0 ~ A13 并联到每片芯片的片内地址脚（体内地址）
A14 ~ A15 送到译码器，产生 4 路片选信号（体号）
一次访问只会选中其中一片芯片，数据线自然也就是“共用但不会打架”

4.5.3 字位扩展：字数和字长一起扩

例子：用 16K × 8 bit 芯片拼出 32K × 16 bit。

先拆两件事：

字数：32K / 16K = 2（需要 2 组）
字长：16 / 8 = 2（每组 2 片并联）

总芯片数：

\frac{32K\times 16}{16K\times 8}=4

地址线会出现一个很像“位扩展影子”的连法：

系统侧可能仍然是 16 位地址线
片内地址常接 A1 ~ A14
A0 不接片内地址（它被“用来扩展字长”的那部分结构吸收）
最高位（例如 A15）拿去做片选，选择两组中的哪一组

你不必拘泥于某一根线必须叫 A15，关键是逻辑：

低位更像“字内偏移/字节偏移”，高位更像“选哪一片/哪一组”。

4.6 扩展方式 vs 交叉编址：很多时候是同一件事的两种说法

当我们把“地址的某几位”拿出来去选择芯片/存储体时，你会发现它和交叉编址的描述非常像。

一个常见的总结是：

位扩展：更像低位交叉（低位“被用来决定并行的哪一部分”）
字扩展：更像高位交叉（高位用来选哪一段地址空间/哪一片芯片）
字位扩展：两者混合

这类对应关系的价值不是让你背结论，而是让你在画连接图时有一个稳定的直觉：

你到底想让“连续地址”落在同一个模块里，还是轮流落在不同模块里？你到底想让“同一个地址”同时读出多片的不同位，还是只选中其中一片？

把这两个问题回答清楚，扩展题就只剩算数了。

4.7 小结：你应该带走哪些“可复用的判断”

DRAM 的 1T1C 单元靠电容存信息，电荷会漏，所以必须刷新。
刷新方式的区别不是“刷不刷”，而是“把刷新插在时间轴哪里、由谁调度”。
多模块存储器的两条路：单体多字（一次搬更多）与多体交叉（让连续访问更像流水）。
高位交叉让连续地址扎堆在同一体；低位交叉让相邻地址轮转分散，才能把吞吐做出来。
扩展题先做一句人话判断：字长不够 → 位扩展；字数不够 → 字扩展；两者都不够 → 字位扩展。

计算机组成原理 102：数据的表示

Apr 20, 2026

从进制转换到定点数编码再到大小端存储——理解计算机内部每一个比特的设计决策。

Computer OrganizationData RepresentationStudy

上一章我们反复提到：计算机里的一切——指令、数据——都是二进制的 01 串。但我们人类用的是十进制，写的是 int x = 42。

那问题来了：42 在计算机里到底长什么样？ -42 呢？3.14 呢？一个 32 位的数存进内存时，4 个字节怎么排列？

这一章就来回答这些问题。

2.1 进制转换

2.1.1 十进制与二进制

我们先搞清楚最基本的问题：十进制和二进制之间怎么转？

所谓“转换”，不是把一个数换个花样写一遍，而是在回答一个更具体的问题：同一个数量，换一套位权体系，要用哪些位拼出来？

比如我们写下十进制的 42，其实是在说 $4\times 10 + 2$ 。计算机只能拿 0 和 1 摆位，所以它要问的是：42 能不能拆成若干个 $2^k$ 的和？

关键概念是位权（Position Weight）——每一位的"价值"取决于它所在的位置。十进制里，个位的权重是 1，十位是 10，百位是 100。二进制里也一样，只不过底数从 10 变成了 2：

位置:   7     6     5     4     3     2     1     0
权重:  128    64    32    16    8     4     2     1

这就是 $2^7, 2^6, 2^5, \ldots, 2^1, 2^0$ 。有了这张表，进制转换就不再像背口诀，而是在做一件很朴素的事：挑出几个权重，让它们刚好加回原来的数。

十进制 → 二进制：权重表法

把权重从大到小列出来，然后从左到右判断：当前权重能不能从目标数里"减掉"？能减就标 1，不能就标 0。

以 42 为例：

| 128 | 64 | 32 | 16 | 8 | 4 | 2 | 1 | |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 0 |

128 > 42？跳过，标 0
64 > 42？跳过，标 0
32 ≤ 42？标 1，剩余 42 - 32 = 10
16 > 10？跳过，标 0
8 ≤ 10？标 1，剩余 10 - 8 = 2
4 > 2？跳过，标 0
2 ≤ 2？标 1，剩余 2 - 2 = 0
1 > 0？跳过，标 0

所以 $42_{(10)} = 00101010_{(2)}$ ，也就是 $32 + 8 + 2 = 42$ 。

再来一个：200。

| 128 | 64 | 32 | 16 | 8 | 4 | 2 | 1 | |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |

$200 = 128 + 64 + 8 = 11001000_{(2)}$

这个方法的好处是：不需要做除法，只需要做比较和减法。

二进制 → 十进制：把标 1 的权重加起来

反过来更简单。看到一个二进制数，把所有为 1 的位对应的权重加起来就行。

$10110_{(2)} = 16 + 4 + 2 = 22_{(10)}$

$11111111_{(2)} = 128 + 64 + 32 + 16 + 8 + 4 + 2 + 1 = 255_{(10)}$

小数部分怎么转？

整数部分用的是 $2^0, 2^1, 2^2, \ldots$ （正幂），小数部分用的是 $2^{-1}, 2^{-2}, 2^{-3}, \ldots$ （负幂）：

| 位置 | $2^{-1}$ | $2^{-2}$ | $2^{-3}$ | $2^{-4}$ | |:---:|:---:|:---:|:---:|:---:| | 权重 | 0.5 | 0.25 | 0.125 | 0.0625 |

十进制小数 → 二进制：反复乘以 2，取整数部分。

这里先抓住一个直觉：二进制小数每乘一次 2，小数点就会向右挪一格。刚刚被挪到整数位的那个 0 或 1，就是下一位二进制小数。后面讲浮点数时我们会把这个式子完整推出来，现在先用这个动作感受它。

以 $0.625$ 为例：

$0.625 \times 2 = 1.25$ → 取 1，剩 0.25
$0.25 \times 2 = 0.5$ → 取 0，剩 0.5
$0.5 \times 2 = 1.0$ → 取 1，剩 0

所以 $0.625_{(10)} = 0.101_{(2)}$

验证： $0.5 + 0.125 = 0.625$ ✓

注意：并非所有十进制小数都能精确转成二进制。比如 $0.1_{(10)}$ 在二进制里是无限循环小数 $0.000110011\ldots$ ——这就是为什么 0.1 + 0.2 != 0.3 在几乎所有编程语言里都成立。

2.1.2 十进制与十六进制

二进制对计算机友好，但对人类太长了—— $255$ 要写成 $11111111$ ，8 位才表示一个不大的数。

十六进制（Hexadecimal，简写 hex） 是程序员常用的折中方案。它用 16 个符号：0-9 表示 0~9，A-F 表示 10~15。

十进制 → 十六进制：除 16 取余

反复除以 16，记录余数，最后倒着读。

为什么是“余数”？因为一个十六进制数本质上长这样：

N = d_k\cdot 16^k + d_{k-1}\cdot 16^{k-1}+\cdots+d_1\cdot 16 + d_0

你拿 $N$ 去除以 16，前面那些项都能整除，只有最后一位 $d_0$ 会留下来当余数。所以第一次取到的是最低位，第二次取到次低位，最后当然要倒着读回来。

以 255 为例：

$255 \div 16 = 15 \cdots 15$ → 余 $F$
$15 \div 16 = 0 \cdots 15$ → 余 $F$

倒着读： $\text{FF}_{(16)}$

再来一个：42

$42 \div 16 = 2 \cdots 10$ → 余 $A$
$2 \div 16 = 0 \cdots 2$ → 余 $2$

倒着读： $\text{2A}_{(16)}$

验证： $2 \times 16 + 10 = 42$ ✓

十六进制 → 十进制：位权法

和二进制转十进制一样，只不过底数是 16：

$\text{2A}_{(16)} = 2 \times 16^1 + 10 \times 16^0 = 32 + 10 = 42_{(10)}$

2.1.3 二进制与十六进制

这是最顺滑的转换，因为 $16 = 2^4$ ——每 4 位二进制恰好对应 1 位十六进制。不需要做任何算术，纯查表：

| 二进制 | 十六进制 | 二进制 | 十六进制 | |:------:|:------:|:------:|:------:| | 0000 | 0 | 1000 | 8 | | 0001 | 1 | 1001 | 9 | | 0010 | 2 | 1010 | A | | 0011 | 3 | 1011 | B | | 0100 | 4 | 1100 | C | | 0101 | 5 | 1101 | D | | 0110 | 6 | 1110 | E | | 0111 | 7 | 1111 | F |

二进制 → 十六进制：从右往左每 4 位分一组，不够补零，然后查表。

$10101100_{(2)} = \underbrace{1010}_{A}\;\underbrace{1100}_{C} = \text{AC}_{(16)}$

十六进制 → 二进制：每一位展开成 4 位二进制。

$\text{3F}_{(16)} = \underbrace{0011}_{3}\;\underbrace{1111}_{F} = 00111111_{(2)}$

这就是为什么内存地址、hex dump、颜色值（#FF5733）都用十六进制——它和二进制之间的转换零成本，写起来又比二进制短 4 倍。

到这里，进制转换其实只有一个核心：位权不变，解释方式变了。十进制、二进制、十六进制都在做同一件事：用不同底数的权重，把同一个数量拼出来。

2.2 定点数与浮点数

进制转换解决了整数的表示问题。但真实世界的数字不全是整数——3.14、0.001、 $6.022 \times 10^{23}$ 。在二进制里，小数点放哪？

两种策略

定点数（Fixed-point）：小数点的位置是事先约定好的，不会变。比如约定"低 8 位是小数部分，高 8 位是整数部分"。

好处是简单——加法器和整数完全一样。坏处是范围有限——你能表示的数的大小和精度都被格式锁死了。嵌入式系统和 DSP（数字信号处理）里常用定点数，因为它快、省电、行为可预测。

浮点数（Floating-point）：小数点可以"浮动"——就像科学计数法 $6.022 \times 10^{23}$ ，把一个数拆成尾数（significand）和指数（exponent）两部分存储。

好处是范围巨大——同样 32 位，float 能表示从 $10^{-38}$ 到 $10^{38}$ 的数。坏处是精度有限（只有约 7 位有效数字）而且运算更复杂。

一个直觉：定点数像一把刻度尺，刻度均匀但长度有限；浮点数像科学计数法，能描述宇宙的大小也能描述原子的尺寸，但不是每个数都能精确表示。

整数其实就是小数点固定在最右边的定点数。所以接下来我们先把定点整数搞清楚。

但在此之前，还有一个根本问题没解决：负数怎么办？ 计算机硬件只认 0 和 1，不存在"负号"这个符号。要表示 -42，你得想别的办法。

2.3 定点数的编码表示

2.3.1 机器数与真值

我们人类写数字用的是真值（True Value）：+42、-42、+0、-0。有一个明确的正负号。

但在计算机里，每一位只能是 0 或 1。为了表示正负，最自然的想法是：拿出最高位当符号位——0 表示正、1 表示负，剩下的位表示数值大小。

这种存在计算机里的带符号位的二进制数，叫机器数（Machine Number）。

比如用 8 位表示：

真值 +42 → 机器数 0 0101010（最高位 0 表示正）
真值 -42 → 机器数 1 0101010（最高位 1 表示负）

但"最高位表示符号，剩下的表示大小"这个最直觉的方案，真的好用吗？这就是原码。

2.3.2 原码

原码（Sign-Magnitude） 就是上面说的方案：符号位 + 绝对值。

用 8 位原码表示几个数：

| 真值 | 原码 | |:----:|:----:| | +42 | 0 0101010 | | -42 | 1 0101010 | | +1 | 0 0000001 | | -1 | 1 0000001 | | +0 | 0 0000000 | | -0 | 1 0000000 |

看出问题了吗？

问题一：零有两个编码。 00000000 和 10000000 都表示零。浪费了一个宝贵的编码。

问题二：加减法很麻烦。 如果两个数同号，直接加就行。但如果异号（比如 42 + (-30)），ALU 就需要：先比较两个绝对值的大小，再用大的减小的，最后确定结果的符号。这意味着加法器需要额外的比较和分支逻辑——硬件设计变得复杂。

我们想要的是：不管正负，扔进同一个加法器就能得到正确结果。 原码做不到这一点。

2.3.3 反码

为了让加法更统一，人们提出了反码（One's Complement）：

正数的反码 = 原码（不变）
负数的反码 = 符号位不变，其余位按位取反

| 真值 | 原码 | 反码 | |:----:|:----:|:----:| | +42 | 00101010 | 00101010 | | -42 | 10101010 | 11010101 | | +0 | 00000000 | 00000000 | | -0 | 10000000 | 11111111 |

反码的加法比原码好一些——正数加负数可以直接做二进制加法了，不用比较大小。但它有一个麻烦：如果加法产生了最高位的进位，需要把这个进位加回最低位（循环进位）。而且 +0 和 -0 的问题依然存在。

反码是一个过渡方案。真正优雅的解决来自补码。

2.3.4 补码

补码（Two's Complement） 是现代计算机实际使用的有符号整数编码。

正数的补码 = 原码（不变）
负数的补码 = 反码 + 1

以 -42 为例（8 位）：

+42 的原码：00101010
按位取反：11010101（得到反码）
加 1：11010110（得到补码）

所以 $-42$ 的补码是 11010110。

为什么补码能工作？一个直觉

想象一个只有 3 位的计数器，它能表示 000 到 111（0 到 7）。当你从 000 往下减 1，它会翻转到 111——就像里程表从 000 翻到 999。

这其实就是模运算：在 $\text{mod}\;2^3 = 8$ 的世界里， $-1$ 和 $7$ 是同一个东西，因为 $-1 + 8 = 7$ 。

补码就是利用了这个性质：用一个大正数来"代替"负数，这样加法器不需要关心正负，只要做普通的二进制加法（溢出的高位自然丢弃），结果就是对的。

验证：-42 + 42 应该等于 0

  11010110    (-42 的补码)
+ 00101010    (+42 的补码)
----------
 100000000    → 最高位溢出丢弃 → 00000000 = 0 ✓

补码的优势

只有一个零：00000000。不存在 -0，彻底消除了原码和反码的双零问题
加减法完全统一：减法就是加上对方的补码，不需要任何特殊处理。硬件只需要一个加法器
多出一个负数：8 位补码的范围是 $-128$ 到 $+127$ （而不是对称的 $-127$ 到 $+127$ ）。那个多出来的 $-128$ 对应 10000000——它没有对应的正数。这偶尔会导致微妙的 bug（比如 Math.abs(-128) 在 8 位下仍然是 -128）

无符号数

有些时候我们不需要负数——内存地址、像素颜色值、数组长度都不可能是负的。这时候可以把所有位都用来表示大小，没有符号位。

8 位无符号数的范围： $0$ 到 $255$ （ $2^8 - 1$ ）。

有趣的是，同一个比特序列在有符号和无符号下的含义可能完全不同：

11010110 作为有符号补码 = $-42$ ，作为无符号数 = $214$ 。

硬件加法器不关心你把它当有符号还是无符号——电路做的事情完全一样。区别只在于你（和编译器）怎么解释结果。

四种编码对比

用 8 位来表示几个关键值，看看各编码的差异：

| 真值 | 原码 | 反码 | 补码 | 无符号 | |:----:|:----:|:----:|:----:|:------:| | +42 | 00101010 | 00101010 | 00101010 | 00101010 (= 42) | | -42 | 10101010 | 11010101 | 11010110 | N/A | | +0 | 00000000 | 00000000 | 00000000 | 00000000 | | -0 | 10000000 | 11111111 | 不存在 | N/A | | +127 | 01111111 | 01111111 | 01111111 | 01111111 (= 127) | | -128 | 不可表示 | 不可表示 | 10000000 | N/A | | 255 | N/A | N/A | N/A | 11111111 |

| 编码 | 8 位范围 | 零的个数 | 加减法 | |:----:|:-------:|:------:|:-----:| | 原码 | -127 ~ +127 | 2 个 | 需要分情况 | | 反码 | -127 ~ +127 | 2 个 | 需要循环进位 | | 补码 | -128 ~ +127 | 1 个 | 完全统一 | | 无符号 | 0 ~ 255 | 1 个 | 完全统一 |

这两张表不需要死背每一格。真正要抓住的是这条线：原码最符合直觉，但硬件最难做；反码往统一加法迈了一步，但还留下双零和循环进位；补码牺牲了一点“对称感”，换来了一个极干净的结果——所有整数加减都能扔给同一个加法器。

2.3.5 符号扩展与零扩展：位宽变了，值要不要跟着变？

到这里，你已经见过同一串比特在“有符号 / 无符号”下会变脸。更现实的是：位宽也经常变。

比如你从内存里读了一个 8 位的 char，CPU 却习惯用 32 位寄存器做运算。那这个 8 位塞进 32 位时，左边多出来的那些位填什么？

答案只有两种：补 0，或者补符号位。

零扩展（Zero Extension）

当你把它当作无符号数时，左侧补 0。因为无符号数的“高位”本来就没有信息，补 0 才能保持数值不变：

8 位:  11101011
16 位: 00000000 11101011   (零扩展)

它仍然是 235。

符号扩展（Sign Extension）

当你把它当作补码有符号数时，左侧补的是最高位（符号位）。符号位是 1 就补 1，是 0 就补 0：

8 位:  11101011
16 位: 11111111 11101011   (符号扩展)

这串 16 位依然表示同一个真值：-21。

你甚至可以用“求补码真值”的方式自检一次：把 11111111 11101011 取反加 1 得到 00000000 00010101，也就是 21，所以它就是 -21。

扩展通常发生在你没注意的地方

你以为自己在玩 8 位，CPU 往往已经把它抬到了 32 位。

一个很经典的例子（在 C 里尤其常见）：

uint8_t a = 200;
uint8_t b = 100;
uint8_t c = a + b;   // c 是多少？

a 和 b 在做 + 之前会先被扩展到更宽的类型（通常是 int），所以中间结果是 300。最后再塞回 8 位 uint8_t，高位被截掉：

300 的二进制是 1 00101100
只保留低 8 位就是 00101100 = 44

所以 c 会是 44。

扩展这一步决定“你在更宽的世界里怎么理解原来的比特”；截断这一步决定“你怎么把结果塞回更窄的盒子”。很多所谓的“溢出”，其实就是这两步在联手干活。

2.3.6 移码

补码解决了有符号整数的问题。但还有一种场景：浮点数（IEEE 754）的指数部分需要快速比较大小。补码里 -1（11111111）的比特值比 +1（00000001）大——如果直接用无符号比较，结果是反的。

移码（Biased Encoding / Offset Binary） 的做法很直接：给真值加上一个固定的偏置值（Bias），把整个数轴往上平移，使得最小的负数映射到 0。

以 8 位、偏置值 128 为例：

$\text{移码} = \text{真值} + 128$

| 真值 | 补码 | 移码 | |:----:|:----:|:----:| | -128 | 10000000 | 00000000 | | -1 | 11111111 | 01111111 | | 0 | 00000000 | 10000000 | | +1 | 00000001 | 10000001 | | +127 | 01111111 | 11111111 |

看出规律了吗？移码的比特序和数值序完全一致——比特值越大的，真值也越大。这意味着你可以直接用无符号整数的比较电路来比较两个移码，不需要任何额外逻辑。

还有一个简洁的关系：移码 = 补码的符号位取反。对照上面的表，每一行的补码和移码，只有最高位不同。

移码主要用在 IEEE 754 浮点数的指数字段。等我们讲到浮点数时，你会看到它怎么让指数部分“能直接比大小”。

到这里，定点整数的表示已经基本闭合了：无符号数负责纯大小，补码负责有符号整数，符号扩展和零扩展负责位宽变化，移码负责“想保留大小顺序但又要处理负数”的场景。接下来问题就从“怎么存”变成了“这些位拿去算会发生什么”。

2.4 定点数的运算

到目前为止，我们一直在做一件事：把真值“翻译成比特”。但写代码或手算时，真正让人踩坑的是另一件事：这些比特拿去运算时发生了什么？

定点整数的好消息是：补码把加减法统一了，很多运算可以退化成“移位 + 加法”。坏消息是：位宽有限，你随时可能把结果挤出边界，然后它就会“绕回去”。

2.4.1 移位：位串一动，数值在动什么

先把两件事分清：

左移 <<：整体往高位推，右边补 0，最左边被挤出去的位直接丢掉
右移 >>：整体往低位推，左边补什么取决于你把它当作有符号还是无符号

对无符号数来说，移位很像数学：

x << k 相当于 $x \times 2^k$ （前提是高位没被挤掉）
x >> k 相当于 $\left\lfloor x / 2^k \right\rfloor$

举个 8 位的例子， $42 = 00101010_{(2)}$ ：

00101010 << 1 = 01010100   (42 × 2 = 84)
00101010 >> 1 = 00010101   (42 / 2 = 21)

但如果位宽装不下，左移会“看起来像突然变小了”。比如 8 位无符号的 200：

11001000 << 1 = 10010000

真实数学结果是 400，但 8 位只能留低 8 位，相当于 $400 \bmod 256 = 144$ 。

对有符号补码来说，右移通常做的是算术右移：左边补符号位（这本质上就是“边右移边符号扩展”）。这样负数右移后仍然是负的：

-5 的 8 位补码是 11111011
11111011 >> 1 = 11111101

这里不要死背“右移等于除以 2”。负数在不同语言/平台上的取整规则可能不完全一样，最稳的方式永远是：写出位串，右移一格，看它变成什么。

2.4.2 加法、减法与溢出：补码为什么这么省心

补码最爽的一点是：你不需要“减法器”。

$A - B = A + (-B)$

而 $-B$ 的补码正是“取反 + 1”。也就是说，减法就是把 $B$ 变成补码意义下的相反数，再加上去。

用 8 位算 $5-3$ ：

  00000101   (5)
+ 11111101   (-3 的补码：3 取反加 1)
---------
  00000010   (2)

然后是溢出。硬件不会替你报错，它只会把溢出的高位丢掉，结果按位宽“绕回去”。你要做的是区分两件事：

位串的计算结果对不对（它永远“按电路规则”对）
这个结果有没有超出你想表达的真值范围（这才叫溢出）

补码加法的溢出判断有个很干净的规则：

两个加数同号，结果却变号，溢出
两个加数异号，不会因为符号这件事溢出

最经典的 8 位例子： $127 + 1$ 。

  01111111   (127)
+ 00000001   (1)
---------
  10000000   (-128)

位串没算错，但真值已经超出 8 位补码的上界 127，所以溢出了。

2.4.3 乘法：为什么结果经常需要 2 倍位数

两个 $n$ 位数相乘，结果可能需要 $2n$ 位才能装下。直觉也很好：最大值大约是 $(2^n-1)^2$ ，量级接近 $2^{2n}$ 。

所以 CPU 往往会把乘法结果放到“更宽”的地方（比如 32 位乘 32 位给你 64 位结果）。如果你强行塞回原来的 $n$ 位，那就只剩下取低 $n$ 位：

$\text{truncate}(P) = P \bmod 2^n$

举个 8 位无符号的例子： $200\times 3 = 600$ 。

600 的二进制需要 10 位才能表示
塞回 8 位时只留低 8 位，相当于 $600\bmod 256 = 88$

这就是为什么你在小类型里做乘法，经常会“莫名其妙变成另一个数”。

2.4.4 如果你真的在用定点小数：小数点不动，尺度要自己管

回到 2.2 那句话：定点数的“小数点位置是约定好的”。

一个很常见的约定是：16 位里低 8 位当小数，记作 Q8.8。它表示的真值是：

$\text{real} = \frac{\text{stored}}{2^8}$

这会带来一个很舒服的性质：

加法/减法：直接按整数加减就行（因为尺度一样）

乘法会多出一个尺度因子：两个 Q8.8 相乘，等价于把两个整数相乘后除以 $2^{16}$ 。想把结果仍然写回 Q8.8，你需要再右移 8 位（也就是除以 $2^8$ ）。

用一个能手算的例子： $1.5\times 0.5 = 0.75$ 。

$1.5$ 存成 $1.5\times 256=384=0x0180$
$0.5$ 存成 $0.5\times 256=128=0x0080$

先按整数乘：

$384\times 128=49152=0xC000$

再把尺度调回 Q8.8（右移 8 位）：

$0xC000 >> 8 = 0x00C0 = 192$
$192/256=0.75$ ✓

除法也是同一套账：如果你想在结果里保留 8 位小数，就先把被除数左移 8 位再除。定点数的“快”和“可预测”，本质上来自你愿意自己扛这套尺度管理。

2.5 浮点数表示（IEEE 754）

到这里我们已经解决了“整数怎么存”“负数怎么存”“小数怎么转”的大半问题。现在只剩最烦的一类：实数。

你当然可以像 2.1.1 那样把一个实数写成“整数部分 + 小数部分”的二进制展开：

$d_m d_{m-1}\ldots d_1 d_0 . d_{-1} d_{-2}\ldots d_{-n}$

但你一动手就会发现两个麻烦：

有的数根本写不完（比如 $0.1_{(10)}$ 、 $1.2_{(10)}$ 在二进制里会无限循环）
有的数写得完，但位数长到离谱（比如 $5\times 2^{100}$ ）

IEEE 754 做的事情就是：用固定的 32 位或 64 位，把“范围”和“精度”拆开存。范围交给指数，精度交给尾数。

2.5.1 实数的二进制表示：小数点两边都是位权

二进制小数的规则其实和十进制完全一样：每一位的“价值”取决于它离小数点的位置。

小数点左边是 $2^0,2^1,2^2,\ldots$ ，右边是 $2^{-1},2^{-2},2^{-3},\ldots$ ：

| $2^3$ | $2^2$ | $2^1$ | $2^0$ | $2^{-1}$ | $2^{-2}$ | $2^{-3}$ | |:----:|:----:|:----:|:----:|:-------:|:-------:|:-------:| | 8 | 4 | 2 | 1 | 1/2 | 1/4 | 1/8 |

写成公式，就是把每一位的权重加起来：

V = \sum_{i=-n}^{m} b_i 2^i,\quad b_i \in \{0, 1\}

举两个“你能在脑子里算完”的例子。

$101.11_{(2)}$ ：

1\times 2^2 + 0\times 2^1 + 1\times 2^0 + 1\times 2^{-1} + 1\times 2^{-2} = 4 + 0 + 1 + 0.5 + 0.25 = 5.75

$1011.1_{(2)}$ ：

1\times 2^3 + 0\times 2^2 + 1\times 2^1 + 1\times 2^0 + 1\times 2^{-1} = 8 + 0 + 2 + 1 + 0.5 = 11.5

到这里你应该有一个非常踏实的结论：二进制小数不是“另一套数学”，就是位权。

2.5.2 十进制小数 → 二进制：乘 2 取整到底在取什么

在 2.1.1 里我们直接用了一个“步骤”：十进制小数反复乘以 2，取整数部分。第一次见这招的人都会问两个问题：

为什么是乘 2？不是乘 10 吗？
取出来的那个 0/1，到底对应二进制小数的哪一位？

先说结论：因为我们现在要的是二进制的小数位。十进制里要取下一位就乘 10；二进制里要取下一位就乘 2。底数是多少，就乘多少。

把它写成一个“能推出来”的式子，会一下子踏实很多。对任意 $x\in[0,1)$ ，假设它的二进制表示是：

$x = 0.b_1 b_2 b_3\ldots_{(2)}$

把它展开成位权和（每一位只有 0 或 1）：

$x = b_1 2^{-1} + b_2 2^{-2} + b_3 2^{-3} + \cdots$

两边乘 2：

$2x = b_1 + b_2 2^{-1} + b_3 2^{-2} + \cdots = b_1 . b_2 b_3\ldots_{(2)}$

这行等式在干一件非常具体的事：把二进制小数点整体右移一格。于是你立刻得到两个结论：

$2x$ 的整数部分就是 $b_1$ （而且只可能是 0 或 1，因为 $0\le x<1$ ）
把这个整数部分拿掉，剩下的小数部分又变成 $0.b_2 b_3\ldots_{(2)}$ ，可以继续用同样方法取下一位

所以“乘 2 取整”其实等价于：

$b_1 = \lfloor 2x \rfloor,\quad x \leftarrow 2x - b_1$

循环执行，就能依次得到 $b_1,b_2,b_3,\ldots$ 。

我们拿 $1.2$ 走一遍，你会看到“循环”是怎么来的。

整数部分 1 的二进制还是 1。麻烦在小数部分 $0.2$ ：

0.2 × 2 = 0.4  → 取 0
0.4 × 2 = 0.8  → 取 0
0.8 × 2 = 1.6  → 取 1，剩 0.6
0.6 × 2 = 1.2  → 取 1，剩 0.2
...            → 又回到了 0.2，开始循环

所以：

$0.2_{(10)} = 0.001100110011\ldots_{(2)}$

$1.2_{(10)} \approx 1.001100110011\ldots_{(2)}$

注意这里的关键词是“近似”。二进制写不完的小数，在计算机里一定要截断和舍入。这件事后面会以“浮点精度”的形式反复出现。

2.5.3 IEEE 754：二进制版科学计数法

如果我们只考虑“怎么表示得下”，最直接的办法就是学科学计数法：把小数点挪到最前面，只保留一段有效数字，剩下的用指数记录。

比如 $1011.1_{(2)}$ ，你完全可以把它改写成：

$1011.1_{(2)} = 1.0111_{(2)} \times 2^3$

这就是 IEEE 754 的核心形态：

V = (-1)^s \times M \times 2^E

$s$ 是符号位，决定正负
$M$ 是尾数（也叫 significand），决定“你保留了多少有效数字”
$E$ 是指数，决定“范围能有多大”

你可以把它理解成一个非常工程化的分工：指数负责“能不能表示得下”，尾数负责“表示得准不准”。

2.5.4 三段存储：s / exp / frac（single 与 double）

现在问题变得很具体： $(-1)^s\times M\times 2^E$ 里有三个角色，但机器只有一串固定长度的位。那这串位应该怎么切？

IEEE 754 的选择很直接：

正负只需要 1 位，所以最高位留给 $s$
范围主要由指数决定，所以中间一段留给 $exp$
精度主要由有效数字决定，所以剩下的大部分位留给 $frac$

注意名字上的一点差别：位串里存的是 $exp$ 和 $frac$ ，而不是直接存 $E$ 和 $M$ 。 $E$ 要从 $exp$ 里减 Bias 得到；正规数里的 $M$ ，要从 $frac$ 加上隐含位得到。

位编号从右往左数，最低位是 0：

| 格式 | 总位数 | $s$ （符号位） | $exp$ （阶码字段） | $frac$ （尾数字段） | Bias | |:---:|:-----:|:------------:|:----------------:|:-----------------:|:----:| | 单精度（float） | 32 | 第 31 位（1 位） | 第 30..23 位（8 位） | 第 22..0 位（23 位） | 127 | | 双精度（double） | 64 | 第 63 位（1 位） | 第 62..52 位（11 位） | 第 51..0 位（52 位） | 1023 |

这张表先当地图看：单精度是 1 + 8 + 23，双精度是 1 + 11 + 52。后面所有公式，本质上都是在解释这三段位怎么还原成一个数。

接下来最容易把人绕晕的是 $exp$ ：它看起来像指数，但它不是 $E$ 本身，而是“加过偏置（Bias）”的版本：

$E = \text{exp} - Bias$

那 Bias 到底解决什么问题？

很朴素： $E$ 必须允许是负数（小数点往左挪），但硬件里这一段 $exp$ 又天然更适合当无符号数来比较大小、做电路处理。所以 IEEE 754 直接用了我们刚刚见过的“移码”思路，把 $E$ 整体平移到无符号区间：

$\text{exp} = E + Bias$

Bias 选成 $2^{k-1}-1$ 不是拍脑袋，是因为 $exp$ 这段一共有 $k$ 位：

它理论上能表示 $0\sim 2^k-1$
但 IEEE 754 还要把 $exp=0$ 留给 0/非正规数，把 $exp=2^k-1$ 留给 $+\infty/-\infty$ 和 NaN
所以正规数真正可用的 $exp$ 范围只有 $1\sim 2^k-2$

我们希望 $E$ 的范围尽量围绕 0 对称，最自然的做法就是让 $E=0$ 对应到“可用区间的中间值”。这个中间值正好是：

$Bias = 2^{k-1}-1$

代入数字就是：

单精度 $k=8$ ： $Bias=2^7-1=127$
双精度 $k=11$ ： $Bias=2^{10}-1=1023$

你可以用三个点立刻自检一下（以单精度为例）：

$exp=127 \Rightarrow E=0$
$exp=128 \Rightarrow E=1$
$exp=126 \Rightarrow E=-1$

最后看 $frac$ 。它对应一段二进制小数，求值方式就是刚才那张位权表。逻辑上写成：

\text{frac} = 0.f_{n-1} f_{n-2}\ldots f_1 f_0 = f_{n-1}2^{-1} + f_{n-2}2^{-2} + \cdots + f_0 2^{-n}

它将决定 $M$ 的具体取值。

2.5.5 正规数（Normalized）：隐含的 1 是怎么省出来的

最常见的是正规数：exp 字段既不全 0，也不全 1（单精度就是 $1\le exp\le 254$ ）。

正规数一定能规格化成 $1.xxxx\times 2^E$ ，所以 $M$ 的最高位永远是 1。IEEE 754 干脆不存这个 1，把它当作“默认存在”，这就是所谓的隐含位（implicit leading 1）：

M = 1 + frac

于是（以单精度为例）：

V = (-1)^s \times (1+frac)\times 2^{exp-127}

这里有两个经常考的细节：

对单精度正规数： $-126 \le E \le 127$
对双精度正规数： $-1022 \le E \le 1023$

以及一个很重要的“精度直觉”：

单精度的 frac 只有 23 位，但因为隐含了 1，正规数的有效精度相当于 24 位
双精度相当于 53 位

2.5.6 非正规数与特殊值：0、∞、NaN 为什么能用一眼认出来

如果所有位串都按正规数解释，马上会遇到几个尴尬对象：

0 写不出来，因为正规数默认有一个隐含的 1， $M$ 至少是 1
靠近 0 的地方会突然断掉，最小正规数再往下没有平滑过渡
溢出、除以 0、非法运算这类结果需要一个明确的“标记位形”

所以 IEEE 754 没有把所有 $exp$ 编码都交给正规数，而是把 exp 的“全 0”和“全 1”留出来做特殊用途。

当 exp 全为 0：

frac 全为 0：得到 +0 或 -0
frac 不全为 0：得到非正规数（Denormalized）

非正规数的公式是：

V = (-1)^s \times frac \times 2^{1-Bias}

注意两点：

没有隐含 1（否则就回到正规数了）
指数固定为 $1-Bias$ 。以单精度为例， $1-127=-126$ 。这正是“最小正规数”的指数，从而让数轴在接近 0 的地方是连续过渡的

当 exp 全为 1：

frac 全为 0：得到 +∞ 或 -∞
frac 不全为 0：得到 NaN

把所有情况压成一张表，反而最省脑子：

| 类型 | exp | frac | 有效值/含义 | |:---:|:---:|:----:|:-----------:| | 正规数 | 非全 0、非全 1 | f | $(-1)^s\times (1+f)\times 2^{exp-Bias}$ | | 非正规数 | 全 0 | f（非 0） | $(-1)^s\times f\times 2^{1-Bias}$ | | ±0 | 全 0 | 全 0 | ±0 | | ±∞ | 全 1 | 全 0 | ±∞ | | NaN | 全 1 | 非 0 | Not a Number |

2.5.7 例子：2.25 的单精度怎么写（也顺便学会怎么读）

这类推导的核心其实就一句话：把数改写成 $1.xxx\times 2^E$ ，然后把 $E$ 和 $xxx$ 填进对应字段。

我们用 $2.25_{(10)}$ 来做一次“从零到位串”的完整推导。

第一步，转二进制：

$2.25_{(10)} = 10.01_{(2)}$

第二步，规格化：

$10.01_{(2)} = 1.001_{(2)}\times 2^1$

现在三个字段就出来了：

$s=0$ （正数）
$E=1$ ，单精度 $Bias=127$ ，所以 $exp = E + Bias = 128 = 10000000_{(2)}$
尾数字段 frac 取 $1.001_{(2)}$ 的小数部分 $001$ ，右侧补 0 补满 23 位

把 $s$ 、 $exp$ 、 $frac$ 三段按顺序拼起来：

0 10000000 00100000000000000000000

再按 4 位一组写成十六进制：

0100 0000 0001 0000 0000 0000 0000 0000 = 0x40100000

反过来，如果别人直接丢给你这一串（甚至只给你 0x40100000），你也可以按同样的顺序把它读回去：

符号位 0 → 正数
exp=10000000_{(2)}=128 → $E=128-127=1$
frac 以 $001\ldots$ 开头 → $M = 1.001_{(2)} = 1 + 2^{-3} = 1.125$

所以：

$V = 1.125\times 2^1 = 2.25$ ✓

2.5.8 表示精度与舍入：为什么 1.2 一定“存不准”

现在你应该能接受一个事实：float/double 并不是“实数”，而是一张有限大小的网格，真实值必须落到网格点上（或非常接近网格点的地方）。

用一个极小的玩具例子感受一下：如果我们只给尾数 3 位，那么

frac = 0.f_2 f_1 f_0

它在 $[0,1)$ 里只能表示 8 个点：

\left\{0,\frac{1}{8},\frac{2}{8},\ldots,\frac{7}{8}\right\}

真实值落在两个点之间时，只能挑一个更近的点去表示，这就是舍入（rounding）。尾数位数越多，网格越密，误差通常越小，但永远不可能覆盖所有实数。

对单精度来说，frac 有 23 位。你甚至可以把它当作一个整数 $F$ 来理解：

frac = \frac{F}{2^{23}},\quad 0\le F \le 2^{23}-1

因此在 $[1,2)$ 这个区间内，单精度能精确落到的点大约是每隔 $2^{-23}$ 一个。1.2 这种二进制无限循环小数，只能被截断、再舍入到其中一个点上，所以它在机器里一定是“附近的一个数”。

这也是为什么很多语言里都会出现 0.1 + 0.2 != 0.3：不是加法器坏了，而是输入本身就已经是近似了。

2.5.9 浮点数加减：对阶为什么会丢精度

你可能见过这种现象：一个很小的数加到一个很大的浮点数上，结果像是没变。不是加法器偷懒，而是两个数在相加之前，必须先把“小数点位置”对齐。

浮点数加减的核心步骤是：对阶 → 尾数加减 → 规格化 → 舍入 → 判溢出/下溢。

为什么要对阶？因为你没法直接把 $1.101\times 2^3$ 和 $1.11\times 2^1$ 的尾数相加，它们的小数点位置不在同一列。你必须先把指数调到一样，才有“同一位对同一位”的加法。

举个算得出来的例子：设

$A = 1.625\times 2^3 = 1.101_{(2)}\times 2^3$ $B = 1.75\times 2^1 = 1.11_{(2)}\times 2^1$

对阶（小阶向大阶对齐）：把 $B$ 的尾数右移 2 位，使指数变成 3：

$B = 0.0111_{(2)}\times 2^3$

尾数相加：

$A+B=(1.101_{(2)}+0.0111_{(2)})\times 2^3 = 10.0001_{(2)}\times 2^3$

规格化：

$10.0001_{(2)}\times 2^3 = 1.00001_{(2)}\times 2^4$

如果 frac 位数不够，右移和最后的舍入都会把低位挤掉，这就是精度损失的来源。

所以浮点数的麻烦不只在“存的时候可能不准”，也在“算的时候还会继续丢”。IEEE 754 解决的是有限位宽下的统一表示问题，不是把实数世界原封不动搬进机器里。

2.6 数据的宽度和存储

现在我们知道了数据怎么编码成 01。但一个具体的问题：int 占多少位？double 呢？当一个多字节的数据存进按字节编址的内存时，字节怎么排列？

2.6.1 常见的数据类型与宽度

数据类型的宽度不是一张孤立的表。它决定了三件事：这段位串占多少内存、能表示多大的范围、运算结果什么时候会被挤出边界。

先理清几个基本单位：

位（bit）：最小单位，一个 0 或 1
字节（Byte）：8 bit，是内存编址的基本单位
字（Word）：CPU 一次能处理的数据宽度，取决于架构——32 位 CPU 的字长是 32 bit，64 位 CPU 的字长是 64 bit

常见的 C 语言数据类型（以 64 位系统为例）：

| 类型 | 宽度 | 有符号范围 | 无符号范围 | |:----:|:----:|:--------:|:--------:| | char | 8 bit (1 Byte) | $-128$ ~ $+127$ | $0$ ~ $255$ | | short | 16 bit (2 Byte) | $-32768$ ~ $+32767$ | $0$ ~ $65535$ | | int | 32 bit (4 Byte) | $-2^{31}$ ~ $2^{31}-1$ | $0$ ~ $2^{32}-1$ | | long | 64 bit (8 Byte) | $-2^{63}$ ~ $2^{63}-1$ | $0$ ~ $2^{64}-1$ | | float | 32 bit (4 Byte) | 约 7 位有效数字 | — | | double | 64 bit (8 Byte) | 约 15 位有效数字 | — |

有符号整数的范围都是补码的范围，这也再次印证了：现代计算机用补码表示有符号整数。

2.6.2 大小端存储

一个 int 是 32 位 = 4 字节。内存是按字节编址的。那 4 个字节要占 4 个连续的地址——这 4 个字节按什么顺序放？

以 0x12345678 为例，它的 4 个字节从高位到低位是：12、34、56、78。假设起始地址是 0x100：

大端序（Big-Endian）——高位字节放在低地址，像人类书写数字的顺序：

| 地址 | 0x100 | 0x101 | 0x102 | 0x103 | |:----:|:-----:|:-----:|:-----:|:-----:| | 内容 | 12 | 34 | 56 | 78 |

小端序（Little-Endian）——低位字节放在低地址：

| 地址 | 0x100 | 0x101 | 0x102 | 0x103 | |:----:|:-----:|:-----:|:-----:|:-----:| | 内容 | 78 | 56 | 34 | 12 |

哪种更"自然"？取决于你怎么看。大端符合人类阅读习惯（从左到右，高位到低位）。小端方便硬件处理（要取最低字节时，地址偏移量总是 0，不管数据是 1 字节还是 4 字节）。

常见的大小端选择：

| 架构 / 场景 | 字节序 | |:-----------:|:-----:| | x86 / x86-64 | 小端 | | ARM（通常配置） | 小端 | | 网络字节序（TCP/IP） | 大端 | | Java 虚拟机 | 大端 |

为什么需要关心这个？ 当你在不同架构之间传数据（比如通过网络），或者手动读 hex dump 调试时，如果搞混了大小端，你读到的数值就是反的。这也是为什么网络编程中有 htonl（host to network long）这类函数——专门做字节序转换。

小结

从"42 在计算机里长什么样"出发，我们依次解决了这些问题：

计算机组成原理 101：从「我想算个东西」到现代计算机

Apr 10, 2026

用第一性原理拆解计算机系统的每一个设计决策——每个部件的存在，都是因为我们遇到了一个绕不开的问题。

Computer OrganizationArchitectureStudy

1.1 计算机系统概述

从一个最朴素的需求开始

我们想让机器帮我们算东西。

这个需求看起来很简单，但如果你从零开始想"怎么造一台能算东西的机器"，你会依次撞上一连串问题。这篇文章要做的事情就是：按顺序撞上这些问题，然后看人类是怎么解决它们的。

这也是计算机组成原理这门课的核心——不是让你背诵"计算机由五大部件组成"，而是让你理解：每一个部件、每一层设计，都是对一个具体困难的回应。

先造一个能算东西的机器

我们想做加减乘除、比较大小、做逻辑判断。那就造一个电路，给它两个输入和一个操作指令，它输出结果。

这就是算术逻辑单元（ALU, Arithmetic Logic Unit）。你告诉它"把 A 和 B 加起来"，它就输出 A + B。

好，我们有了一个计算器。但马上遇到一个问题：ALU 每次计算都需要输入，而且计算结果经常是下一步计算的输入。如果每个数据都要人手动输入，那还不如拿笔算。

所以我们需要存储器（Memory）——一个能记住数据的地方。把待计算的数放进去，算完的结果也放进去，下次直接取。

现在我们能算、也能记了。但新的问题又来了：谁来告诉机器"先算哪个、再算哪个"？ALU 只会执行单条操作，它不知道"接下来该做什么"。我们需要一个角色来读取指令、理解指令的含义、然后给 ALU 和存储器发出正确的信号。

这就是控制器（Control Unit）。它的工作是：

拿到一条指令
弄清楚这条指令要做什么（译码）
向 ALU、存储器等部件发出控制信号
推进到下一条指令

控制器 + ALU 合在一起，就是我们说的 CPU（Central Processing Unit，中央处理器）。

到这里，我们的机器已经能按照一系列指令自动计算了。但还差一步：数据从哪来？结果往哪去？

数据从哪来，结果往哪去？

我们的机器现在只能对存储器里已有的数据做计算。可是最初的数据总要有个来源——键盘敲入、纸带读入、传感器采集；算完的结果也需要有个去处——显示在屏幕上、打印出来、传给另一台机器。

这就是输入设备（Input） 和输出设备（Output） 存在的理由。它们是计算机和外部世界之间的桥梁：输入设备把外部信息转换成机器能处理的数据，输出设备把计算结果转换成人或其他系统能使用的形式。

好，现在我们有了能算（ALU）、能记（存储器）、能指挥（控制器）、能交互（I/O）的完整机器。看起来不错——但这台机器有一个致命的缺陷。

换个任务就要改电路？

早期的计算设备（比如 ENIAC）把"这个任务要做哪些步骤"直接编码在物理线路里。想算弹道？接好线。想算天气预报？把线全拔了重接。

这显然不可持续。问题的本质是：程序（做什么）和硬件（用什么做）绑死了。

1945 年，冯·诺依曼提出了一个看似简单但影响深远的想法：

把程序（指令序列）也当作数据，存进存储器里。

这就是存储程序思想（Stored-program concept），也是冯·诺依曼架构的核心。它的直接后果是：

换任务不需要改硬件，只需要换内存里存的程序
程序可以被复制、传输、存储——软件作为一个独立概念诞生了

还有一个容易忽略但非常重要的推论：既然指令也当数据存，那在存储器里，指令和数据都是二进制串，形式上没有任何区别。同一个 32 位的 01 序列，可能是一条加法指令，也可能是一个整数——光看这串比特，你分不出来。

那计算机怎么区分？靠的是上下文：PC 指向的地址，CPU 就当它是指令去取指和译码；运算时从存储器取来的，就当它是数据。如果程序跑飞了（PC 指到了一堆数据上），CPU 会把数据当指令执行——结果当然是灾难性的。

冯·诺依曼架构的五大部件

在这个思想下，一台通用计算机由五个部件组成：

| 部件 | 它解决什么问题 | |------|--------------| | 运算器（ALU） | 怎么计算 | | 控制器（CU） | 按什么顺序计算，怎么协调 | | 存储器（Memory） | 指令和数据存在哪 | | 输入设备（Input） | 数据和程序怎么进来 | | 输出设备（Output） | 结果怎么出去 |

它们之间怎么连接？

这五个部件之间有三种信号在流动：

数据（实线）：实际要处理的数值、指令内容
控制（黑色虚线）：控制器发出的指挥信号，告诉各部件"该你做什么了"
反馈/状态（蓝色虚线）：各部件向控制器汇报自己的状态

在冯·诺依曼的原始设计中，运算器是数据通路的中心：

输入设备 → 运算器 → 存储器
存储器 → 运算器 → 输出设备

所有数据——无论是从输入设备读入还是从存储器取出——都要经过运算器中转。输入设备不能直接把数据写进存储器，输出设备也不能直接从存储器读数据。控制器则像指挥官一样，向所有部件发出控制信号（但自己不搬运数据），同时接收各部件的状态反馈来决定下一步。

这个设计在当时很合理（运算器本身就有寄存器和数据通路，复用它来中转数据可以减少硬件），但也成了后来的瓶颈之一——所有数据都要挤运算器这一条路。现代计算机已经改成了以存储器为中心的结构，I/O 设备可以通过 DMA 直接和内存交换数据，不再事事经过 CPU。

取指 - 译码 - 执行：CPU 的日常

把"程序存在内存里"这个设计落到执行过程上，就是一个不断重复的循环：

取指（Fetch）→ 译码（Decode）→ 执行（Execute）→ 取下一条指令 → ...

这个循环就是 CPU 日复一日在做的事情。现代 CPU 上的绝大多数复杂机制（流水线、分支预测、乱序执行……）本质上都是在让这个循环跑得更快、更稳。后续文章会逐一展开。

小结

从"我想让机器帮我算东西"出发，我们依次撞上了五个问题，它们催生了现代计算机的基本骨架：

| 遇到的问题 | 催生的设计 | |-----------|----------| | 怎么让机器算？ | 算术逻辑单元（ALU） | | 数据和结果放哪？ | 存储器（Memory） | | 谁来指挥执行顺序？ | 控制器（Control Unit）→ CPU | | 数据从哪来、结果往哪去？ | 输入/输出设备（I/O） | | 换任务就要改电路？ | 存储程序思想 → 冯·诺依曼架构 |

冯·诺依曼架构不是凭空设计出来的"标准答案"，而是从一个又一个实际困难中长出来的。理解这条因果链，比背诵"五大部件"有用得多。

1.2 计算机硬件的基本组成

"五大部件"只是一张概念地图。真正的计算机里，这些部件内部长什么样？这一节逐个拆开看。

1.2.1 中央处理器（CPU）

CPU 是整台计算机的核心部件，负责指令的执行。它内部由两大部分组成：数据通路（Datapath） 和控制器（Controller）。

数据通路包含算术逻辑部件和寄存器等，负责执行算术和逻辑运算。但光有运算能力还不够——ALU 每次运算需要输入，运算完还有输出，这些中间数据总不能每次都跑回主存取，那太慢了。所以 CPU 内部配了一组寄存器（Register），它们是离 ALU 最近的存储单元，容量极小（通常几十个，每个 32 或 64 位），但和 ALU 直接用导线相连，速度和 CPU 本身一样快。

数据通路里的关键角色：

ALU：执行算术和逻辑运算的核心电路
ACC（Accumulator，累加寄存器）：ALU 的默认操作对象，运算结果通常存在这里
MQ（乘商寄存器）：辅助乘法和除法——两个 32 位数相乘结果可能是 64 位，ACC 一个装不下，高位溢出到 MQ
X（操作数寄存器）：暂存从存储器取来的另一个操作数
通用寄存器（GPR）：现代 CPU 中更灵活的做法，不再绑定"累加器"的角色，比如 x86 的 EAX/EBX，ARM 的 R0-R15

控制器负责对指令进行译码，生成相应的控制信号，以控制数据通路进行正确的操作。它自己不做计算、不搬数据，但它决定每一步该做什么、谁该动、数据往哪走。

控制器里的关键角色：

PC（Program Counter，程序计数器）：存放下一条要执行的指令的地址。CPU 每取完一条指令，PC 就自动指向下一条；遇到跳转指令时，PC 被直接改写
IR（Instruction Register，指令寄存器）：存放当前正在执行的指令。指令从主存取出后先放在这里，控制器再对它进行译码
CU（Control Unit，控制单元）：对 IR 中的指令译码，生成一系列控制信号，驱动数据通路、存储器、I/O 协同工作

1.2.2 存储器

存储器其实分两种角色。

主存储器（Main Memory，内存） 是 CPU 能直接访问的存储器，程序在执行时，指令和数据就住在这里。从逻辑上看，主存就像一个线性数组，每个存储单元都有唯一的地址，这些地址从 0 开始编号。

把主存想象成一栋公寓楼：存储体是整栋楼，存储单元是每一个房间（每个房间有唯一的门牌号，即地址），房间里住的内容叫存储字，每个房间能住多少位数据就是存储字长（比如 32 位，就是 32 个 bit）。

CPU 想访问某个"房间"，需要通过两个寄存器完成：

MAR（Memory Address Register，存储地址寄存器）：CPU 把要访问的地址放在这里——"我要去 307 号房间"
MDR（Memory Data Register，存储数据寄存器）：数据经过这里进出——读的时候存储器把数据放进 MDR，写的时候 CPU 把数据放进 MDR

再加上一个读/写控制信号，就构成了 CPU 和主存之间完整的接口。

但主存有一个天然的局限：断电数据就丢了（易失性），而且容量有限。暂时用不到的数据放哪？这就需要辅助存储器（Secondary Storage，外存）——用来存放暂时用不到的数据，需要时再和主存交换。目前最常见的两种外存是 SSD（固态硬盘） 和 HDD（机械硬盘，也叫磁盘）。

外存的特点是：容量大、断电不丢数据（非易失性），但 CPU 不能直接访问——数据必须先调入主存，CPU 才能处理。这也是为什么你装了 1TB 硬盘但只有 16GB 内存时，开太多程序会卡——程序必须在内存里才能跑，硬盘再大也不能直接当内存用。

实际上主存和 CPU 之间还有一层高速缓存（Cache），它用来缓解 CPU 和主存之间的速度差距。Cache 在后面的存储系统章节会展开，这里先知道它的存在就好。

1.2.3 I/O 设备（外设）

计算机要和外部世界打交道，就需要 I/O 设备。每个 I/O 设备由两部分组成：

机械部分（外设本身）：就是你看得见摸得着的那个东西——键盘、鼠标、显示器、打印机
电子部分（设备控制器）：也叫 I/O 控制器或 I/O 适配器，统称为设备控制器。它是外设和计算机系统之间的翻译官——外设千差万别，但 CPU 和总线只认统一的信号协议，设备控制器就负责在两者之间做转换

为什么需要设备控制器？因为外设的种类和速度差异太大了——键盘每秒产生几十字节，网卡每秒传 125 MB，显卡每秒要处理几 GB 的像素数据。如果让 CPU 直接和每种外设的物理接口打交道，CPU 的设计会变得极其复杂。设备控制器把这个复杂性封装起来，对 CPU 暴露统一的接口。

1.2.4 总线

现在我们有了 CPU、存储器、I/O 设备，但它们是独立的芯片或模块——它们之间靠什么通信？

靠总线（Bus）。总线是计算机系统中各部件之间传输信息的公共通道，你可以把它想象成一组共享的导线，所有部件都挂在上面，通过它传输数据、地址和控制信号。

主板上那些黄色的插槽（PCIe 插槽）就是总线的物理形态之一——显卡、网卡、NVMe SSD 都通过它们和系统连接。

把它们串起来：一条指令的完整旅程

现在我们知道了每个部件内部长什么样，来看看一条具体的 ADD 指令——"把内存地址 5 的数据取出来，加到 ACC 上"——是怎么在这些部件之间跑完全程的：

初始状态：PC = 0（指向这条 ADD 指令的地址）

取指阶段：
  PC → MAR          // CPU 告诉主存："我要地址 0 的内容"
  主存(0) → MDR     // 主存把 ADD 指令送到 MDR
  MDR → IR          // 指令进入指令寄存器
  PC + 1 → PC       // PC 自增，指向下一条指令

译码阶段：
  CU 分析 IR        // 发现是 ADD 指令，操作数地址是 5

执行阶段：
  IR(地址码) → MAR   // CPU 告诉主存："我要地址 5 的数据"
  主存(5) → MDR     // 主存把数据送到 MDR
  MDR → X           // 数据进入操作数寄存器
  ACC + X → ACC     // ALU 做加法，结果写回 ACC

每一步都是"某个寄存器的内容被送到另一个寄存器"或者"ALU 被触发做运算"。控制器的全部工作就是按正确的顺序发出这些微操作的控制信号。这也是 1.1 中"取指 → 译码 → 执行"循环的具体硬件实现。

小结

| 部件 | 核心组成 | 关键寄存器 / 组件 | |------|---------|----------------| | CPU | 数据通路（ALU + 寄存器组）+ 控制器（CU） | ACC、MQ、X、GPR、PC、IR | | 主存储器 | 存储体 + 读写电路 | MAR（地址）、MDR（数据） | | 辅助存储器 | SSD / HDD | — | | I/O 设备 | 外设本身 + 设备控制器 | — | | 总线 | 数据 / 地址 / 控制信号的公共通道 | — |

1.3 计算机系统的抽象层次

前面我们聊的是硬件——CPU、存储器、总线。但你日常写的是 Python、Java、TypeScript——离寄存器和导线远得很。从你敲下 a + b 到 ALU 真正做加法，中间隔了多少层？

这就涉及到计算机系统的层次结构——从最上层的应用问题到最底层的物理器件，是一层一层搭起来的：

| 层次 | 属于 | |------|------| | 应用（问题） | 软件 | | 算法 | 软件 | | 编程（语言） | 软件 | | 操作系统 / 虚拟机 | 软件 | | ISA（指令集架构） | 软硬件交界 | | 微体系结构 | 硬件 | | 功能部件 / RTL | 硬件 | | 电路 | 硬件 | | 器件 | 硬件 |

每一层只需要知道下一层提供了什么"服务"，而不需要知道它是怎么实现的。你写 Python 不需要知道操作系统怎么调度进程，操作系统不需要知道 CPU 内部的流水线怎么跑。这就是抽象的力量——每层把下层的复杂性封装起来，向上层暴露简洁的接口。

其中 ISA（Instruction Set Architecture，指令集架构） 是一条关键的分界线。它定义了软件能看到的硬件接口：有哪些指令、有哪些寄存器、内存怎么编址、数据怎么表示。ISA 之上的所有层（编程语言、OS、应用）都是软件，ISA 之下的所有层（微架构、电路、器件）都是硬件。同一套 ISA（比如 x86-64 或 ARM），可以有完全不同的硬件实现——Intel 和 AMD 的 CPU 都跑 x86-64 指令，但内部微架构完全不同。

语言与翻译程序

在层次结构中，"编程语言"这一层特别值得展开，因为它直接关系到你写的代码如何变成机器能执行的东西。

高级语言是程序员日常使用的语言——C、Java、Python、Rust。它们和底层计算机结构关联不大，是机器无关的。这意味着同一段 C 代码可以在 x86 机器上跑，也可以在 ARM 机器上跑（只要有对应的编译器）。但代价是：计算机无法直接识别和执行高级语言。

低级语言则和运行程序的计算机底层结构密切相关，因此也叫机器级语言。它分两种：

机器语言：计算机唯一能直接识别和执行的语言——就是纯粹的二进制 01 串。比如 55 89 e5 83 ec 10 这串十六进制（本质是二进制），对 x86 CPU 来说就是一串合法的指令
汇编语言：用英文单词或缩写代替二进制指令码，比如 push %ebp、mov %esp,%ebp、add %edx,%eax。它和机器语言一一对应，只是更容易记忆和理解

那高级语言怎么变成机器能执行的低级语言？靠翻译程序：

编译程序（编译器）：把高级语言一次性整体翻译成低级语言。严格来说，编译器通常先翻译成汇编语言，再由汇编器翻译成机器语言（下一节 1.4 会展开这个完整流程）。翻译和执行是分开的两个阶段
汇编程序（汇编器）：把汇编语言翻译成机器语言。因为汇编和机器码基本一一对应，所以这一步相对直接
解释程序（解释器）：把源程序逐条翻译并立即执行，不生成独立的可执行文件。比如 Python 解释器就是边翻译边执行

一个关键区别：编译是"先全部翻译，再执行"，解释是"翻译一句，执行一句"。编译后的程序通常跑得更快（因为翻译工作已经提前做完了），但解释器更灵活（可以边写边跑，适合交互式开发）。

所以当你写下 a + b 然后按下运行：

你的代码 (Python)
  → 解释器 / 编译器
    → 机器指令 (二进制)
      → CPU 取指、译码、执行
        → ALU 做加法

从高级语言到 ALU 做加法，中间经过的每一层都在做同一件事：把上层的抽象翻译成下层能理解的形式。

1.4 从源文件到可执行文件

"编译器把高级语言翻译成机器语言"——这其实是一个粗略的说法。以 C 语言为例，从源代码到可执行文件，中间要经过四个阶段。用一个具体的例子走一遍：

// hello.c
#include <stdio.h>
int main() {
    printf("hello, world\n");
    return 0;
}

预处理阶段

预处理器（cpp）处理所有以 # 开头的命令。比如 #include <stdio.h> 会被替换成 stdio.h 头文件的实际内容，#define 定义的宏会被展开。

输出：hello.i——一个修改后的 C 源程序，仍然是文本文件，只是把所有预处理指令都"兑现"了。

编译阶段

编译器（cc1）把预处理后的 C 代码翻译成汇编语言。这一步完成了从高级语言到低级语言的核心转换——变量名变成了寄存器操作，函数调用变成了跳转指令，控制流变成了条件分支。

输出：hello.s——一个汇编语言的文本文件。

汇编阶段

汇编器（as）把汇编语言翻译成机器语言指令，并打包成一种叫做可重定位目标文件的格式。"可重定位"意味着这个文件里的地址还不是最终地址——因为它可能要和其他文件合并，最终地址得等链接的时候才能确定。

输出：hello.o——二进制文件，不再是人类可读的文本了。

链接阶段

我们的程序调用了 printf 函数，但 printf 的代码并不在 hello.c 里——它在标准库的一个预编译好的目标文件 printf.o 中。链接器（ld） 负责把 hello.o 和 printf.o（以及其他需要的库文件）合并到一起，把所有地址都确定下来。

输出：hello——最终的可执行目标文件，可以被加载到内存中由系统执行。

整个流程一览

hello.c（源程序，文本）
  → 预处理器 (cpp)
    → hello.i（修改后的源程序，文本）
      → 编译器 (cc1)
        → hello.s（汇编程序，文本）
          → 汇编器 (as)
            → hello.o（可重定位目标程序，二进制）
              → 链接器 (ld) ← printf.o 等库文件
                → hello（可执行目标程序，二进制）

四个阶段，文件形态从文本 → 文本 → 文本 → 二进制 → 二进制，每一步都在把代码往"机器能直接执行"的方向推进一步。理解这个过程之后，你就能明白为什么"编译错误"和"链接错误"是两种完全不同的错误——它们发生在不同的阶段，报错的东西也完全不一样。

1.5 计算机的性能指标

我们造出了计算机，也知道了从源代码到执行的全过程。下一个自然的问题是：怎么衡量一台计算机"快不快"？

吞吐量与响应时间

衡量"快"首先要分清你关心的是哪种快：

吞吐量（Throughput）：单位时间内完成的工作量。服务器关心这个——每秒能处理多少请求
响应时间（Response Time）：也叫执行时间，一个任务从提交到完成所用的时间。用户关心这个——点击之后多久出结果

但有一个重要的细节：用户感觉到的程序运行时间，并不等于程序真正在执行代码的时间。 响应时间其实可以拆成两部分：

CPU 时间：CPU 真正花在这个程序上的时间，又可以细分为：

用户 CPU 时间：执行用户程序代码的时间
系统 CPU 时间：为了执行用户程序，CPU 运行操作系统代码的时间（比如系统调用、内存分配）

其他时间：等待 I/O 完成的时间、CPU 被调度去执行其他程序的时间等。

所以当你觉得程序"卡了 3 秒"，可能 CPU 只花了 0.5 秒在你的代码上，剩下 2.5 秒都在等磁盘读数据。这也是为什么优化性能时，"先搞清楚时间花在哪了"比"盲目提高 CPU 速度"重要得多。

时钟周期

CPU 执行指令的过程被分成若干步骤，每一步都由控制信号驱动。这些信号何时发出、作用多长时间，都由一个统一的节拍器来协调——这就是 CPU 的主脉冲信号。

每一个脉冲的宽度就是一个时钟周期（Clock Cycle），它是 CPU 工作的最小时间单位。就像节拍器的每一"嗒"——CPU 的所有动作都踩着这个节拍进行。

时钟频率（主频）

主频就是主脉冲信号的频率——每秒产生多少个时钟周期。它和时钟周期互为倒数：

\text{主频} = \frac{1}{\text{时钟周期}}

比如 3.5 GHz 的 CPU，每秒产生 35 亿个时钟脉冲，每个时钟周期约 0.286 ns。频率越高，节拍越快，单位时间能做的步骤就越多。

但主频高不一定快——这取决于每条指令需要多少个时钟周期才能完成。

CPI（Cycles Per Instruction）

CPI 有两层含义：

对于一条指令：执行这条指令所需的时钟周期数
对于一个程序：程序中所有指令的平均时钟周期数

不同指令需要的周期数差异很大。打个比方，如果"复习 408"是一个程序，它有三条"指令"：

| 指令 | 花费的时钟周期 | |------|-------------| | 预习课本 | 2 | | 看视频精讲 | 6 | | 整理笔记做题 | 10 |

这个程序的总时钟周期 = 2 + 6 + 10 = 18，CPI = 18 / 3 = 6（平均每条指令 6 个周期）。

CPU 执行时间

有了上面的概念，就能算出一个程序到底跑多久。公式有两种等价写法：

\text{CPU 执行时间} = \frac{\text{指令条数} \times \text{CPI}}{\text{主频}}

\text{CPU 执行时间} = \text{指令条数} \times \text{CPI} \times \text{时钟周期}

继续用上面的例子：3 条指令，CPI = 6，假设主频 50 Hz：

\text{CPU 执行时间} = \frac{3 \times 6}{50} = 0.36 \text{s}

或者用时钟周期算：时钟周期 = 1/50 = 0.02s，CPU 执行时间 = 3 × 6 × 0.02 = 0.36s。两个公式结果一致。

这个公式的价值在于它告诉你性能优化有三个正交的方向：

| 因子 | 由什么决定 | 怎么优化 | |-----|---------|--------| | 指令条数 | 算法 + 编译器 | 更好的算法、更聪明的编译优化 | | CPI | CPU 微架构 + 指令类型 | 流水线、缓存、乱序执行 | | 时钟周期 | 主频 / 制程工艺 | 更先进的工艺、更高的频率 |

它们之间经常互相制约——用更复杂的指令（CISC 风格）可以减少指令条数，但可能增加 CPI；提高主频可以缩短时钟周期，但会增加功耗和散热。这就是为什么单看主频比大小没有意义。

MIPS（Million Instructions Per Second）

MIPS 表示每秒执行多少百万条指令，是一个更直观的速度指标：

\text{MIPS} = \frac{\text{指令条数}}{\text{执行时间} \times 10^6} = \frac{\text{主频}}{\text{CPI} \times 10^6}

继续用上面的例子：主频 50 Hz，CPI = 6：

\text{MIPS} = \frac{50}{6 \times 10^6} = 8.33 \times 10^{-6}

（当然，这个比喻中的"主频 50 Hz"是为了方便理解。真实 CPU 主频是 GHz 级别，MIPS 值通常在几千到几万。）

类似地，FLOPS（Floating-point Operations Per Second） 衡量每秒浮点运算次数，常用于科学计算和超算的性能评估。

小结

| 指标 | 衡量什么 | |------|---------| | 吞吐量 | 单位时间完成多少工作 | | 响应时间 | 一个任务从提交到完成要多久 | | 时钟周期 | CPU 最小的工作节拍 | | 主频 | 每秒多少个时钟周期 | | CPI | 每条指令平均要几个周期 | | CPU 执行时间 | 指令条数 × CPI × 时钟周期 | | MIPS | 每秒执行多少百万条指令 | | FLOPS | 每秒多少次浮点运算 |