# Linux 内核内存屏障原理一

抽象内存访问模型

看如下内存模型，图中包含两个CPU ，一个内存，一个外设，每个CPU 执行自己访问内存的指令集，在这个抽象CPU模型中，每个CPU 访问内存的指令执行顺序是松散模型，每个CPU可以在保证正确的数据依赖情况下随意执行指令集中访问内存的指令（如：int a = 1; b = a+1; 此时 b依赖 a 所以这两个操作不会发生重排序，而对于 int a = 1; b=1; 那么这两个赋值操作可以随意顺序执行，由 CPU 自己决定），且每个CPU执行的内存操作一定会被其他CPU或者设备感知，也即忽略 CPU 缓存行。同样，我们知道指令集由编译器生成，我们写的 C 的源程序，编译成汇编语言后，编译器可以根据目标CPU平台的流水线设计与ISA的特性，来决定生成的指令集的顺序，这些顺序不会影响到实际C程序想表达的操作，比如上述 a 和 b 变量的写入操作若不发生数据依赖，那么可以重排序。

由于忽略缓存，因此在下图的描述中，每个 CPU 执行的操作内存的指令结果，都会被外设和其他CPU所看到（看下图 Device 跟 CPU 和内存的访问接口均可看到）。

                     :                :
                    :                :
                    :                :
        +-------+   :   +--------+   :   +-------+
        |       |   :   |        |   :   |       |
        |       |   :   |        |   :   |       |
        | CPU 1 |<----->| Memory |<----->| CPU 2 |
        |       |   :   |        |   :   |       |
        |       |   :   |        |   :   |       |
        +-------+   :   +--------+   :   +-------+
            ^       :       ^        :       ^
            |       :       |        :       |
            |       :       |        :       |
            |       :       v        :       |
            |       :   +--------+   :       |
            |       :   |        |   :       |
            |       :   |        |   :       |
            +---------->| Device |<----------+
                    :   |        |   :
                    :   |        |   :
                    :   +--------+   :
                    :                :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

我们来看以下两个 CPU 的执行指令。初始时：A = 1 ，B = 2 。

    CPU 1           CPU 2
    =============== ===============
    { A == 1;       B == 2 }  // 变量初始值
    A = 3;          x = A;
    B = 4;          y = B;

1
2
3
4
5

此时，由于 CPU 可以决定非数据依赖的操作顺序，比如 CPU 1 可以随意先给 B 赋值，再给 A 赋值，同理 CPU 2 也是，因为这些指令毫无依赖性可言。所以将会产生如下 24 种组合（其中，STORE 表示赋值操作， LOAD 表示加载操作）。

    STORE A=3,  STORE B=4,  x=LOAD A->3,    y=LOAD B->4 
    STORE A=3,  STORE B=4,  y=LOAD B->4,    x=LOAD A->3
    STORE A=3,  x=LOAD A->3,    STORE B=4,  y=LOAD B->4
    STORE A=3,  x=LOAD A->3,    y=LOAD B->2,    STORE B=4
    STORE A=3,  y=LOAD B->2,    STORE B=4,  x=LOAD A->3
    STORE A=3,  y=LOAD B->2,    x=LOAD A->3,    STORE B=4
    STORE B=4,  STORE A=3,  x=LOAD A->3,    y=LOAD B->4
    STORE B=4, ...
    ...

1
2
3
4
5
6
7
8
9

此时，对于 x 和 y 变量而言，将会导致如下四种组合值。

    x == 1, y == 2
    x == 1, y == 4
    x == 3, y == 2
    x == 3, y == 4

1
2
3
4

除了上述顺序之外，我们还需要注意：在松散CPU模型中，CPU 向内存写入变量的顺序可能不会被其他 CPU 以该写入顺序所看到，来看如下例子。初始时： A = 1，B = 2，C = 3，P = A的地址，Q = C的地址。

    CPU 1       CPU 2
    =============== ===============
    { A == 1, B == 2, C = 3, P == &A, Q == &C }
    B = 4;      Q = P;
    P = &B      D = *Q;

1
2
3
4
5

此时，我们看到明显的数据依赖： D 依赖于 Q。于是对于 Q 和 D 的最终值可能如下：

    (Q == &A) and (D == 1)  // CPU 2 先执行完毕  CPU 1 未执行
    (Q == &B) and (D == 2)  // CPU 1 首先执行 P = &B 但未执行 B = 4，此时 CPU 2 执行完毕 
    (Q == &B) and (D == 4)  // CPU 1 首先执行 P = &B 也执行 B = 4，此时 CPU 2 执行完毕

1
2
3

得到上述顺序的原因为：CPU 2 将不会重排序 Q 的赋值和 D 的赋值操作，因为 CPU 总是先加载 P 放入 Q种，然后再使用它 why？因为数据依赖性必须保证，否则完全违背了编程的语义。

# 抽象CPU模型对设备访问操作的影响

外设通常使用 MMIO 模型来操作，也即将一组虚拟内存映射为IO的操作 PORT 端口，这时我们读写设备，就如同操作普通变量一样，此时这些访问 IO 的虚拟内存和寄存器的指令执行顺序就相当重要。例如，考虑现在有一个以太网的网卡，它包含一组控制寄存器，这些寄存器通过映射技映射到地址端口寄存器 A（指明要访问网卡中的哪个寄存器）和数据端口寄存器 B（于网卡对应寄存器传输数据），此时需要读取网卡内部 5 号寄存器，那么需要执行以下代码：

    *A = 5; // 设置需要访问 5 所映射的网卡内部寄存器
    x = *D; // 读取数据放入 x 变量

1
2

我们根据上面介绍的抽象 CPU 模型来看，由于 A 和 D、x 都没有数据依赖性，那么此时将会发生如下两种顺序：

    1：STORE *A = 5, x = LOAD *D
    2：x = LOAD *D, STORE *A = 5

1
2

对于第一种情况我们可以正确读取到数据，但，第二种情况是啥？由于寄存器号还没有指定，可能还是一个脏值，此时将发生非常严重的错误。

# 抽象CPU模型的保证

抽象CPU模型有如下最低限度的操作顺序保证：

1、当 CPU 在执行指令流时，当发现数据依赖，那么将按照依赖顺序来操作内存。如：

Q = P; D = *Q;

CPU 将总是按照如下指令顺序执行：

Q = LOAD P, D = LOAD *Q  // 先加载 p 的值赋值到 Q 中，随后加载 Q 地址的值放入 D中

2、重叠的加载和存储操作将按照顺序执行，也即在同一个 CPU 执行过程中，可以先加载一个地址的值，计算后写入同一个地址的值，如：

a = *X; *X = b; // 先获取 X 地址的值，然后再将 b 的值 写入 X 地址

那么CPU总是按照如下顺序来执行指令来执行：

a = LOAD *X, STORE *X = b

再入：

*X = c; d = *X; // 先将c变量的值放入 x 地址处，随后将 x地址的值读入 变量 d中

CPU 将按照如下指令顺序来执行：

STORE *X = c, d = LOAD *X

3、对相互独立的写指令和读指令（也即没有数据依赖的指令）不规定执行顺序，如：

X = *A; Y = *B; *D = Z; // 此时 X,Y,D 相互独立

此时将可能发生如下执行顺序：

X = LOAD *A,  Y = LOAD *B,  STORE *D = Z // 顺序执行
X = LOAD *A,  STORE *D = Z, Y = LOAD *B // 先执行 X = *A ，后执行 *D = Z ，最后执行 Y = *B
Y = LOAD *B,  X = LOAD *A,  STORE *D = Z
Y = LOAD *B,  STORE *D = Z, X = LOAD *A
STORE *D = Z, X = LOAD *A,  Y = LOAD *B
STORE *D = Z, Y = LOAD *B,  X = LOAD *A

1
2
3
4
5
6

4、对于连续的内存访问操作可以进行合并。如：

X = *A; Y = *(A + 4);  // 分别读取 地址 A 和 地址 A + 4 的值 放入 X 和 Y 中

此时可能产生如下顺序：

X = LOAD *A; Y = LOAD *(A + 4);  // 先加载 A 再加载 A + 4
Y = LOAD *(A + 4); X = LOAD *A; // 先加载 A + 4 再加载 A
{X, Y} = LOAD {*A, *(A + 4) }; // 合并加载 A 和 A + 4 的值

1
2
3

并且对于：

*A = X; Y = *A; // 先加载 X 放入 地址 A，再读入 地址 A 的值放入 Y

可能产生如下顺序：

STORE *A = X; Y = LOAD *A; // 先将 X 的值写入 A 地址的内存，然后再次加载 内存地址为 A 的值
STORE *A = Y = X; // 同时进行赋值并存储到 A 内存【 读者可以考虑下编译器优化行为或者 CPU 的优化行为，因为此时更优】

1
2

# 什么是内存屏障

正如上面所描述的那样，没有数据依赖，独立的内存操作将拥有随意的执行顺序，CPU 和编译器可以根据自身的优化特性，在保证正确语序（满足依赖性）的情况下随意重排序指令来加速执行，得到最好性能。但这可能会对于 CPU 和 CPU 、CPU 和 IO 之间带来问题，因为此时在多 CPU 中看到的顺序将会不一样，正如上面我们看到的那样，虽然在单个 CPU中乱序了不会造成任何问题，但，在多CPU 中由于多个指令并行执行，一旦一个 CPU乱序，那么将会得到不同的执行结果。于是，我们需要一种机制，来干预编译器和 CPU 这种因为优化性能导致指令乱序执行的行为。而内存屏障便是这种机制，我们可以使用屏障来约束屏障两边的的内存访问顺序。

这种屏障机制对于内核尤为重要，因为 CPU 和其他外设可以使用：重排序手段、延迟组合内存访问、数据预读、分支预测、CPU 缓存技术等机制来提升自身性能，这种提升往往对于自身而言没有什么额外的影响，但他们一起配合，这种"自私"的行为，将会导致彼此配合出现问题。而内存屏障的出现，使得我们可以干预并控制这些行为来保证它们按照我们预先的顺序来执行。

# 内存屏障种类

内存屏障有四种基本类型：

1、写屏障（store barriers）

写内存屏障保证了在屏障之前的所有的 STORE 操作，将出现在屏障之后所有STORE操作之前（相对于系统的其他组件而言），也即写屏障后的写指令不会重排序到屏障之前的写指令之前。【对于相对系统的其他组件而言，怎么理解？来看 CPU 1 执行 STORE A STORE B STORE BARRIER STORE C，那么 CPU 2 在看到 C 值时， A 和 B 一定被存储了，至于 CPU 1 先 STORE A 还是 STORE B，无所谓】

注意：写屏障只会约束写操作与写操作之间的顺序，对于读操作毫不影响。

一个CPU 的写操作指令行为，可以被看作是不断向内存系统提交一系列的存储操作，这时我们也可以这么定义写屏障：在写屏障之前的所有写操作都将与写屏障后面的写操作保证提交顺序。【pass：写屏障应该与读屏障或者数据依赖屏障搭配使用，咳咳，不懂？没关系，看后面的 SMP 屏障对一节的描述，因为写是顺序提交了，读可能因为其他某种原因导致不顺序读~】

2、读屏障（read barriers）

读屏障是数据依赖屏障的升级版，用于保证所有读屏障前的 load 操作不会重排序到读屏障后的 load 操作后面。同写屏障一样，读屏障只针对 load 读取操作，对于读屏障前后的 store 写操作将不会影响。

读屏障包含了以下介绍的数据依赖屏障语义，因此在需要数据依赖屏障的地方，可以替换为读屏障，但一定要注意：读屏障的影响大于数据依赖屏障（只针对相邻的两个 load 操作）。读屏障通常需要与写屏障进行搭配使用，后面会详细介绍，这里了解即可。

3、数据依赖屏障（data dependency barriers）

数据依赖屏障是一个弱化过后的读屏障。来看这样一个例子：执行两个加载指令时，第二个加载指令将使用第一个加载指令的结果（例如：第一个加载操作从内存中获取了一个地址值，而第二个加载操作将使用第一个操作获取到的这个地址值，去内存中加载数据），那么此时就需要一个数据依赖性屏障，以确保在第二个加载操作在读取对应内存地址的数据时，第一个操作先完成并获取到了正确的地址。

由此可见，数据依赖屏障仅仅对两个相邻的读操作指令生效，对于其他的独立的读操作、写操作或者重叠的读操作不会产生任何影响。

正如写屏障的描述那样，系统中的其他 CPU 可以被看作不断向内存系统提交存储序列的处理机，然后其他 CPU 可以感知这些存储序列。此时，我们可以说：当另一个 CPU 执行数据依赖屏障时，就可以保证对于它之前的任何加载操作已经完成，也即：如果当前加载操作使用了来自另一个CPU的存储序列中的一个值，那么当CPU 执行完数据依赖屏障时，在屏障后面的加载操作执行前，当前加载操作的数据一定能够被屏障后面的指令所看见，也即完成了实际的加载 -存储操作（事实上，这种问题在特定的 CPU平台上才会出现，比如拥有 invalidate queue 的队列，此时使用数据依赖屏障，可以让 CPU 的缓存的数据失效从而读取失效队列的最新值~详细参考混沌学堂的描述）。

注意：如果第二加载操作不是直接紧跟在第一个加载操作的后面，比如：通过条件判断，成功后才使用该地址完成操作，那么需要一个使用其他屏障来完成该数据依赖操作，比如：读屏障。同时，数据依赖屏障通常与写屏障搭配使用~

4、通用内存屏障（全屏障）

通用内存屏障同时包含写屏障和读屏障的功能，用于保证屏障前的所有读操作（load）和写操作（store）不会重排序到屏障后的所有读操作和写操作之后。这就意味着，全屏障可以用于代替写屏障、读屏障、数据依赖屏障，但，意味着性能的下降。

接下来我们来看看获取锁操作和释放锁操作隐含的屏障原理：

1、获取锁操作（LOCK）

获取锁操作，将保证所有获取锁之前的内存操作（包含读操作和写操作）不会重排序到获取锁之后。也即，LOCK 上锁操作之前的所有读写操作，在 LOCK 操作后面的读写操作可见。

但请注意：当 LOCK 操作只保证 LOCK 本身操作与 LOCK 前面的内存操作不会重排序，但，并不保证 LOCK 操作后面的内存操作不会重排序到 LOCK 前面的内存操作之前，也即 STORE；LOAD； LOCK；STORE；LOAD；仅仅保证 STORE；LOAD； LOCK；的顺序，但，不会保证 STORE；LOAD； LOCK；STORE；LOAD；的整体顺序，它可能是这样的执行语序：STORE；STORE；LOAD； LOCK；LOAD。

2、释放锁操作（UNLOCK）

同获取锁操作一样，释放锁操作将会保证释放锁操作之前的读写操作不会与释放锁操作本身发生重排序，但，并不保证 UNLOCK 操作后的读写操作不会重排序到 UNLOCK 前面。原理与获取锁一样，只需要保证整体 STORE LOAD UNLOCK 的整体语序即可。此时，我们只需要将 LOCK 和 UNLOCK 联合使用，那么就可以满足上锁和释放锁之间的内存操作对于 LOCK 和 UNLOCK 之间的内存操作的执行顺序。比如：

 STORE A；LOAD B； 
 LOCK；
 STORE A；LOAD B； // 保证锁操作内部的内存操作与LOCK之前 和 UNLOCK之后 的内存操作顺序
 UNLOCK；
 STORE C；LOAD D；

1
2
3
4
5

此时，我们看到 LOCK 和 UNLOCK 操作，包含了其他类型内存屏障的语义（除了后面介绍的：MMIO（IO内存映射技术----- 映射虚拟内存作为 PORT 操作外设）写屏障）。

在内核开发中我们通常使用最小原则：若内存访问操作的数据，不会在多个设备（CPU之间、CPU 和外设之间）交互，如果 CPU 本身能够保证正确的顺序，那么不需要在这些代码中包含任何屏障语义，同时，不同的CPU架构的数据访问模型并不一样，若当前执行指令的CPU架构本身不会发生重排序的可能，那么虽然在当前场景需要屏障，那么这些代码也不需要任何屏障语义。比如：STORE ; STORE；写屏障；STORE；此时，我们需要交互行为，需要保证写屏障之前的所有写操作已经完成内存提交，那么如果当前CPU架构本身不会重排序STORE，那么该写屏障将不会出现在代码中。

换言之：能不用就不用。

← Nginx 主模块原理二 Nginx EPOLL 事件模块 action 回调原理 →