Zircon 和 Fuchsia 中的运行时锁验证

简介

锁定验证是一种用于检查锁定行为一致性的技术来找出潜在的死锁危险本文档讨论了静态和动态方法锁定验证和为 Google Cloud 控制台中提供的运行时锁定验证库奠定了基础，锆石和紫红色。

背景

锁定验证可静态或动态方式执行。以下总结了静态方法与动态方法之间的重要区别，锁定验证：

执行验证的时间：编译时与运行时。
验证工具在发现潜在问题方面的效率。
程序员需要何种程度的参与？
验证本身的开销成本。

静态验证

静态验证通常在编译时通过分析调用由编译器或其他源级处理器生成的图表。这个因此有必要对代码进行插桩，并使用注解，用于告知验证器哪些类型代表锁，哪些类型代表锁规则是否应用于使用锁类型的代码。

静态验证的优势包括在构建时及早发现问题确定性验证结果和零运行时开销。这个属性组合使始终启用静态验证具有吸引力，确保在代码进入构建，而不会影响构建工件的性能。

静态验证也有一些缺点。其中一个问题是验证时需要正确、一致地应用各种注释锁定和代码以提供有用的结果。这可能会导致维护问题问题，除非实施严格的代码审核标准。另一个问题是静态验证的可视性有限，可能会被条件验证跨路径、动态调度、移动语义和锁定依赖关系，编译单元。

动态验证

动态验证可在运行时在线执行，具体方法是观察两者之间的关系。通过这种方法，足以只对锁定基元进行插桩处理并获取/释放操作来提供验证所需的信息。

动态验证的优势包括更简单的检测（从并且可能更清楚地了解实际运行时程序行为。这使得动态验证在大型代码中非常有用在这种情况下，静态验证可能无法查看完整的一组可能的锁交互。

动态验证的主要缺点是运行时开销和执行情况覆盖率要求由于动态验证必须跟踪锁定互动在运行时，每次获取和释放都会产生非零的执行成本，跟踪数据本身的内存开销。运行时跟踪还会导致未执行的代码路径无法由验证工具分析。这可能会增加开发者和质量检查人员，以确保提供足够的执行覆盖率（如果尚未这样做）项目要求。

锁定排序不变

锁验证器的作用是确定锁是否不可变。主不变性是指两个或多个值之间的顺序，锁：程序中所有获取两个或更多锁的路径都必须在与涉及两个或多个相同锁的所有其他路径一致，避免发生死锁的问题处理硬件的环境中断（例如嵌入式系统和内核）具有额外的排序方式，不变，以避免中断引起的死锁。这些不变量由。

基本反转

最简单的反转形式是，一个程序有两个锁，它们按顺序获取，并且在不同路径中顺序不一致。

例如，某个程序具有锁 A 和 B 以及代码路径 P₁ 和 P₂，并且以下行为出现死锁的可能性：

路径 P₁ 获取并释放序列中的锁：

获取(A)
获取(B)
版本(B)
版本(A)

路径 P₂ 按倒序获取和释放锁：

获取(B)
获取(A)
版本(A)
版本(B)

使用正确的交错，可能是因为两个路径同时执行在不同线程上，当路径 P₁ 持有锁时会出现死锁 A 和等待锁定的区块B，而路径 P₂ 持有锁 B 和等待锁 A 的块。

循环依赖关系

两个以上的锁和路径之间也可能会发生反转。这种类型的通过人工检查识别反转比人工检查的难度要大得多，所涉及的一对锁可能在每个涉及然而，就整体而言，可能仍存在潜在死锁锁的顺序。

例如，某个程序具有锁 A、B 和 C；路径 P₁、P₂ 和 P₃；替换成则可能会导致死锁：

路径 P₁ 获取并释放序列中的锁：

获取(A)
获取(B)
版本(B)
版本(A)

路径 P₂ 获取并释放序列中的锁：

获取(B)
获取(C)
版本(C)
版本(B)

路径 P₃ 获取并释放序列中的锁：

获取(C)
获取(A)
版本(A)
版本(C)

通过正确交错路径 P₁、P₂，而 P₃：当每条路径在并在第二步等待锁。在实际使用中由于存在许多不同的路径，这些路径会产生相同的成对锁序列。

IRQ 安全排序

在处理硬件的系统中，会中断 irq-safe 和非 Irq 安全锁至关重要：在调用请求触发时，持有 irq 安全锁以防止间接锁反转。Irq 安全锁保留 irq 和非 irq 上下文之间的排序；提供两个或两个对于在 irq 和非 Irq 上下文。对于非 irq 安全锁，情况并非如此。原因在于非 irq 安全锁允许 irq 处理程序有效地插入锁由处理程序在中断任务锁的任意点获取序列。

例如，一个具有非 irq 安全锁 A 和 irq-safe 锁的系统 B_irq;路径 P₁、P₂ 和 irq 路径 P_irq；具有以下行为的线程有可能发生死锁：

CPU1 上的路径 P₁ 按顺序获取和释放锁：

获取(A)
CPU1 上的 P_irq 中断
版本(A)

CPU1 上的路径 P_irq 按顺序获取和释放锁：

获取(B_irq)
版本(B_irq)

CPU2 上的路径 P₂ 按顺序获取和释放锁：

获取(B_irq)
获取(A)
版本(A)
版本(B_irq)

通过路径 P₁、P₂ 和 P_irq 当 P_irq 尝试获取 B_irq，而 P₂ 包含 B_irq 和块等待 A。这是间接锁反转：P_irq 可在应用期间有效插入B_irq的获取/释放序列， P₁ 路径中 A 的获取/释放序列的中间，与路径中相同锁的锁序列不一致 P₂。

执行验证

上一部分讨论的不变量可以使用有向图。有向图会跟踪锁的身份和顺序，会遍历代码路径。这种图可以通过遍历由编译器或源级处理器（静态或通过观察程序执行期间锁的顺序（动态分析）。本部分以抽象术语介绍该流程，该过程适用于为开发具体的动态分析做好准备策略

一般来说，从代码路径构建有向图需要在路径遍历时维护主动持有的锁的列表：每当获取表示锁时，并向列表中添加该锁，并且从列表中移除。除了维护活跃列表，则向图添加一条有向边，该边表示新获取的锁，指向表示列表中已有的锁的每个顶点。

基本反转示例

本部分介绍了检测基本双锁的有向图方法反转。

回顾一下前面的示例包含锁 A 和 B 的程序；代码路径 P₁ 和 P₂；以及以下行为：

路径 P₁ 获取并释放序列中的锁：

获取(A)
获取(B)
版本(B)
版本(A)

路径 P₂ 按倒序获取和释放锁：

获取(B)
获取(A)
版本(A)
版本(B)

路径分析 P₁

从路径 P₁ 开始，我们定义和更新有向图。

让 L₁ 为路径持有的锁的有序活动列表 P₁。

让 G = (V, E) 为有向图，其中包含一组顶点 V 表示观察到的锁定和顶点之间的一组定向边 E。

初始状态：

级别₁	V	东
()	{}	{}

完成 P₁ 第 1 步后：

级别₁	V	东
（A）	{A}	{}

此步骤将向活动列表添加锁 A，并为该对象引入一个顶点，对有向图的锁。由于有效密钥中没有任何其他锁列表中，没有添加边。

完成 P₁ 第 2 步后：

级别₁	V	东
（A、B）	{A、B}	{（B、A）}

此步骤向活动列表添加锁 B，并引入绘制一个顶点。这一次，活动列表包含锁到现有锁的新锁将会添加到图表中。这条边缘表示锁 B 现在依赖于在任何情况下的锁 A 前面的锁 A 另一个涉及两种锁的路径。

完成 P₁ 第 3 步后：

级别₁	V	东
（A）	{A、B}	{（B、A）}

从活动列表中移除了锁 B。图表没有更新。

完成 P₁ 第 4 步后：

级别₁	V	东
()	{A、B}	{（B、A）}

从活动列表中移除了锁 A。图表没有更新。

路径分析 P₂

让 L₂ 为 P₂ 持有的有效锁列表。

初始状态：

级别₂	V	东
()	{A、B}	{（B、A）}

在本例中，初始状态是路径 P₁ 中的最终状态。

完成 P₂ 第 1 步后：

级别₂	V	东
（B）	{A、B}	{（B、A）}

此步骤将为活动列表添加锁 B。由于此层中没有任何其他锁活动列表中，不会向图表添加边。由于 B 在则图表中没有变化 V。

完成 P₂ 第 2 步后：

级别₂	V	东
（B、A）	{A、B}	{(B, A), (A, B)}

此步骤将向有效列表添加锁 A。由于此锁已有 vertex，V 没有变化。不过，由于在 Active 列表，从新锁定到现有锁定的边缘会添加到图表。利用这条新边，图表现在会在顶点 A 和顶点 A 之间形成循环 B，这表明这些锁之间的顺序不一致，到目前为止考虑的两条路径，并且存在潜在死锁。

循环依赖关系示例

本部分介绍了检测圆形的有向图方法使用前面讨论过的不变量中的示例来反转依赖项部分。由于与上图。

假设某个程序具有锁 A、B 和 C 以及路径 P₁、P₂ 和 P₃ 及以下行为：

路径 P₁ 获取并释放序列中的锁：

获取(A)
获取(B)
版本(B)
版本(A)

路径 P₂ 获取并释放序列中的锁：

获取(B)
获取(C)
版本(C)
版本(B)

路径 P₃ 获取并释放序列中的锁：

获取(C)
获取(A)
版本(A)
版本(C)

路径分析 P₁

让 L₁ 为路径持有的锁的有序活动列表 P₁。

让 G = (V, E) 为有向图，其中包含一组顶点 V 表示观察到的锁定和顶点之间的一组定向边 E。

初始状态：

级别₁	V	东
()	{}	{}

完成 P₁ 第 1 步后：

级别₁	V	东
（A）	{A}	{}

完成 P₁ 第 2 步后：

级别₁	V	东
（A、B）	{A、B}	{（B、A）}

完成 P₁ 第 3 步后：

级别₁	V	东
（A）	{A、B}	{（B、A）}

完成 P₁ 第 4 步后：

级别₁	V	东
()	{A、B}	{（B、A）}

路径分析 P₂

让 L₂ 为路径持有的锁的有序活跃列表 P₂。

初始状态：

级别₂	V	东
()	{A、B}	{（B、A）}

完成 P₂ 第 1 步后：

级别₂	V	东
（B）	{A、B}	{（B、A）}

完成 P₂ 第 2 步后：

级别₂	V	东
（B、C）	{A、B、C}	{(B, A), (C, B)}

此步骤会向活跃列表添加锁 C，并引入绘制一个顶点。活动列表包含锁 B，因此添加了边从“C”到“B”。

完成 P₂ 第 3 步后：

级别₂	V	东
（B）	{A、B、C}	{(B, A), (C, B)}

完成 P₂ 第 4 步后：

级别₂	V	东
()	{A、B、C}	{(B, A), (C, B)}

路径分析 P₃

让 L₃ 为路径持有的锁的有序活跃列表 P₃。

初始状态：

级别₃	V	东
()	{A、B、C}	{(B, A), (C, B)}

完成 P₃ 第 1 步后：

级别₃	V	东
（C）	{A、B、C}	{(B, A), (C, B)}

完成 P₃ 第 2 步后：

级别₃	V	东
（C、A）	{A、B、C}	{(B, A), (C, B), (A, C)}

此步骤将向有效列表添加锁 A。有效列表包含锁形图标 C，因此会从 A 到 C 添加边。有了这条新的边，图现在在顶点（A、B、C）中形成循环，表示是圆形依赖项，以及路径 P₁ 出现死锁的可能性， P₂ 和 P₃ 正确交错。

IRQ 安全排序示例

本部分介绍了检测 irq 安全顺序的有向图方法使用前面讨论的“不变量”部分的示例来预测违规行为。

回顾一下具有非 irq 安全锁 A 和 irq-safe 锁的示例系统 B_irq;路径 P₁、P₂ 和 irq 路径 P_irq；具有如下行为：

路径 P₁ 按顺序获取和释放锁：

获取(A)
版本(A)

路径 P_irq 按顺序获取和释放锁：

获取(B_irq)
版本(B_irq)

路径 P₂ 按顺序获取和释放锁：

获取(B_irq)
获取(A)
版本(A)
版本(B_irq)

路径分析 P₁

让 L₁ 为路径持有的锁的有序活动列表 P₁。

让 G = (V, E) 为有向图，其中包含一组顶点 V 表示观察到的锁定和顶点之间的一组定向边 E。

初始状态：

级别₁	V	东
()	{}	{}

完成 P₁ 第 1 步后：

级别₁	V	东
（A）	{A}	{}

完成 P₁ 第 2 步后：

级别₁	V	东
()	{A}	{}

路径 P_irq 分析

让 L_irq 作为路径所持有的锁的有序活动列表 P_irq。

初始状态：

L_irq	V	东
()	{A}	{}

完成 P_irq 第 1 步后：

L_irq	V	东
(B_irq)	{A、B_irq}	{}

完成 P_irq 第 2 步后：

L_irq	V	东
()	{A、B_irq}	{}

路径 P_irq 分析

让 L₂ 为路径持有的锁的有序活跃列表 P₂。

初始状态：

级别₂	V	东
()	{A}	{}

完成 P₂ 第 1 步后：

级别₂	V	东
(B_irq)	{A、B_irq}	{}

完成 P₂ 第 2 步后：

级别₂	V	东
（B_irq、A）	{A、B_irq}	{（A、B_irq）}

此步骤将向有效列表添加锁 A。有效列表包含锁 B_irq，因此将边缘从 A 添加到 B_irq。由于这是从非 irq 安全锁到 irq 安全锁的边缘，因此 irq-safe 锁违反排序不变性，并可能出现死锁。

从理论到实现

本部分将介绍实现有向图的具体策略验证工具。

实现策略具有以下目标：

尽可能避免动态分配。
最大限度地减少验证开销。
支持管理硬件中断的环境。

使用锁定类移除冗余

在本文档前面的分析中，我们将锁与这意味着所跟踪的对象是各个锁的实例。虽然跟踪单个实例可以产生正确的结果，可能避免的后果：

在锁定实例进入时，跟踪结构必须动态调整并不存在，可能需要动态分配或单个实例数据存储服务
当存在多个锁实例时，图表包含冗余信息相同的代码路径。
与此相关的是，通过锁定函数，但还未逐一传播到必要的代码路径

一个重要的观察结果是，提供相同功能的锁应该遵循相同的排序规则，而不考虑实例数。

考虑以下具有锁成员和转变操作的类型两种类型：

struct Foo {
    Mutex lock;
    int data; GUARDED_BY(lock);
};

struct Bar {
    Mutex lock;
    int data; GUARDED_BY(lock);
};

void Swap(Foo* foo, Bar* bar) {
    foo->lock.Acquire();
    bar->lock.Acquire();

    int temp = foo->data;
    foo->data = bar->data;
    bar->data = temp;

    bar->Release();
    foo->Release();
}

由于操作 Swap 可以作用于 Foo 的任何实例和 Bar 之后，Swap 会在所有 Foo 和 Bar 的实例；无法将此顺序应用于其他当 Foo 的相同实例时，程序的各个部分会导致死锁和 Bar 以不同顺序同时锁定。

请注意，您可能有意或无意地将不同的 Foo 和 Bar 的集合，以便按不同顺序锁定实例绝不能重叠不过，这仍然很危险，因为看似无害对程序的输入、结构或时间的更改都有可能使隔离并造成潜在死锁。此问题可以避免完全以同等方式处理 Foo 和 Bar 的所有实例，并应用相同的排序规则。

可通过跟踪类中的锁而非锁实例：每种类型中的每个锁成员表示唯一的锁定类。每个锁类之间的关系跟踪和分析图表的一把锁。

跟踪锁定类具有以下优势：

静态分配的内存：因为在编译时所有锁类都是已知的跟踪结构可以预先分配为静态全局数据。
消除冗余图节点：同一类中的锁使用相同的跟踪结构。
更快地检测不变的违规行为：即使涉及的各个实例，锁定类顺序也不一致从未使用过。

其他排序规则

跟踪锁定类在锁定时引入了其他排序注意事项同一个类的多个锁。因为系统不会跟踪个别实例如果有多个客户 ID，则需要采取额外措施来确保一致性。必须同时获取同一类的锁。

外部订购的锁

当存在多个层级或其他元素时，有必要嵌套同一类的锁有序数据结构在每个节点中都设置了锁，并且每个节点有多个锁同时保持在这种情况下，数据结构或访问模式必须提供稳定的排序，用于保证锁的排序。

验证可嵌套锁类仅需要外部顺序会记录为每个可嵌套锁的有效锁列表中将同一类的锁添加到列表中。这种设计的后果是其他锁类不得穿插在只能指定在一系列嵌套锁之前或之后。

例如，A 和 B 不可嵌套的锁类，以及可嵌套的锁类 N 可以这样穿插使用：

A、N₀、N₁... N_n、B

但请不要采用以下形式：

A、N₀、B、N₁ ... N_n 或 A、N₀、N₁、B ... N_n 或等等

在大多数情况下，这是一个合理的约束条件，使用任意深度的嵌套结构中可能会导致反转因为结构在运行时更新。另一方面，在嵌套限制在几个级别上，定义单独的使用嵌套类，而不是使用嵌套类。按照正常锁定顺序，在特定级别允许其他锁定规则。

地址排序

很难在同一类的锁之间泛化锁排序而不需要外部提供的顺序，而锁是在不同的次。不过，您可以在获取 Pod 时多个锁，而不需要时间分离。在这种情况下可以按地址对锁进行排序，从而确保获取相同的一组锁定会产生一致的锁定顺序。

例如，假设运算 F(S_a, S_b) 对结构 S 的两个实例执行操作，每个实例都有一个类锁 L 和 F 必须锁定这两种锁定（作为操作的一部分）。

如果实例 S0 在内存中的排序顺序早于实例 S₁，则锁具有与其相同的相对顺序，实例。我们可以将锁视为具有子类分别为 L₀ 和 L₁。

如果我们使用不同的 ID 来执行操作，订单：

F(S₀、S₁) 和 F（S₁、S₀）

如果不进行干预，这些过程会产生反转的锁定序列：

L₀、L₁ 和 L₁、L₀

由于 F 可以同时访问这两个锁，因此按地址对锁排序从而实现锁的一致性序列，而不考虑参数的原始顺序。

现在，假设我们为序列再添加两个锁类：获得的 A 类在操作 F 之前以及在操作 F 之后获取 B 类。通过为：

A、L₀、L₁、B

请注意，这与上一节。事实上，情况是一样的按地址而非外部订单提供。也就是说，这两种情况都可以使用活动讨论帖列表中的簿记功能。

锁定类跟踪数据结构

本部分讨论跟踪锁类的实现详情，以及具体处理技术来检测潜在死锁。

每个锁类在有向图中都有一个静态分配的节点代表属于该类的所有锁。每个节点包含以下数据结构：

免锁定、无需等待的哈希集

每个锁定类节点都有一个哈希集，用于跟踪从锁定类到之前排序的 lock 类。

TODO：添加哈希集的实现详情。

无锁、无等待的不相交集合结构

每个锁类节点都有一个父指针，用于跟踪连接的节点在有向图中以周期为单位。这样可以允许而无需完全遍历图。

TODO：添加不相交集结构的实现详情。

线程本地锁定列表

每个线程都会维护其当前持有的锁的线程本地列表。

TODO：添加线程局部锁定列表的实现详情。

循环检测线程

每当有向图添加新的边时，循环检测线程被触发来遍历图表，找出涉及超过两把锁。Tarjan 的强连接集算法是一种有效的选择，最差情况的复杂度为 O(|E| + |V|)。此算法稳定即使在遍历由其他线程并发更新的图时也是如此。

TODO：添加循环检测线程的实现详情。

参考文档

Clang 静态线程安全分析。
LLVM 运行时线程排错程序。
Linux 内核 lockdep 子系统。

Zircon 和 Fuchsia 中的运行时锁验证

简介

背景

静态验证

动态验证

锁定排序不变

基本反转

循环依赖关系

IRQ 安全排序

执行验证

基本反转示例

路径分析 P1

路径分析 P2

循环依赖关系示例

路径分析 P1

路径分析 P2

路径分析 P3

IRQ 安全排序示例

路径分析 P1

路径 Pirq 分析

路径 Pirq 分析

从理论到实现

使用锁定类移除冗余

其他排序规则

外部订购的锁

地址排序

锁定类跟踪数据结构

免锁定、无需等待的哈希集

无锁、无等待的不相交集合结构

线程本地锁定列表

循环检测线程

参考文档

路径分析 P₁

路径分析 P₂

路径分析 P₁

路径分析 P₂

路径分析 P₃

路径分析 P₁

路径 P_irq 分析

路径 P_irq 分析