第5章随机过程与随机微积分

原著：Xinfeng Zhou，A Practical Guide to Quantitative Finance Interviews（2008）。

本页由 GPT 视觉模型直接依据扫描页识别、翻译和公式排版。

原书 PDF 第 121 页

查看本页原始扫描图

本章将涵盖几个通常在入门概率课程中不涉及的主题——马尔可夫链、随机游走与鞅、以及动态规划。与基础概率论不同，这些工具可能不被视为定量研究员/分析师的必备要求。但深入理解这些主题可以简化你对许多面试问题的回答，并在面试过程中给你带来优势。此外，一旦你掌握了基础知识，你会发现许多面试问题变成了充满趣味的数学谜题。

5.1 马尔可夫链

马尔可夫链是一个随机变量序列 $X_0, X_1, \dots, X_n, \dots$，它具有马尔可夫性质：在给定当前状态的条件下，未来状态与过去状态是独立的： \[ P\{X_{n+1} = j | X_n = i, X_{n-1} = i_{n-1}, \dots, X_0 = i_0\} = P\{X_{n+1} = j | X_n = i\} \] 对所有 $n, i_0, \dots, i_{n-1}, i, \text{ 和 } j$ 成立，其中 $i, j \in \{1, 2, \dots, M\}$ 表示 $X$ 的状态空间 $S = \{s_1, s_2, \dots, s_M\}$。换句话说，一旦当前状态已知，过去的历史对未来就没有任何影响。对于一个齐次马尔可夫链，从状态 $i$ 到状态 $j$ 的转移概率不依赖于 $n$。

脚注 1在本章中，我们只考虑有限状态的齐次马尔可夫链（即转移概率不随时间变化）。一个具有 $M$ 个状态的马尔可夫链可以由一个 $M \times M$ 的转移矩阵 $P$ 和初始概率 $P(X_0)$ 完全描述。

转移矩阵： \[ P = \{p_{ij}\} = \begin{bmatrix} p_{11} & p_{12} & \cdots & p_{1M} \\ p_{21} & p_{22} & \cdots & p_{2M} \\ \vdots & \vdots & \ddots & \vdots \\ p_{M1} & p_{M2} & \cdots & p_{MM} \end{bmatrix}, \quad \text{其中 } p_{ij} \text{ 是从状态 } i \text{ 到状态 } j \text{ 的转移概率} \]

补充说明： 你可以将矩阵的每一行理解为“从某个特定状态出发，转移到所有可能状态的概率分布”。例如，第一行表示从状态1出发，转移到状态1、状态2……状态M的概率之和等于1（即 $\sum_{j=1}^M p_{1j} = 1$）。

初始概率：$P(X_0) = (P(X_0 = 1), P(X_0 = 2), \dots, P(X_0 = M))$，且 $\sum_{i=1}^M P(X_0 = i) = 1$。一条路径的概率：$P(X_1 = i_1, X_2 = i_2, \dots, X_n = i_n | X_0 = i_0) = p_{i_0i_1} p_{i_1i_2} \cdots p_{i_{n-1}i_n}$。

补充说明： 这个公式背后的直观想法是，根据马尔可夫链的“无记忆”性质，我们可以将整条路径分解为一系列单步转移。例如，从状态 $i_0$ 出发，第一步转移到 $i_1$ 的概率为 $p_{i_0i_1}$；然后在已知当前状态为 $i_1$ 的前提下，下一步转移到 $i_2$ 的概率为 $p_{i_1i_2}$，依此类推。由于每一步的条件概率只依赖于当前状态，所以整条路径的概率就是所有单步转移概率的乘积。

转移图：转移图常用于以图形方式表示转移矩阵。转移图比矩阵更直观，并且它强调了

原书 PDF 第 122 页

查看本页原始扫描图

可能和不可能的转移。图5.1展示了一个具有四个状态的马尔可夫链的转移图和转移矩阵：

状态的分类

如果转移图中存在一条从状态 $i$ 到状态 $j$ 的有向路径（即存在 $n$ 使得 $P_{ij}^{(n)} > 0$），则称状态 $j$ 是从状态 $i$ 可达的。令 $T_{ij} = \min\{n: X_n = j | X_0 = i\}$，那么当且仅当状态 $j$ 是从状态 $i$ 可达时，有 $P(T_{ij} < \infty) > 0$。如果状态 $j$ 从状态 $i$ 可达，并且同时状态 $i$ 也从状态 $j$ 可达，则称状态 $i$ 和状态 $j$ 是互通的。在图5.1中，状态3和状态1是互通的。状态4是从状态1可达的，但它们并不互通，因为状态1无法从状态4到达。

如果对于每一个从状态 $i$ 可达的状态 $j$，状态 $i$ 也同时从状态 $j$ 可达，则称状态 $i$ 是常返的（即对于所有 $j$，若 $P(T_{ij} < \infty) > 0$，那么必有 $P(T_{ji} < \infty) = 1$）。如果状态不是常返的，则称之为瞬变的（即存在某个 $j$，使得 $P(T_{ij} < \infty) > 0$ 并且 $P(T_{ji} < \infty) < 1$）。在图5.1中，只有状态4是常返的。状态1、2和3都是瞬变的，因为状态4可以从状态1/2/3到达，但状态1/2/3无法从状态4到达。

补充说明： 你可以将“常返”通俗地理解为“一旦进入，就再也无法离开其所属的闭集”；而“瞬变”则意味着“有可能一去不返”。例如，从状态1出发，你有可能进入状态4，而一旦进入状态4就再也回不到状态1、2、3了，因此状态1不是常返的。

吸收马尔可夫链

如果一个状态不可能离开该状态，则称其为吸收状态（此时满足 $p_{ii} = 1, p_{ij} = 0$，对所有 $j \neq i$ 成立）。如果一个马尔可夫链至少有一个吸收状态，并且从每一个状态出发都有可能到达某个吸收状态，则称这个马尔可夫链是吸收的。在图5.1中，状态4是一个吸收状态。相应的马尔可夫链就是一个吸收马尔可夫链。

吸收概率的方程

从瞬态状态出发，最终到达特定吸收状态 $s$ 的概率，是由一组方程唯一确定的解。这组方程为：$a_s = 1$；对所有吸收状态 $i \neq s$，有 $a_i = 0$；对所有瞬态状态 $i$，有 $a_i = \sum_{j=1}^{M} a_j p_{ij}$。这些方程可以通过

原书 PDF 第 123 页

查看本页原始扫描图

对下一个状态进行条件化来推导吸收概率。吸收期望时间的方程：吸收期望时间 $H_i, \dots, H_M$ 是方程组的唯一解：对于所有吸收状态 $i$，有 $H_i = 0$，对于所有瞬态状态 $i$，有 $H_i = 1 + \sum_{j=1}^M p_{ij} H_j$。这些方程可以通过对下一个状态进行条件化来推导吸收期望时间，从而轻松得到。数字 1 是加上去的，因为它需要一步才能到达下一个状态。

补充说明： 这里的一个直观解释是：从瞬态状态 $i$ 出发，你首先需要花费1步才能到达下一个状态 $j$。一旦到达状态 $j$，剩余所需的期望步数就是 $H_j$。因此，总期望步数 $H_i$ 等于这“1步”加上所有可能的下一个状态对应的期望步数的加权平均（权重为转移概率 $p_{ij}$）。

赌徒破产问题

玩家 M 有 1 美元，玩家 N 有 2 美元。每局游戏，赢家从对方那里赢得 1 美元。作为更好的玩家，M 赢得 2/3 的游戏。他们一直玩到其中一方破产。M 获胜的概率是多少？解法：马尔可夫链问题中最困难的部分通常在于如何选择正确的状态空间并定义转移概率 $P_{ij}$，对所有 $i, j$。这个问题有相当直接的状态。你可以将状态空间定义为玩家 M 所拥有的金钱（\$m）和玩家 N 所拥有的金钱（\$n）的组合：$\{(m, n)\} = \{(3,0), (2,1), (1,2), (0,3)\}$。(m 或 n 都不能为负，因为当其中一方破产时，整个游戏就会停止。) 由于两名玩家的总金额始终为 3 美元，我们实际上可以使用仅 m 来简化状态空间：$\{m\} = \{0,1,2,3\}$。转移图和相应的转移矩阵如图 5.2 所示。

初始状态是 $X_0 = 1$ (M 开始时有 1 美元)。在状态 1，下一个状态是 0 (M 输掉一局) 的概率是 1/3，下一个状态是 2 (M 赢得一局) 的概率是 2/3。所以 $p_{1,0} = 1/3$ 且 $p_{1,2} = 2/3$。类似地，我们可以得到 $p_{2,1} = 1/3$ 且 $p_{2,3} = 2/3$。状态 3 (M 赢得整场比赛) 和状态 0 (M 输掉整场比赛) 都是吸收状态。为了计算 M 到达吸收状态 3 的概率，我们可以应用吸收概率方程： \[ \pi_i = \sum_{j \in T} p_{ij} \pi_j \] 其中 $T$ 是瞬态状态的集合，并且 $\pi_i$ 是从状态 $i$ 开始到达吸收状态 3 的概率。

补充说明： 上述公式是吸收概率方程的一般形式，其中 $\pi_i$ 表示从状态 $i$ 出发，最终到达某个吸收状态的概率。在本例中，我们关注的是到达吸收状态 3 的概率。该方程的含义是：从瞬态状态 $i$ 出发，最终到达吸收状态 $s$ 的概率，等于先转移到某个下一状态 $j$（这个转移的概率为 $p_{ij}$），然后再从该状态 $j$ 出发最终到达吸收状态 $s$ 的概率 $\pi_j$ 的加权平均。这是因为马尔可夫链的无记忆性允许我们进行这种“条件化”分解。

原书 PDF 第 124 页

查看本页原始扫描图

\[ a_3 = 1, a_0 = 0, \text{ and } a_1 = \sum_{j=0}^3 p_{1,j} a_j, a_2 = \sum_{j=0}^3 p_{2,j} a_j \] 代入转移概率（使用转移图或转移矩阵），我们得到 \[ \begin{cases} a_1 = 1/3 \times 0 + 2/3 \times a_2 \\ a_2 = 1/3 \times a_1 + 2/3 \times 1 \end{cases} \implies \begin{cases} a_1 = 4/7 \\ a_2 = 6/7 \end{cases} \] 所以，从 1 美元开始，玩家 M 有 4/7 的概率获胜。

骰子问题

两名玩家就两个标准六面骰子的点数之和的投掷结果进行下注。玩家 A 赌点数之和 12 会先出现。玩家 B 赌两个连续的 7 会先出现。玩家们不断掷骰子并记录点数之和，直到其中一方获胜。A 获胜的概率是多少？解：许多简单的马尔可夫链问题都可以直接用条件概率参数来解决。这并不奇怪，因为马尔可夫链正是以条件概率定义的： \[ P\{X_{n+1} = j | X_n = i, X_{n-1} = i_{n-1}, \dots, X_0 = i_0\} = p_{ij} = P\{X_{n+1} = j | X_n = i\}. \] 因此，我们首先用条件概率参数求解此问题。设 $P(A)$ 为玩家 A 获胜的概率。

根据第一次投掷的总和 $F$ 进行条件化，$F$ 有三种可能的结果：$F = 12$、$F = 7$ 和 $F \notin \{7,12\}$，我们有 \[ P(A) = P(A|F=12)P(F=12) + P(A|F=7)P(F=7) + P(A|F \notin \{7,12\})P(F \notin \{7,12\}). \] 然后我们处理右侧的每一项。通过简单的排列计数，我们可以轻松得出 $P(F = 12) = 1/36$、$P(F = 7) = 6/36$、$P(F \notin \{7,12\}) = 29/36$。同样明显的是 $P(A|F = 12) = 1$ 和 $P(A|F \notin \{7,12\}) = P(A)$（游戏实质上重新开始）。

为了计算 $P(A|F = 7)$，我们需要进一步根据第二次投掷的总和进行条件化，该总和同样有三种可能的结果：$E = 12$、$E = 7$ 和 $E \notin \{7,12\}$。\[ \begin{aligned} P(A|F=7) &= P(A|F=7, E=12)P(E=12|F=7) + P(A|F=7, E=7)P(E=7|F=7) \\ &+ P(A|F=7, E \notin \{7,12\})P(E \notin \{7,12\}|F=7) \\ &= P(A|F=7, E=12) \times 1/36 + P(A|F=7, E=7) \times 6/36 \\ &+ P(A|F=7, E \notin \{7,12\}) \times 29/36 \\ &= 1 \times 1/36 + 0 \times 6/36 + P(A) \times 29/36 \\ &= 1/36 + 29/36 P(A) \end{aligned} \] 这里第二个等式依赖于第二次投掷与第一次投掷的独立性。

如果 $F = 7$ 且 $E = 12$，则玩家 A 获胜；如果 $F = 7$ 且 $E = 7$，则玩家 A 失败；如果 $F = 7$ 且 $E \notin \{7,12\}$，则游戏本质上重新开始。现在我们有计算 $P(A)$ 所需的所有信息。将其代入原始方程，我们得到： \[ P(A) = P(A|F=12)P(F=12) + P(A|F=7)P(F=7) + P(A|F \notin \{7,12\})P(F \notin \{7,12\}) \] \[ = 1 \times \frac{1}{36} + \frac{6}{36} \times \left(\frac{1}{36} + \frac{29}{36}P(A)\right) + \frac{29}{36}P(A) \] 解这个方程，我们得到 $P(A) = 7/13$。这种方法尽管逻辑严谨，但并不直观。

现在，让我们尝试一种马尔可夫链方法。关键在于选择正确的状态空间并定义转移概率。显然，我们有两个吸收状态：12（玩家 A 获胜）和 7-7（玩家 B 获胜），以及至少两个瞬态状态：S（起始状态）和 7（出现了一个 7，但尚未出现 12 或 7-7）。我们还需要其他状态吗？理论上，你可以有其他状态。事实上，你可以将一次投掷和连续两次投掷的所有可能结果组合作为状态来构建转移矩阵，最终也会得到相同的结果。然而，我们希望尽可能合并等价状态。正如在条件概率方法中讨论的，如果没有出现 12，并且最近一次投掷没有出现 7，那么我们实际上就回到了初始状态 S。所以，我们只需要状态 S、7、7-7 和 12。转移图和达到状态 12 的概率如图 5.3 所示。这里，转移概率仍然是从条件概率参数推导而来。然而，转移图使得整个过程非常清晰。

硬币三连

A 部分。 如果你连续抛掷一枚公平的硬币，出现 HHH（头头头）的期望投掷次数是多少？出现 THH（尾头头）的期望投掷次数是多少？解：马尔可夫链中最困难的部分，再次是选择正确的状态空间。对于 HHH 序列，状态空间是直接的。我们只需要四个状态：S（表示起始状态，或者任何未形成目标序列的情况）、H、HH 和 HHH。转移图是：

补充说明： 在本例中，状态 S 表示“起始状态”或“重置状态”，即任何一次抛掷出现反面（T），或者当前正面的前缀序列被中断的情况。例如，在 HHH 的例子中，如果出现 T，那么之前累积的 H 序列就中断了，需要重新从 S 开始。在 THH 的例子中，状态空间的选择更为细致，例如状态 T 表示最近一次抛掷得到 T，状态 TH 表示序列末尾是 TH。

在状态 S，抛掷一枚硬币后，如果得到 T，状态保持为 S；如果得到 H，状态变为 H。在状态 H，如果下一次抛掷为 T，则以 1/2 的概率回到状态 S；否则，进入状态 HH。在状态 HH，如果下一次抛掷为 T，同样以 1/2 的概率回到状态 S；否则，达到吸收状态 HHH。因此，我们有如下的转移概率： \[P_{S,S} = \frac{1}{2},\ P_{S,H} = \frac{1}{2},\ P_{H,S} = \frac{1}{2},\ P_{H,HH} = \frac{1}{2},\ P_{HH,S} = \frac{1}{2},\ P_{HH,HHH} = \frac{1}{2},\ P_{HHH,HHH} = 1.\] 我们感兴趣的是得到 HHH 的期望投掷次数，即从状态 S 出发到达吸收状态的期望时间。

应用吸收时间的标准方程，我们有 \[ \begin{cases} \mu_S = 1 + \frac{1}{2}\mu_S + \frac{1}{2}\mu_H \\ \mu_H = 1 + \frac{1}{2}\mu_S + \frac{1}{2}\mu_{HH} \\ \mu_{HH} = 1 + \frac{1}{2}\mu_S + \frac{1}{2}\mu_{HHH} \\ \mu_{HHH} = 0 \end{cases} \Rightarrow \begin{cases} \mu_S = 14 \\ \mu_H = 12 \\ \mu_{HH} = 8 \\ \mu_{HHH} = 0 \end{cases} \] 因此，从起始状态 S 出发，得到 HHH 的期望投掷次数为 14。

类似地，为了计算到达 THH 的期望时间，我们可以构建如下的转移图并估计相应的吸收时间： \[ \begin{cases} \mu_S = 1 + \frac{1}{2}\mu_S + \frac{1}{2}\mu_T \\ \mu_T = 1 + \frac{1}{2}\mu_T + \frac{1}{2}\mu_{TH} \\ \mu_{TH} = 1 + \frac{1}{2}\mu_T + \frac{1}{2}\mu_{THH} \\ \mu_{THH} = 0 \end{cases} \Rightarrow \begin{cases} \mu_S = 8 \\ \mu_T = 4 \\ \mu_{TH} = 2 \\ \mu_{THH} = 0 \end{cases} \] 因此，从起始状态 S 出发，得到 THH 的期望投掷次数为 8。

B 部分。

持续抛掷一枚公平的硬币，直到序列中出现 HHH 或 THH。先得到 HHH 子序列的概率是多少？ 提示： 此问题不需要绘制马尔可夫链。只需思考 HHH 模式与 THH 模式之间的关系。如何在 THH 之前得到 HHH 序列？解：让我们尝试一个标准的马尔可夫链方法。重点在于选择正确的状态空间。在本例中，我们从起始状态 S 开始。我们只需要追踪有序的子序列。抛一次硬币后，我们得到状态 T 或 H。抛两次硬币后，我们得到状态 TH 和 HH。我们不需要 TT（在此问题中等同于 T）或 HT（也等同于 T）。对于三次抛掷的序列，我们只需要 THH 和 HHH 状态，它们都是吸收状态。使用这些状态，我们可以构建以下转移图：

补充说明： 转移图的构建基于当前累积的序列后缀。例如，状态 S 代表还没有任何有效前缀；状态 T 代表最近一次抛掷是 T（由于目标模式是 HHH 和 THH，单独的 T 等同于重置）；状态 H 代表最近一次抛掷是 H；状态 HH 代表最近两次是 HH，这是 HHH 的前缀；状态 TH 代表最近两次是 TH，这是 THH 的前缀。

我们想要得到从起始状态 S 到达吸收状态 HHH 的概率。应用吸收概率方程，我们得到： \[ \begin{cases} a_{HHH} = 1, a_{THH} = 0 \\ a_S = \frac{1}{2} a_T + \frac{1}{2} a_H \\ a_T = \frac{1}{2} a_T + \frac{1}{2} a_{TH}, \quad a_H = \frac{1}{2} a_T + \frac{1}{2} a_{HH} \\ a_{TH} = \frac{1}{2} a_T + \frac{1}{2} a_{THH}, \quad a_{HH} = \frac{1}{2} a_T + \frac{1}{2} a_{HHH} \end{cases} \implies \begin{cases} a_T = 0, a_{TH} = 0 \\ a_S = \frac{1}{8} \\ a_H = \frac{1}{4} \\ a_{HH} = \frac{1}{2} \end{cases} \] 因此，最终得到 HHH 模式的概率是 1/8。

这个问题实际上有一个特殊特征，使得复杂的计算变得不必要。你可能已经注意到 $a_T = 0$。一旦出现反面（T），我们总是会先得到 THH 而不是 HHH。原因是 THH 中的最后两个硬币是 HH，这正是 HHH 序列的前两个硬币。事实上，序列先达到 HHH 而不是 THH 的唯一情况是，我们一开始就连续出现三个正面（HHH）。否则，每当出现一个 T，我们就会在第一次出现 HH 之前出现一个 T，并且总是先达到 THH。所以，如果我们开始时的抛掷序列不是 HHH（其概率为 1/8），那么总是会先得到 THH。

C 部分（困难）。 让我们为三连号游戏增加更多的趣味性。与为两个玩家设置固定的三连号不同，新游戏允许双方选择自己的三连号。玩家 1 首先选择一个三连号并宣布它；然后玩家 2 选择一个不同的三连号。玩家们再次抛硬币，直到其中一个三连号序列出现。先出现其所选三连号的玩家赢得游戏。如果玩家 1 和玩家 2 都具有完全理性，并且都希望最大化自己获胜的概率，你会选择先手（作为玩家 1）吗？如果你选择后手，你的获胜概率是多少？

脚注 3此问题是一个难题。有兴趣的读者可以参考以下论文：“Waiting Time and Expected Waiting Time-Paradoxical Situations”，作者 V. C. Hombas，发表于 The American Statistician，第 51 卷，第 2 期（1997 年 5 月），第 130-133 页。在本节中，我们将仅讨论直观理解。 解答： 一个常见的误解是，总存在一个“最佳”序列可以击败其他所有序列。

这个误解通常基于一个错误的假设，即这些序列的优劣关系是可传递的：如果序列 A 比序列 B 先出现的概率更高，且序列 B 比序列 C 先出现的概率更高，那么序列 A 比序列 C 先出现的概率也更高。实际上，在这个游戏中，这种可传递性并不成立。无论玩家 1 选择什么序列，玩家 2 总能选择另一个序列，使其获胜概率大于 1/2。关键在于，正如我们在 B 部分中指出的，玩家 2 应选择其序列的最后两个硬币与玩家 1 序列的前两个硬币相同。我们可以为每对序列编制下表：

表 5.1 不同硬币序列对下玩家 2 的获胜概率
玩家 2 的获胜概率	HHH	THH	HTH	HHT	TTH	THT	HTT	TTT
玩家 2 的获胜概率	玩家 1 的选择
HHH	/	1/8	2/5	1/2	3/10	5/12	2/5	1/2
THH	7/8	/	1/2	3/4	1/3	1/2	1/2	3/5
HTH	3/5	1/2	/	1/3	3/8	1/2	1/2	7/12
HHT	1/2	1/4	2/3	/	1/2	5/8	2/3	7/10
TTH	7/10	2/3	5/8	1/2	/	2/3	1/4	1/2
THT	7/12	1/2	1/2	3/8	1/3	/	1/2	3/5
HTT	3/5	1/2	1/2	1/3	3/4	1/2	/	7/8
TTT	1/2	2/5	5/12	3/10	1/2	2/5	1/8	/

如表 5.1 所示（您可以自行验证结果），无论玩家 1 选择什么序列，玩家 2 总能选择一个序列以获得更高的获胜概率。表中用粗体标出了玩家 2 针对玩家 1 每种选择所能获得的最佳获胜概率。为了最大化自己的获胜概率，玩家 1 应该在 HTH、HTT、THH 和 THT 这四个序列中进行选择。但即便如此，玩家 2 的获胜概率也高达 2/3。

补充说明： 这个游戏是一个典型的“非传递性”博弈，类似于“石头剪刀布”。不存在一个绝对最优的序列。后手玩家总能利用先手玩家的选择，构造出一个获胜概率超过一半的应对序列。因此，在这个游戏中，后手具有优势。

原书 PDF 第 129 页

查看本页原始扫描图

彩球问题

一个盒子中有 $n$ 个球，每个球颜色各不相同。每次，你随机选取一对球，将第一个球的颜色重新涂成与第二个球相同，然后将这对球放回盒中。问：期望需要多少步，才能使盒中所有球的颜色都相同？（非常困难） 解答： 设 $N_n$ 为使所有球变为同一种颜色所需的步数，并设 $F_i, i=1, 2, \dots, n$ 为事件“最终所有球都变为颜色 $i$”。应用全期望公式，我们有 \[ E[N_n] = E[N_n | F_1]P[F_1] + E[N_n | F_2]P[F_2] + \dots + E[N_n | F_n]P[F_n]. \] 由于所有颜色是对称的（即它们具有等价的性质），我们有 $P[F_1] = P[F_2] = \dots = P[F_n] = 1/n$，且 $E[N_n | F_1] = E[N_n | F_2] = \dots = E[N_n | F_n]$。

这意味着我们可以假设最终所有球都变为颜色 1，并用 $E[N_n | F_1]$ 来代表 $E[N_n]$。那么如何计算 $E[N_n | F_1]$ 呢？不出所料，使用马尔可夫链。由于我们只考虑事件 $F_1$，颜色 1 与其他颜色不同，而颜色 $2, \dots, n$ 则变得等价。换句话说，任何不涉及颜色 1 球的球对都是等价的；任何包含一个颜色 1 球和一个其他颜色球的球对，如果顺序相同，也是等价的。因此，我们只需要使用具有颜色 1 的球的数量作为状态。图 5.5 展示了状态转移图。

图 5.5 所有 $n$ 个球最终变为颜色 1 的转移图状态 $n$ 是唯一的吸收态。注意，不存在状态 0，否则永远无法达到 $F_1$。实际上，所有的转移概率也都是以 $F_1$ 为条件的，这使得条件转移概率 $p_{i,i+1} | F_1$ 高于无条件概率 $p_{i,i+1}$，而 $p_{i,i-1} | F_1$ 低于 $p_{i,i-1}$。例如，$p_{1,0} | F_1 = 0$，而无条件概率 $p_{1,0} = 1/n$。（在不加条件的情况下，每个球都有可能被选为第二个球，所以颜色 1 有 $1/n$ 的概率成为第二个球。

）使用条件转移概率后，问题本质上变成了在给定系统方程下，到达吸收态的期望时间问题： \[ E[N_n | F_1] = 1 + E[N_{n-1} | F_1] \times P_{n-1, n-1} | F_1 + E[N_n | F_1] \times P_{n,1} | F_1 + E[N_{n+1} | F_1] \times P_{n,1} | F_1. \]

原书 PDF 第 130 页

查看本页原始扫描图

为了计算 $P_{i,i-1}|F_1$，我们将概率重写为 $P(x_{k+1} = i-1 | x_k = i, F_1)$，$\forall k = 0, 1, \dots$，以使推导步骤更清晰： \[ P(x_{k+1} = i-1 | x_k = i, F_1) = \frac{P(x_k = i, x_{k+1} = i-1, F_1)}{P(x_k = i, F_1)} \] \[ = \frac{P(F_1 | x_{k+1} = i-1, x_k = i) \times P(x_{k+1} = i-1 | x_k = i) \times P(x_k = i)}{P(F_1 | x_k = i) \times P(x_k = i)} \] \[ = \frac{P(F_1 | x_{k+1} = i-1, x_k = i) \times P(x_{k+1} = i-1 | x_k = i)}{P(F_1 | x_k = i)} \] \[ = \frac{\frac{i-1}{n} \times \frac{i(n-i)}{n(n-1)}}{\frac{i}{n}} = \frac{i-1}{n} \times \frac{i(n-i)}{n(n-1)} \times \frac{n}{i} = \frac{(n-i)(i-1)}{n(n-1)} \] 第一个等式只是条件概率的定义；

第二个等式应用了贝叶斯定理；第三个等式应用了马尔可夫性质。为了推导 $P(F_1 | x_k = i) = i/n$，我们再次需要利用对称性。我们已经证明，如果所有球的颜色都不同，那么 $P[F_1] = P[F_2] = \dots = P[F_n] = 1/n$。那么，如果当前有 $i$ 个球是颜色 $c$，最终所有球都变为颜色 $c$ 的概率是多少？答案就是 $i/n$。为了理解这一点，我们可以将这 $i$ 个颜色为 $c$ 的球分别标记为 $c_j, j = 1, \dots, i$（尽管它们实际上是同一种颜色）。现在很明显，所有球最终变为颜色 $c_j$ 的概率是 $1/n$。最终变为颜色 $c$ 的概率就是所有 $c_j$ 的概率之和，即 $i/n$。类似地，我们有 $P(F_1 | x_{k+1} = i-1) = (i-1)/n$。

对于 $P(x_{k+1} = i-1 | x_k = i)$，我们使用基本的计数方法。从 $n$ 个球中选两个球，有 $n(n-1)$ 种可能的排列。为了使一个颜色 1 的球改变颜色，第二个球必须是颜色 1，有 $i$ 种选择；第一个球需要是其他颜色，有 $(n-i)$ 种选择。

补充说明： 这个问题的核心思想是利用对称性简化问题。通过假设最终颜色为颜色 1，我们将一个关于 $n$ 种颜色的复杂问题，简化为只关注颜色 1 的球的数量变化的马尔可夫链问题。条件概率 $P(F_1 | x_k = i) = i/n$ 的推导是关键，它直观地表明：当前颜色 1 的球越多，最终所有球都变成颜色 1 的可能性就越大。

所以 $P(x_{k+1} = i-1 | x_k = i) = \frac{i(n-i)}{n(n-1)}$。应用同样的原理，我们可以得到 \[ P(x_{k+1} = i | x_k = i, F_1) = \frac{(n-i) \times 2i}{n(n-1)}, \quad P(x_{k+1} = i+1 | x_k = i, F_1) = \frac{(n-i) \times (i+1)}{n(n-1)}. \] 将上述概率代入 $E[N_i | F_1]$ 并简化 $E[N_i | F_1]$ 为 $Z_i$，我们得到 $(n-i) \times 2i \times Z_i = n(n-1) + (n-i)(i+1)Z_{i+1} + (n-i)(i-1)Z_{i-1}$。

原书 PDF 第 131 页

查看本页原始扫描图

利用这些递推系统方程和边界条件 $Z_n = 0$，我们可以得到 \[Z_1 = (n-1)^2.\]

补充说明： 这里的 $Z_i$ 表示从有 $i$ 个白球的状态开始，到过程结束（即抽到白球导致停止）所需的期望抽取次数。边界条件 $Z_n = 0$ 表示如果一开始全是白球（$i=n$），游戏立即结束，所以期望次数为 0。通过从 $i=n-1$ 开始逐步代入递推公式，你会发现所有包含 $Z_{n-1}, Z_{n-2}, \dots, Z_2$ 的项都会相互抵消，最终得到 $Z_1 = (n-1)^2$。

5.2 鞅与随机游走

随机游走： 如果 $\{X_i; i \ge 1\}$ 是独立同分布的随机变量，并且 $S_n = X_1 + \dots + X_n$（其中 $n=1,2,\dots$），则过程 $\{S_n; n \ge 1\}$ 被称为随机游走。这一术语来源于一个直观想象：我们可以把 $S_n$ 看作一个行走者在时间 $n$ 时的位置，他连续随机地迈出步长 $X_1, X_2, \dots$。如果 $X_i$ 以概率 $p$ 取值为 1，以概率 $1-p$ 取值为 -1，则 $S_n$ 被称为参数为 $p$ 的简单随机游走。进一步，如果 $p = \frac{1}{2}$，则过程 $S_n$ 是对称随机游走。

对于对称随机游走，容易证明 $E[S_n] = 0$ 和 $\text{var}(S_n) = E[S_n^2] - (E[S_n])^2 = E[S_n^2] = n$。对称随机游走是量化面试中最常考的过程。关于随机游走的面试问题通常涉及找到使 $S_n$ 达到某个给定阈值 $\alpha$ 的第一个 $n$，或者对于任意给定的 $n$，计算 $S_n$ 达到 $\alpha$ 的概率。

补充说明： var$(S_n)$的计算利用了 $X_i$ 独立同分布的特性 var$(S_n)=n$ var$(X_1)$ var$(X_1)=1$（因为 $p=1/2$ 时，$X_1$的值\pm1的概率相等，方差为1），所以var$(S_n)=n$。

鞅：鞅 $\{Z_n; n \ge 1\}$ 是满足以下条件的随机过程：对所有 $n$，都有 $E[|Z_n|] < \infty$，并且 \[ E[Z_{n+1}\mid Z_n=z_n,Z_{n-1}=z_{n-1},\dots,Z_1=z_1]=z_n. \] 这一性质还可推广为：当 $m>n$ 时， \[ E[Z_m\mid Z_n=z_n,Z_{n-1}=z_{n-1},\dots,Z_1=z_1]=z_n. \] 也就是说，在已知当前及历史信息的条件下，未来值的条件期望等于当前值。对称随机游走就是一个鞅；此外，$S_n^2-n$ 也是鞅。我们可以轻松地将解推广到一般情况：一个从 0 开始的对称随机游走，在达到 $\alpha$（$\alpha > 0$）或 $-\beta$（$\beta > 0$）时停止。

它停在 $\alpha$ 而非 $-\beta$ 的概率是 $p_\alpha = \beta/(\alpha + \beta)$。达到 $\alpha$ 或 $-\beta$ 的期望停止时间是 $E[N] = \alpha\beta$。

掷骰子游戏

假设你掷一个骰子。每次掷骰，你获得骰子面值的金额。如果掷出 4、5 或 6，你可以再掷一次。如果掷出 1、2 或 3，游戏结束。这个游戏的期望收益是多少？解答：在第 4 章中，我们使用全期望公式来求解这个问题。一个更简单的方法——需要更多知识——是应用瓦尔德等式（Wald's Equality），因为这个问题有明确的停止规则。每次掷骰，游戏有 1/2 的概率停止。因此，停止时间 $N$ 服从参数 $p = 1/2$ 的几何分布，我们有 $E[N] = 1/p = 2$。每次掷骰，骰子面值的期望是 $E[X] = 7/2$。总的期望收益是 $E[S_N] = E[X]E[N] = 7/2 \times 2 = 7$。

排队买票

在剧院售票处，有 $2n$ 个人排队买票。其中 $n$ 人只有 5 美元钞票，另外 $n$ 人只有 10 美元钞票。售票员一开始没有零钱。

原书 PDF 第 134 页

查看本页原始扫描图

如果每个人买一张 5 美元的票，那么所有人都不用换位置就能买到票的概率是多少？

解答：

这个问题通常被认为是一个难题。虽然许多人能正确理解问题，但很少有人能使用反射原理（reflection principle）来解决它。脚注 8考虑一个从 $a$ 开始的随机游走，$S_0 = a$，并在 $n$ 步后到达 $b$：$S_n = b$。记 $N_n(a,b)$ 为从 $(0,a)$ 到 $(n,b)$ 的可能路径数，$N_n^0(a,b)$ 为从 $(0,a)$ 到 $(n,b)$ 且在某步 $k$（$k>0$）时 $S_k = 0$ 的可能路径数；换句话说，$N_n^0(a,b)$ 是包含点 $(k,0)$ 的路径数，其中 $0 < k < n$。反射原理指出，如果 $a, b > 0$，那么 $N_n^0(a,b) = N_n(-a,b)$。证明很直观：对于每条从 $(0,a)$ 到 $(k,0)$ 的路径，都存在一条从 $(0,-a)$ 到 $(k,0)$ 的一一对应路径。这个问题是众多案例之一，体现了广博知识的重要性。

将持有 5 美元钞票的 $n$ 人赋值为 +1，持有 10 美元钞票的 $n$ 人赋值为 -1。把这个过程看作一个随机游走。用 $(a, b)$ 表示经过 $a$ 步后，游走停在 $b$ 处。因此，我们从 $(0,0)$ 开始，经过 $2n$ 步到达 $(2n,0)$。在这 $2n$ 步中，我们需要选择 $n$ 步为 +1，所以总共有 $\binom{2n}{n} = \frac{2n!}{n!n!}$ 条可能的路径。我们关心那些在所有步骤 $0 < a < 2n$ 中都满足 $b \ge 0$ 的路径。计算那些在某个步骤 $0 < a < 2n$ 到达 $b = -1$ 的补集路径数量更容易。如图 5.6 所示，如果一条路径第一次到达 -1 后，我们将其关于直线 $y = -1$ 反射，那么对于每一条在第 $2n$ 步到达 $(2n,0)$ 的路径，都有唯一一条反射后的路径在第 $2n$ 步到达 $(2n,-2)$。

要到达 $(2n,-2)$，该路径需要有 $(n-1)$ 步为 +1 和 $(n+1)$ 步为 -1。所以，这样的路径有 $\binom{2n}{n-1} = \frac{2n!}{(n-1)!(n+1)!}$ 条。在最终到达 $(2n,0)$ 的条件下，那些在某个步骤 $0 < a < 2n$ 到达 $b = -1$ 的路径数量也是 $\binom{2n}{n-1}$。而所有步骤 $0 < a < 2n$ 都满足 $b \ge 0$ 的路径数量是 \[ \binom{2n}{n} - \binom{2n}{n-1} = \binom{2n}{n} - \frac{n}{n+1}\binom{2n}{n} = \frac{1}{n+1}\binom{2n}{n}. \] 因此，所有人都不用换位置就能买到票的概率是 $1/(n+1)$。

原书 PDF 第 135 页

查看本页原始扫描图

硬币序列

假设你有一枚公平硬币。要连续得到 $n$ 次正面，期望的抛硬币次数是多少？解答：令 $E[f(n)]$ 为连续得到 $n$ 次正面的期望抛硬币次数。在马尔可夫链部分，我们讨论了 $n=3$ 的情况（得到序列 HHH）。对于任意整数 $n$，我们可以考虑使用归纳法。利用马尔可夫链方法，我们很容易得到 $E[f(1)]=2$，$E[f(2)]=6$，$E[f(3)]=14$。通项公式的一个自然猜测是 $E[f(n)]=2^{n+1}-2$。像往常一样，我们使用归纳法证明这个公式。我们已经证明该公式对于 $n=1,2,3$ 成立。所以我们只需证明如果 $E[f(n)]=2^{n+1}-2$，则 $E[f(n+1)]=2^{n+2}-2$。下图展示了如何证明该等式对 $E[f(n+1)]$ 成立：

在连续 $(n+1)$ 次正面（记为 $(n+1)H$）之前的状态必须是连续 $n$ 次正面（记为 $nH$）。需要期望的 $E[f(n)]=2^{n+1}-2$ 次抛掷才能达到 $nH$。在状态 $nH$ 下，有 $1/2$ 的概率会进入 $(n+1)H$（新抛掷结果为 H）并停止。还有 $1/2$ 的概率会回到

原书 PDF 第 136 页

查看本页原始扫描图

起始状态 0（新抛掷结果为 T），此时我们需要再花期望为 $E[f(n+1)]$ 次抛掷才能达到 $(n+1)H$。因此我们有 \[ E[f(n+1)] = E[f(n)] + \frac{1}{2} \times 1 + \frac{1}{2} \times E[f(n+1)] \] \[ \Rightarrow E[f(n+1)] = 2 \times E[f(n)] + 2 = 2^{n+1} - 2 \] 一般的鞅方法：让我们用 $HH \cdots H_n$ 来解释一种通用方法，通过考察鞅的停止时间来得到获得任意硬币序列的期望时间。

脚注 9如果您希望了解关于此方法的更多细节，请参阅李硕彦（Shuo-Yen Robert Li）的论文《A Martingale Approach to the Study of Occurrence of Sequence Patterns in Repeated Experiments》，载于《The Annals of Probability》，第8卷，第6期（1980年12月），第1171-1176页。想象一位赌徒在公平游戏中用 1 美元赌一个由 $n$ 次正面组成的序列（$HH \cdots H_n$），规则如下：赌注最多可押在连续 $n$ 场游戏（抛掷）上，每次赌徒都押上全部资金（除非他破产）。

例如，如果第一次抛掷出现 H，他将拥有 2 美元，并将全部 2 美元押在第二次抛掷上。他要么在输掉一场游戏时停止，要么在连续赢 $n$ 场游戏时停止，此时他将赢得 $2^n$ 美元（概率为 $1/2^n$）。现在假设，不是只有一个赌徒，而是在每次抛掷前都有一位新赌徒加入游戏，也用 1 美元的本金押注同样的 $n$ 次正面序列。在第 $i$ 场游戏之后，共有 $i$ 位赌徒参与了游戏，他们投入的总金额应为 $i$ 美元。由于每场游戏都是公平的，他们总赌本的期望值也是 $i$。换句话说，如果用 $x_i$ 表示所有参与赌徒在第 $i$ 场游戏后的资金总额，那么 $(x_i - i)$ 是一个鞅。现在，我们增加一个停止规则：如果其中一名赌徒首次连续掷出 $n$ 次正面，则整个游戏停止。在停时停止的鞅仍然是鞅。因此，我们仍有 $E[(x_i - i)] = 0$。

如果序列在第 $i$ 次投掷后停止（$i \ge n$），那么第 $(i-n+1)$ 名玩家就是第一个连续掷出 $n$ 次正面的玩家，其收益为 $2^n$。因此，在他之前的所有 $(i-n)$ 名玩家都破产了；第 $(i-n+2)$ 名玩家连续掷出 $(n-1)$ 次正面，收益为 $2^{n-1}$；……；第 $i$ 名玩家掷出一次正面，收益为 $2^1$。所以总收益是固定的，且 $x_i = 2^n + 2^{n-1} + \cdots + 2^1 = 2^{n+1} - 2$。因此，$E[(x_i - i)] = 2^{n+1} - 2 - E[i] = 0 \Rightarrow E[i] = 2^{n+1} - 2$。这种方法可以应用于任何硬币序列——同样也适用于骰子序列或任意元素数量的序列。例如，让我们考虑序列 $HHTTHH$。

我们可以再次对序列 $HHTTHH$ 使用一个停时鞅过程。赌徒们在每次投掷前依次加入游戏，押注相同的序列 $HHTTHH$，直到一名赌徒首次得到序列 $HHTTHH$。如果序列在第 $i$ 次投掷后停止，第 $(i-5)$ 名赌徒得到 $HHTTHH$，收益为 $2^6$。

原书 PDF 第 137 页

查看本页原始扫描图

2°. 所有在他之前的 (i—6) 名玩家都破产了；第 (i—4) 名玩家在第二次投掷 (HT) 中失败；第 (i—3) 名玩家和第 (i—2) 名玩家在第一次投掷 (T) 中失败；第 (i—1) 名玩家获得序列 HH，支付为 $2^2$，第 i 名玩家获得 H，支付为 2。因此，$E[(x_i - i)] = 2^6 + 2^2 + 2^1 - E[i] = 0 \Rightarrow E[i] = 70$。

5.3 动态规划

动态规划是指为解决序贯决策问题或多阶段决策问题而开发的一系列通用方法脚注 10本节仅是动态规划的初步介绍。关于最新的动态规划主题，我推荐 Dimitri P. Bertsekas 教授的著作《动态规划与最优控制》。。它是一种极其通用的工具，在金融、供应链管理和航空调度等领域都有应用。尽管理论上很简单，但掌握动态规划算法需要扎实的数学基础和严谨的逻辑。因此，它通常被认为是研究生阶段最难的课程之一。幸运的是，你在面试中可能遇到的动态规划问题——尽管你可能并未将其识别为动态规划问题——都是基础问题。

因此，在本节中，我们将重点关注动态规划的基本逻辑，并将其应用于几个面试问题。希望这些例子的解决方案能够传达动态规划的要点和威力。一个离散时间动态规划模型包含两个固有组成部分：

底层的离散时间动态系统

一个动态规划问题总是可以被划分为若干阶段，每个阶段都需要一个决策。每个阶段都有与之关联的若干状态。一个阶段的决策会将当前状态转换为下一阶段的状态（在某些阶段和状态下，如果只有一个选择，决策可能是微不足道的）。假设问题有 N+1 个阶段（时间段）。按照惯例，我们将这些阶段标记为 0, 1, ..., N—1, N。在任何阶段 k，$0 \le k \le N-1$，状态转移可以表示为 $x_{k+1} = f(x_k, u_k, w_k)$，其中 $x_k$ 是系统在阶段 k 的状态脚注 11一般来说，$x_k$ 可以包含所有过去的相关信息。在我们的讨论中，我们只考虑当前信息，假设马尔可夫性质。，$u_k$ 是在阶段 k 选择的决策；

$w_k$ 是一个随机参数（也称为扰动）。

原书 PDF 第 138 页

查看本页原始扫描图

基本上，下一阶段的状态 $x_{k+1}$ 由当前状态 $x_k$、当前决策 $u_k$（在阶段 $k$ 从可用选项中做出的选择）以及随机变量 $w_k$（$w_k$ 的概率分布通常取决于 $x_k$ 和 $u_k$）的函数决定。

随时间累加的成本（或利润）函数。

除了最后一个阶段（$N$）的成本/利润 $g_N(x_N)$ 仅取决于 $x_N$ 外，所有其他阶段的成本 $g_k(x_k, u_k, w_k)$ 都可以取决于 $x_k$、$u_k$ 和 $w_k$。因此，总成本/利润为 $g_N(x_N) + \sum_{k=0}^{N-1} g_k(x_k, u_k, w_k)$。优化的目标是选择决策序列 $\pi^* = \{u_0^*, \dots, u_{N-1}^*\}$ 的策略/策略，以最小化预期成本（或最大化预期利润）： \[ J_{\pi^*}(x_0) = \min_{\pi} E\left\{g_N(x_N) + \sum_{k=0}^{N-1} g_k(x_k, u_k, w_k)\right\} \]

动态规划（DP）算法

动态规划算法依赖于一个称为“最优性原理”的思想：如果 $\pi^* = \{u_0^*, \dots, u_{N-1}^*\}$ 是原始动态规划问题的最优策略，那么尾部策略 $\pi_i^* = \{u_i^*, \dots, u_{N-1}^*\}$ 必须是尾部子问题 $E\left\{g_N(x_N) + \sum_{k=i}^{N-1} g_k(x_k, u_k, w_k)\right\}$ 的最优策略。

DP 算法：为了解决基本问题 $J_{\pi^*}(x_0) = \min_{\pi} E\left\{g_N(x_N) + \sum_{k=0}^{N-1} g_k(x_k, u_k, w_k)\right\}$，从 $J_N(x_N) = g_N(x_N)$ 开始，并向后最小化成本到期函数 $J_k(x_k)$： \[ J_k(x_k) = \min_{u_k \in U_k(x_k)} E\left\{g_k(x_k, u_k, w_k) + J_{k+1}(f(x_k, u_k, w_k))\right\}, \quad k = 0, \dots, N-1 \] 然后，通过此算法生成的 $J_0(x_0)$ 是预期的最优成本。尽管该算法看起来很复杂，但其直观理解却很简单。

对于动态规划问题，我们应该首先为最终阶段的每种可能状态（具有最高信息量和最少不确定性的状态）找到最优策略，然后通过应用尾部策略和成本到期函数向后工作，直到达到初始阶段。现在，让我们用几个例子来说明 DP 算法的应用。

原书 PDF 第 139 页

查看本页原始扫描图

骰子游戏

你可以掷一个6面骰子，最多掷3次。在第一次或第二次掷骰后，如果你得到一个数字 $x$，你可以决定要么获得 $x$ 美元，要么选择继续掷骰。但一旦你决定继续，你就放弃了刚刚掷出的数字。如果你进行第三次掷骰，你将直接获得 $x$ 美元（如果第三次的数字是 $x$），然后游戏结束。这个游戏的价值是多少？你的策略是什么？解：这是一个简单的动态规划策略游戏。和所有动态规划问题一样，关键是从最后阶段开始，逆向推导。对于这个问题，最后阶段就是你放弃了前两次掷骰的时刻。它变成了一个只有一次掷骰的简单骰子游戏。点数值1、2、3、4、5和6各有1/6的概率，你的预期收益是3.5美元。现在让我们后退一步。想象一下，你处于第二次掷骰之后的时刻，此时你可以选择要么进行第三次掷骰（预期收益为3.5美元），要么保留当前的点数值。显然，如果当前点数值大于3.5，你就会保留它；换句话说，当你掷出4、5或6时，你就停止掷骰。

当你掷出1、2或3时，你就继续掷骰。所以，在第二次掷骰之前，你的预期收益是 $ \frac{3}{6} \times 3.5 + \frac{1}{6} \times (4+5+6) = 4.25 $ 美元。现在让我们再后退一步。想象一下，你处于第一次掷骰之后的时刻，此时你可以选择要么进行第二次掷骰（预期收益为4.25美元），要么保留当前的点数值。显然，如果当前点数值大于4.25，你就会保留它；换句话说，当你掷出5或6时，你就停止掷骰。所以，在第一次掷骰之前，你的预期收益是 $ \frac{4}{6} \times 4.25 + \frac{1}{6} \times (5+6) = 14/3 $ 美元。这种逆向方法——在动态规划中称为尾部策略——为我们提供了策略，也给出了初始阶段游戏的期望值，即14/3美元。

世界大赛

波士顿红袜队和科罗拉多落基山队正在世界大赛决赛中对决。如果你不熟悉世界大赛，它最多有7场比赛，第一支赢得4场比赛的队伍将获得冠军。你有100美元，想对红袜队进行一场“要么翻倍要么输光”的赌注。不幸的是，你只能对每一场比赛单独下注，而不能对整个系列赛下注。你应该在每场比赛上下注多少，才能使得如果红袜队赢得整个系列赛，你恰好赢得100美元；如果红袜队输掉整个系列赛，你恰好输掉100美元？解：设 $(i,j)$ 表示红袜队赢了 $i$ 场比赛、落基山队赢了 $j$ 场比赛的状态，并设 $f(i, j)$ 为我们在状态 $(i, j)$ 时的净收益（当我们输钱时，它可以是负数）。根据比赛规则，我们知道总共可能有4到7场比赛。我们需要决定一个策略，使得无论何时

原书 PDF 第 140 页

查看本页原始扫描图

系列结束时，我们的最终净收益为 +100（当红袜队赢得冠军时）或 -100（当红袜队输掉比赛时）。换句话说，最后一阶段的状态空间包括 $\{(4,0), (4,1), (4,2), (4,3)\}$，且收益为 $f(i,j)=100$，以及 $\{(0,4), (1,4), (2,4), (3,4)\}$，且收益为 $f(i,j)=-100$。与所有动态规划问题一样，关键是从最后阶段开始并向后推导——即使在这种情况下阶段的数量不是固定的。对于每个状态 $(i, j)$，如果我们对下一场比赛的红袜队下注 $y$，那么如果红袜队获胜且状态变为 $(i+1, j)$，我们将获得 $(f(i, j)+y)$；如果红袜队输掉比赛且状态变为 $(i, j+1)$，我们将获得 $(f(i, j)-y)$。

因此，显然我们有 \[ f(i+1, j) = f(i, j) + y \\ f(i, j+1) = f(i, j) - y \] \[ \Rightarrow \begin{cases} f(i, j) = (f(i+1, j) + f(i, j+1))/2 \\ y = (f(i+1, j) - f(i, j+1))/2 \end{cases} \]

补充说明： 这里的推导基于一个假设：下一场比赛获胜或输掉的概率各为 1/2，因此未来两种可能收益的期望值就是当前状态的收益。下注金额 $y$ 由两种未来收益的差值决定，这类似于一个对冲操作——通过调整赌注，使得无论比赛结果如何，最终财富的变化保持一致。

例如，我们有 \[ f(3, 3) = \frac{f(4, 3) + f(3, 4)}{2} = \frac{100 - 100}{2} = 0. \] 现在我们创建一个表格，其中列代表 $i$（红袜队获胜次数），行代表 $j$（落基队获胜次数）。我们已经有了填写 $f(4, 0), f(4, 1), f(4, 3), f(4, 2), f(0, 4), f(1, 4), f(2, 4), f(3, 4)$ 以及 $f(3,3)$ 的所有信息。类似地，我们也可以填写所有 $i=3$ 或 $j=3$ 的状态下的 $f(i, j)$，如图 5.7 所示。进一步向后推导，我们可以填写每个可能状态下的净收益。使用方程 $y = (f(i+1, j) - f(i, j+1))/2$，我们还可以计算每个状态下需要下注的金额，这本质上是我们的策略。

如果您不习惯表格格式，图 5.8 将其重新绘制为二叉树，这是一种您应该熟悉的格式。如果您认为边界条件是 $f(4,0), f(4,1), f(4,3), f(4,2), f(0,4), f(1,4), f(2,4)$ 和 $f(3,4)$，并且标的资产在每一步后要么增加 1 要么减少 1，且没有利息，那么这个问题就变成了一个简单的二叉树问题，并且每次下注的金额就是动态对冲中的 delta。事实上，欧式期权和美式期权都可以使用动态规划方法进行数值求解。

补充说明： 这里所说的 delta 是指期权定价中的对冲比率，即为了复制期权收益需要在标的资产上持有的头寸。在这个赌博问题中，每场比赛的下注金额相当于复制了最终收益所需的“对冲头寸”。

原书 PDF 第 141 页

查看本页原始扫描图

图 5.7 不同状态下的收益和下注金额
	0	1	2	3	4		下注金额	0	1	2	3	4
	红袜队获胜次数						红袜队获胜次数
科罗拉多落基队获胜次数	0				87.5	100	科罗拉多落基队获胜次数	0	31.25	31.25	25	12.5
	1			75	100			1	31.25	37.5	37.5	25
	2		50	100				2	25	37.5	50	50
	3	-87.5	-75	-50	0	100		3	12.5	25	50	100
	4	-100	-100	-100	-100			4

图 5.8 用二叉树表示的不同状态下的收益


0
(0,0)
	31.25		62.5		87.5		100		100		100
(1,0)		(2,0)		(3,0)		(4,0)		(4,1)		(4,2)
	-31.25		0		37.5		75		50		100
(0,1)		(1,1)		(2,1)		(3,1)		(3,2)		(4,2)
		-62.5		-37.5		0		-50		-100
	(0,2)		(1,2)		(2,2)		(2,3)		(3,3)		(3,4)
		-87.5		-75		-100		-100		-100
	(0,3)		(1,3)		(2,4)		(1,4)		(0,4)
		-100

原书 PDF 第 142 页

查看本页原始扫描图

动态骰子游戏

一家赌场推出了一种新奇的骰子游戏。游戏允许你多次掷骰子，除非掷出 6。在每次掷骰后，如果掷出 1，你将赢得 1 美元；如果掷出 2，你将赢得 2 美元；……；如果掷出 5，你将赢得 5 美元；但如果掷出 6，你在游戏中赢得的所有钱都将失去，游戏结束。每次掷骰后，如果点数为 1 到 5，你可以选择保留当前赢得的钱继续游戏，或者放弃继续。假设你风险中性，你愿意支付多少钱来玩这个游戏？

脚注 1布朗运动通常表示为 $B_t$。或者表示为 $W(t)$，因为它是一个维纳过程。在本节中，我们交替使用这两种表示法，以便您熟悉它们。12|5o-Q56S677ya5aaC5p6c5L2g5Yaz5a6a5YaN5o635LiA5qyh77yM5o636aqw5ZCO5L2g5oul5pyJ55qE6YeR6aKd5pyf5pyb5YC85bqU6auY5LqO5o636aqw5YmN55qE6YeR6aKd44CC6ZqP552A6YeR6aKd5aKe5Yqg77yM5aaC5p6c5Ye6546wIDYg54K577yM5L2g5o2f5aSx55qE6ZKx5Lmf5pu05aSa44CC5Zug5q2k77yM5b2T6YeR6aKd6L6-5Yiw5p-Q5Liq5pWw5YC85pe277yM5L2g5bqU6K-l5YGc5q2i5o636aqw44CC2|XChXKHMpIFxzaW0gTigwLHMpXCnjgILlm6DmraQgXChFW1xleHBce1xsYW1iZGEgVyhzKVx9XVwpIOaYr-maj-acuuWPmOmHjyBcKE4oMCxzKVwpIOeahOefqeeUn-aIkOWHveaVsOOAgg

补充说明： 所谓“风险中性”，是指你在决策时只考虑期望收益，而不考虑风险带来的心理成本。因此，你的出价应该等于这个游戏在最优策略下的期望收益。

解答：

假设我们已经累积了 $n$ 美元，是否进行下一次掷骰取决于预期收益与预期损失的比较。如果我们决定多掷一次，我们的期望收益将变为 \[ \frac{1}{6}(n+1) + \frac{1}{6}(n+2) + \frac{1}{6}(n+3) + \frac{1}{6}(n+4) + \frac{1}{6}(n+5) + \frac{1}{6}\times 0 = \frac{5}{6}n + 2.5. \] 当期望收益 $\frac{5}{6}n + 2.5 > n$ 时，我们会选择继续掷骰。这意味着，当累积金额不超过 14 美元时，我们应该继续掷骰。考虑到当 $n \ge 15$ 时我们会停止，游戏的最大收益为 19 美元（即在状态 $n=14$ 时掷出 5 点）。

因此，我们有：$f(19)=19$，$f(18)=18$，$f(17)=17$，$f(16)=16$，以及 $f(15)=15$。当 $n \le 14$ 时，我们会继续掷骰，所以 \[ E[f(n)|n \le 14] = \frac{1}{6} \sum_{i=1}^{5} E[f(n+i)]. \] 利用这个方程，我们可以递归地计算出所有 $n=14, 13, \dots, 0$ 对应的 $E[f(n)]$ 值。结果总结在表 5.2 中。由于 $E[f(0)]=6.15$，我们最多愿意为这个游戏支付 6.15 美元。

补充说明： 这里的逻辑是，每次掷骰前，我们比较“立即停止”的确定收益 $n$ 和“再掷一次”的期望收益。当期望收益更高时，继续游戏是理性的。从 $n=14$ 开始倒推计算，是因为我们知道 $n \ge 15$ 时的终值。

表 5.2 玩家累积 $n$ 美元时的游戏期望收益
n	19	18	17	16	15	14	13	12	11	10
E[f(n)]	19.00	18.00	17.00	16.00	15.00	14.17	13.36	12.59	11.85	11.16
n	9	8	7	6	5	4	3	2	1	0
E[f(n)]	10.52	9.91	9.34	8.80	8.29	7.81	7.36	6.93	6.53	6.15

原书 PDF 第 143 页

查看本页原始扫描图

动态纸牌游戏

一家赌场提供另一种纸牌游戏，使用标准的 52 张牌（26 张红牌，26 张黑牌）。牌被彻底洗匀，发牌员一张一张地发牌。（已发出的牌不放回牌堆。）你可以在任何时候要求发牌员停止。每发出一张红牌，你赢 1 美元；每发出一张黑牌，你输 1 美元。在最大化预期收益方面，最优的停止规则是什么？你愿意为这场游戏支付多少钱？

解答：

这是另一个被许多面试者认为困难的问题。然而，它是一个简单的动态规划问题。令 $(b, r)$ 表示牌堆中剩余的黑牌和红牌的数量。根据对称性，我们有：已发出的红牌数 - 已发出的黑牌数 = 剩余的黑牌数 - 剩余的红牌数 = $b - r$

补充说明： 这个对称性关系成立是因为总牌数固定（52张），且红黑牌初始数量相等（各26张）。已发出的红牌数等于初始红牌数（26）减去剩余红牌数 $r$，已发出的黑牌数同理。因此，净收益（红牌收益减黑牌损失）等于 $b - r$。

在每个状态 $(b, r)$，我们面临着停止或继续游戏的决定。如果我们要求发牌员在状态 $(b, r)$ 停止，则收益为 $b - r$。如果我们继续，则有 $\frac{b}{b+r}$ 的概率下一张牌是黑牌——在这种情况下，状态变为 $(b-1, r)$——以及 $\frac{r}{b+r}$ 的概率下一张牌是红牌——在这种情况下，状态变为 $(b, r-1)$。当且仅当继续抽牌的预期收益小于 $b - r$ 时，我们才会停止。

这也给出了我们的系统方程： \[ E[f(b, r)] = \max\left\{b - r, \frac{b}{b+r} E[f(b-1, r)] + \frac{r}{b+r} E[f(b, r-1)]\right\} \] 如图 5.9（下一页）所示，使用边界条件 $f(0, r) = 0$，$f(b, 0) = b$，其中 $\forall b, r = 0, 1, \dots, 26$，以及 $E[f(b, r)]$ 的系统方程，我们可以递归地计算所有 $b$ 和 $r$ 对的 $E[f(b, r)]$。游戏开始时的预期收益为 $E[f(26, 26)] = \$2.62$。

脚注 13你可能已经认识到这个系统方程是美国期权方程。本质上，你是在决定是否在状态 $(b, r)$ 行使期权。

原书 PDF 第 144 页

查看本页原始扫描图


f(b,r)	剩余黑色牌数量
f(b,r)	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26
0	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26
1	0	0.50	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25
2	0	0.33	0.67	1.20	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24
3	0	0.25	0.50	0.85	1.34	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23
4	0	0.20	0.40	0.66	1.00	1.44	2.07	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22
5	0	0.17	0.33	0.54	0.79	1.12	1.55	2.15	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21
6	0	0.14	0.29	0.45	0.66	0.91	1.23	1.66	2.23	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20
7	0	0.13	0.25	0.39	0.56	0.76	1.01	1.34	1.75	2.30	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19
8	0	0.11	0.22	0.35	0.49	0.66	0.86	1.11	1.43	1.84	2.36	3.05	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18
9	0	0.10	0.20	0.31	0.43	0.58	0.75	0.95	1.21	1.52	1.92	2.43	3.10	4	5	6	7	8	9	10	11	12	13	14	15	16	17
10	0	0.09	0.18	0.28	0.39	0.52	0.66	0.83	1.04	1.30	1.61	2.00	2.50	3.15	4	5	6	7	8	9	10	11	12	13	14	15	16
11	0	0.08	0.17	0.26	0.35	0.46	0.59	0.74	0.91	1.12	1.38	1.69	2.08	2.57	3.20	4	5	6	7	8	9	10	11	12	13	14	15
12	0	0.08	0.15	0.24	0.32	0.42	0.54	0.66	0.81	0.99	1.20	1.46	1.77	2.15	2.63	3.24	4	5	6	7	8	9	10	11	12	13	14
13	0	0.07	0.14	0.22	0.30	0.39	0.49	0.60	0.73	0.89	1.06	1.28	1.53	1.84	2.22	2.70	3.28	4.03	5	6	7	8	9	10	11	12	13
14	0	0.07	0.13	0.20	0.28	0.36	0.45	0.55	0.67	0.80	0.95	1.13	1.35	1.60	1.91	2.29	2.75	3.33	4.06	5	6	7	8	9	10	11	12
15	0	0.06	0.13	0.19	0.26	0.33	0.42	0.51	0.61	0.73	0.86	1.02	1.20	1.42	1.67	1.98	2.36	2.81	3.38	4.09	5	6	7	8	9	10	11
16	0	0.06	0.12	0.18	0.24	0.31	0.39	0.47	0.57	0.67	0.79	0.93	1.08	1.27	1.48	1.74	2.05	2.42	2.87	3.43	4.13	5	6	7	8	9	10
17	0	0.06	0.11	0.17	0.23	0.29	0.36	0.44	0.53	0.62	0.73	0.85	0.99	1.15	1.33	1.55	1.81	2.11	2.48	2.93	3.48	4.16	5	6	7	8	9
18	0	0.05	0.11	0.16	0.22	0.28	0.34	0.41	0.49	0.58	0.67	0.78	0.90	1.04	1.21	1.39	1.61	1.87	2.17	2.54	2.99	3.53	4.19	5	6	7	8
19	0	0.05	0.10	0.15	0.20	0.26	0.32	0.39	0.46	0.54	0.63	0.73	0.84	0.96	1.10	1.26	1.45	1.67	1.93	2.24	2.60	3.04	3.57	4.22	5.01	6	7
20	0	0.05	0.10	0.14	0.19	0.25	0.31	0.37	0.43	0.51	0.59	0.68	0.78	0.89	1.01	1.16	1.32	1.51	1.73	1.99	2.30	2.66	3.09	3.62	4.25	5.03	6
21	0	0.05	0.09	0.14	0.19	0.24	0.29	0.35	0.41	0.48	0.55	0.63	0.72	0.83	0.94	1.07	1.21	1.38	1.57	1.79	2.05	2.35	2.72	3.15	3.66	4.28	5.05
22	0	0.04	0.09	0.13	0.18	0.23	0.28	0.33	0.39	0.45	0.52	0.60	0.68	0.77	0.87	0.99	1.12	1.26	1.43	1.62	1.85	2.11	2.41	2.77	3.20	3.71	4.32
23	0	0.04	0.08	0.13	0.17	0.22	0.26	0.32	0.37	0.43	0.49	0.56	0.64	0.72	0.82	0.92	1.04	1.17	1.32	1.48	1.68	1.90	2.16	2.47	2.82	3.25	3.75
24	0	0.04	0.08	0.12	0.16	0.21	0.25	0.30	0.35	0.41	0.47	0.53	0.60	0.68	0.77	0.86	0.97	1.08	1.22	1.37	1.54	1.73	1.96	2.22	2.52	2.88	3.30
25	0	0.04	0.08	0.12	0.16	0.20	0.24	0.29	0.34	0.39	0.45	0.51	0.57	0.64	0.72	0.81	0.90	1.01	1.13	1.26	1.42	1.59	1.78	2.01	2.27	2.57	2.93
26	0	0.04	0.07	0.11	0.15	0.19	0.23	0.28	0.32	0.37	0.43	0.48	0.54	0.61	0.68	0.76	0.85	0.95	1.06	1.18	1.31	1.46	1.64	1.83	2.06	2.32	2.62

原书 PDF 第 145 页

查看本页原始扫描图

5.4 布朗运动与随机微积分

在本节中，我们将简要回顾一些关于随机微积分的问题，这是连续空间中随机过程的对等概念。由于布朗运动和随机微积分的基本定义和定理常被直接用作面试问题，因此我们将把它们直接融入问题中，而不是先概述定义和定理。

布朗运动

A. 定义并列举布朗运动的一些性质？

解答： 这是最基础的布朗运动问题。有趣的是，定义的一部分，例如 $W(0)=0$，以及一些性质，是如此显而易见，以至于我们常常无法完整回忆起所有细节。一个连续随机过程 $W(t)$，其中 $t \ge 0$，是布朗运动，如果满足以下条件：

$W(0)=0$；
该过程的增量 $W(t_1)-W(0)$, $W(t_2)-W(t_1)$, ..., $W(t_n)-W(t_{n-1})$，对于任意 $0 \le t_1 \le t_2 \le \dots \le t_n$，是相互独立的；
这些增量中的每一个都服从正态分布，其分布为 $W(t_{i+1})-W(t_i) \sim N(0, t_{i+1}-t_i)$。

布朗运动的一些重要性质如下：连续（无跳跃）；$E[W(t)]=0$；$E[W(t)^2]=t$；$W(t) \sim N(0,t)$；鞅性质 $E[W(t+s)|W(t)]=W(t)$；协方差 $cov(W(s),W(t))=s$，对于 $0 < s < t$；以及马尔可夫性质（在连续空间中）。还有两个与布朗运动相关的其他重要鞅，它们在许多应用中是宝贵的工具。

$Y(t)=W(t)^2 - t$ 是一个鞅。
$Z(t) = \exp\{\lambda W(t) - \frac{1}{2}\lambda^2 t\}$，其中 $\lambda$ 是任意常数，$W(t)$ 是一个布朗运动，是一个鞅。（指数鞅）。

原书 PDF 第 146 页

查看本页原始扫描图

我们将在下一节使用伊藤引理来证明第一个鞅。指数鞅的证明草图如下： \[ E[Z(t+s)] = E[\exp\{\lambda(W(t)+W(s))-\frac{1}{2}\lambda^2(t+s)\}] \] \[ = \exp\{\lambda W(t)-\frac{1}{2}\lambda^2 t\}\exp\{-\frac{1}{2}\lambda^2 s\} E[\exp\{\lambda W(s)\}] \] \[ = Z(t)\exp\{-\frac{1}{2}\lambda^2 s\}\exp\{\frac{1}{2}\lambda^2 s\} = Z(t) \]

B. 布朗运动与其平方的相关性是多少？

解答： 这个问题答案出奇地简单。在时间 $t$，$B_t \sim N(0,t)$，根据对称性，$E[B_t]=0$ 且 $E[B_t^3]=0$。应用协方差公式 \[ \text{Cov}(X,Y) = E[XY] - E[X]E[Y] \] 我们得到 $\text{Cov}(B_t, B_t^2) = E[B_t^3] - E[B_t]E[B_t^2] = 0 - 0 = 0$。因此，布朗运动与其平方的相关性也是 0。

C. 令 $B_t$ 为一个布朗运动。$B_1 > 0$ 且 $B_2 < 0$ 的概率是多少？

解答： 一个标准的解法利用了 $B_1 \sim N(0,1)$ 且 $B_2 - B_1$ 与 $B_1$ 独立这一事实，$B_2 - B_1$ 同样是一个正态分布：$B_2 - B_1 \sim N(0,1)$。如果 $B_1 = x > 0$，那么对于 $B_2 < 0$，我们必须有 $B_2 - B_1 < -x$。

\[ P(B_1 > 0, B_2 < 0) = P(B_1 > 0, B_2 - B_1 < -B_1) \] \[ = \int_{0}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-x^2/2} dx \int_{-\infty}^{-x} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} dy = \int_{0}^{\infty} \int_{-\infty}^{-x} \frac{1}{2\pi} e^{-(x^2+y^2)/2} dx dy \] \[ = \int_{-\pi/2}^{-\pi/4}\int_{0}^{\infty} \frac{1}{2\pi}e^{-r^2/2}r\,dr\,d\theta = \frac{\pi/4}{2\pi} = \frac{1}{8}. \] 但我们真的需要积分步骤吗？

如果我们充分利用 $B_1$ 和 $B_2 - B_1$ 是两个独立的同分布 $N(0,1)$ 随机变量这一事实，答案是否定的。利用条件概率和独立性，我们可以重新表述方程为 \[ P(B_1 > 0, B_2 < 0) = P(B_1 > 0) P(B_2 - B_1 < 0) P(|B_2 - B_1| > |B_1|) \] \[ = 1/2 \times 1/2 \times 1/2 = 1/8 \]

原书 PDF 第 147 页

查看本页原始扫描图

这种方法在图 5.10 中得到了更好的展示。当我们有 $B_1 > 0$ 和 $B_2 - B_1 < -B_1$ 时，这占了密度体积的 1/8。（由 $x=0$, $y=0$, $y=x$, 和 $y=-x$ 分隔的 8 个区域，由于对称性，具有相同的密度体积。）

补充说明： 为什么是 1/8？想象一个二维坐标系，横轴是 $B_1$，纵轴是 $B_2 - B_1$。这两个随机变量独立且均服从标准正态分布，所以它们的联合概率密度关于原点对称，并且分布在八个等分的扇形区域中（由 $x=0$, $y=0$, $y=x$, $y=-x$ 这四条线划分）。条件 $B_1 > 0$ 和 $B_2 - B_1 < -B_1$ 正好对应其中一个扇形区域，因此概率为 1/8。

停止时间/首次通过时间 A. 考虑一个布朗运动在何时第一次到达 -1 或 1 的停止时间的均值是多少？ 解答： 如我们所讨论的，$B_t^2 - t$ 是一个鞅。这可以通过应用伊藤引理来证明： \[ d(B_t^2 - t) = \frac{\partial(B_t^2 - t)}{\partial B_t} dB_t + \frac{\partial(B_t^2 - t)}{\partial t} dt + \frac{1}{2} \frac{\partial^2(B_t^2 - t)}{\partial B_t^2} dt = 2B_t dB_t - dt + dt = 2B_t dB_t. \] 因此 $d(B_t^2 - t)$ 没有漂移项，是一个鞅。令 $T = \min\{t; B_t = 1 \text{ 或 } -1\}$。在连续的时间和空间中，以下性质仍然适用：一个停止在

原书 PDF 第 148 页

查看本页原始扫描图

停止时间处的鞅也是鞅！所以 $B_T^2 - T$ 是鞅，并且 $E[B_T^2 - T] = B_0^2 - 0 = 0$。$B_T$ 触及 1 或 -1 的概率是 1，所以 $B_T^2 = 1 \Rightarrow E[T] = E[B_T^2] = 1$。B. 令 $W(t)$ 为标准维纳过程，$\tau_x$（其中 $x > 0$）为首次到达水平 $x$ 通过时间（$\tau_x = \min\{t; W(t) = x\}$）。请问 $\tau_x$ 的概率密度函数和期望值是什么？解答： 这是一个经典的教科书问题，采用反射原理可以优雅地解决，因此我们将简要概括其解释。

对于任意在时间 $t$ 之前到达 $x$（即 $\tau_x \le t$）的维纳过程路径，它们在时间 $t$ 最终位于 $x$ 之上或之下的概率相等，即 $P(\tau_x \le t, W(t) \ge x) = P(\tau_x \le t, W(t) \le x)$。这个解释基于反射原理。如图 5.11 所示，对于每条在时间 $t$ 之前到达 $x$ 并且在时间 $t$ 处于 $x$ 之上水平 $y$ 的路径，我们可以反转从 $\tau_x$ 开始的所有移动符号，那么反射后的路径在时间 $t$ 将结束于低于 $x$ 的 $2x - y$ 处。对于标准维纳过程（布朗运动），这两种路径具有相等的概率。

\[ P(\tau_x \le t) = P(\tau_x \le t, W(t) \ge x) + P(\tau_x \le t, W(t) \le x) = 2P(\tau_x \le t, W(t) \ge x) \] \[ = 2P(W(t) \ge x) = 2 \int_{\frac{x}{\sqrt{t}}}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-w^2/2t} dw \] 令 $v = \frac{w}{\sqrt{t}}$，我们得到 $e^{-w^2/2t} = e^{-v^2/2}$ 和 $dv = \frac{dw}{\sqrt{t}}$。

\[ \therefore P(\tau_x \le t) = 2 \int_{\frac{x}{\sqrt{t}}}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-w^2/2t} dw = 2 \int_{\frac{x}{\sqrt{t}}}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-v^2/2} dv = 2 - 2N(x/\sqrt{t}) \] 对 $t$ 求导，我们有 \[ f_{\tau_x}(t) = \frac{dP\{\tau_x \le t\}}{dt} = \frac{dP\{\tau_x \le t\}}{d(x/\sqrt{t})} \frac{d(x/\sqrt{t})}{dt} = 2N'(x/\sqrt{t}) \times \frac{x}{2} t^{-3/2} \Rightarrow \frac{xe^{-x^2/2t}}{t\sqrt{2\pi}}, \forall x > 0. \]

补充说明： 这里 $N(\cdot)$ 是标准正态分布的累积分布函数，$N'(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2}$ 是其概率密度函数。通过求导得出 $\tau_x$ 的概率密度函数，这是连续情况下常用的技巧。

从 A 部分很容易看出，到达 $\alpha$（$\alpha > 0$）或 $-\beta$（$\beta > 0$）的期望停止时间再次是 $E[N] = \alpha\beta$。到达水平 $x$ 的期望首次通过时间是无限大，因为即使过程可能很快到达，但它也可能花费很长时间。

原书 PDF 第 149 页

查看本页原始扫描图

本质上，这是到达 $x$ 或 $-\infty$ 的期望停止时间，且 $E[\tau_x] = x \times \infty = \infty$。尽管我们有 $P(\tau_x \le \infty) = 2 - 2N(x/\sqrt{\infty}) = 1$，但 $\tau_x$ 的期望值是 $\infty$！

C.

假设 $X$ 是一个无漂移的布朗运动，即 $dX(t) = dW(t)$。如果 $X$ 从 0 开始，那么 $X$ 在碰到 -5 之前先碰到 3 的概率是多少？如果 $X$ 有漂移 $m$，即 $dX(t) = mdt + dW(t)$，概率又是多少？

解答：

布朗运动是一个鞅（martingale）。设 $p_3$ 为布朗运动先碰到 3 而非 -5 的概率。由于一个鞅在停时（stopping time）处停止后仍是鞅，我们有 $3p_3 + (-5)(1-p_3) = 0 \Rightarrow p_3 = 5/8$。类似于随机游走，如果我们有停止边界 $(\alpha > 0)$ 和 $-\beta$ ($\beta > 0$)，那么它停在 $\alpha$ 而非 $-\beta$ 的概率是 $p_\alpha = \beta/(\alpha + \beta)$。到达 $\alpha$ 或 $-\beta$ 的期望停止时间同样是 $E[N] = \alpha\beta$。

补充说明： 这里利用了鞅的“可选停止定理”（Optional Stopping Theorem）。对于从0开始的布朗运动，在碰到边界 $\alpha$ 或 $-\beta$ 时停止，其期望值仍为0，由此列出方程求解概率。

当 $X$ 有漂移 $m$ 时，该过程不再是鞅。设 $P(t, x)$ 为在时间 $t$ 时 $X = x$ 的条件下，该过程先碰到 3 而非 -5 的概率。尽管 $X$ 不再是

原书 PDF 第 150 页

查看本页原始扫描图

鞅过程，但它仍然是一个马尔可夫过程。因此 $P(t, x) = P(x)$ 实际上与 $t$ 无关。应用费曼-卡茨（Feynman-Kac）方程脚注 4设 $X$ 是一个由方程 $dX(t) = \beta(t, X)dt + \gamma(t, X)dW$ 给出的伊藤过程，$f(x)$ 是 $X$ 的函数。定义函数 $V(t, x) = E[f(X_\tau) | X_t = x]$，那么 $V(t, x)$ 是一个满足偏微分方程 $\frac{\partial V}{\partial t} + \beta(t, x)\frac{\partial V}{\partial x} + \frac{1}{2}\gamma^2(t, x)\frac{\partial^2 V}{\partial x^2} = 0$ 和终端条件 $V(T, x) = f(x)$（对所有 $x$）的鞅过程。，我们得到 \[ mP_x(x) + \frac{1}{2}P_{xx}(x) = 0 \quad \text{对于 } -5 < x < 3。 \] 我们还有边界条件 $P(3) = 1$ 和 $P(-5) = 0$。

方程 $mP_x(x) + \frac{1}{2}P_{xx}(x) = 0$ 是一个齐次线性微分方程，有两个实根：$r_1 = 0$ 和 $r_2 = -2m$。所以通解为 $P(x) = c_1e^{r_1x} + c_2e^{r_2x} = c_1 + c_2e^{-2mx}$。应用边界条件，我们得到 \[ \begin{cases} c_1 + c_2e^{-6m} = 1 \\ c_1 + c_2e^{10m} = 0 \end{cases} \implies \begin{cases} c_1 = -e^{10m}/(e^{-6m} - e^{10m}) \\ c_2 = 1/(e^{-6m} - e^{10m}) \end{cases} \implies P(0) = c_1 + c_2 = \frac{e^{10m}-1}{e^{10m}-e^{-6m}}。 \] 另一种更简单的方法利用了指数鞅（exponential martingale）： $Z(t) = \exp\{\lambda W(t) - \frac{1}{2}\lambda^2 t\}$。

由于 $W(t) = X(t) - mt$，$X(t) - mt$ 也是一个布朗运动。应用指数鞅，对于任意常数 $\lambda$，我们有 $E[\exp(\lambda(X - mt) - \frac{1}{2}\lambda^2 t)] = 1$。为了消去包含时间 $t$ 的项，我们可以令 $\lambda = -2m$，方程变为 $E[\exp(-2mX)] = 1$。由于一个鞅在停时处停止后仍是鞅，我们有 $P_3 \exp(-2m \times 3) + (1-P_3) \exp(-2m \times -5) = 1 \Rightarrow P_3 = \frac{e^{10m}-1}{e^{10m}-e^{-6m}}$。D. 假设 $X$ 是一个广义维纳过程 $dX = dt + dW(t)$，其中 $W(t)$ 是布朗运动。$X$ 曾经达到 -1 的概率是多少？

解答： 要解决这个问题，我们可以再次使用上一个问题中导出的方程 $E[\exp(-2mX)] = 1$，其中 $m=1$。这可能不太明显，因为我们只有一个明显的边界 -1。为了应用停时，我们还需要一个对应的正边界。为了解决这个问题，我们可以简单地使用 $+\infty$ 作为正边界，方程变为

原书 PDF 第 151 页

查看本页原始扫描图

$P_{-1}\exp(-2\times -1) + (1-P_{-1})\exp(-2\times +\infty) = P_{-1}e^2 = 1 \Rightarrow P_{-1} = e^{-2}$。

伊藤引理（Ito's lemma）

伊藤引理是普通微积分中链式法则的随机对应物。设 $X(t)$ 是一个满足 $dX(t) = \beta(t, X)dt + \gamma(t, X)dW(t)$ 的伊藤过程，$f(X(t), t)$ 是 $X(t)$ 和 $t$ 的一个二次可微函数。那么 $f(X(t), t)$ 是一个满足下式的伊藤过程： \[ df = \left(\frac{\partial f}{\partial t} + \beta(t, X)\frac{\partial f}{\partial x} + \frac{1}{2}\gamma^2(t, X)\frac{\partial^2 f}{\partial x^2}\right)dt + \gamma(t, X)\frac{\partial f}{\partial x}dW(t)。 \] 漂移率 = $\frac{\partial f}{\partial t} + \beta(t, X)\frac{\partial f}{\partial x} + \frac{1}{2}\gamma^2(t, X)\frac{\partial^2 f}{\partial x^2}$

A. 设 $B_t$ 是一个布朗运动，且 $Z_t = \sqrt{t}B_t$。$Z_t$ 的均值和方差是多少？$Z_t$ 是一个鞅过程吗？

解答： 作为一个布朗运动，$B_t \sim N(0, t)$，关于 0 对称。由于 $\sqrt{t}$ 在 $t$ 时刻是常数，$Z_t = \sqrt{t}B_t$ 关于 0 对称，均值为 0，方差为 $t \times \text{var}(B_t) = t \times t = t^2$。更准确地说，$Z_t \sim N(0, t^2)$。尽管 $Z_t$ 的无条件期望值为 0，但它不是一个鞅。

对 $Z_t = \sqrt{t}B_t$ 应用伊藤引理，我们得到 \[ dZ_t = \frac{\partial Z_t}{\partial B_t}dB_t + \frac{\partial Z_t}{\partial t}dt + \frac{1}{2}\frac{\partial^2 Z_t}{\partial B_t^2}dt = \frac{1}{2}t^{-1/2}B_tdt + \sqrt{t}dB_t。 \] 对于所有 $B_t \neq 0$ 的情况（其概率为 1），漂移项 $\frac{1}{2}t^{-1/2}B_tdt$ 不为零。

脚注 5一个广义维纳过程 $dx = a(x,t)dt + b(x,t)dW(t)$ 是鞅过程的充要条件是漂移项的系数 $a(x,t) = 0$。因此，过程 $Z_t = \sqrt{t}B_t$ 不是鞅过程。

B. 设 $W(t)$ 是一个布朗运动。$W(t)^3$ 是一个鞅过程吗？

原书 PDF 第 152 页

查看本页原始扫描图

解答：对 $f(W(t), t) = W(t)^3$ 应用伊藤引理，我们得到

\[ \frac{\partial f}{\partial W(t)} = 3W(t)^2, \] \[ \frac{\partial f}{\partial t} = 0, \quad \frac{\partial^2 f}{\partial W(t)^2} = 6W(t), \quad \text{且} \quad df(W(t), t) = 3W(t)dt + 3W(t)^2 dW(t)。 \] 所以同样地，对于 $W(t) \neq 0$ 的情况（其概率为 1），漂移项不为零。因此，$W(t)^3$ 不是鞅过程。

第5章 随机过程与随机微积分

5.1 马尔可夫链

状态的分类

吸收马尔可夫链

吸收概率的方程

赌徒破产问题

骰子问题

硬币三连

B 部分。

彩球问题

5.2 鞅与随机游走

掷骰子游戏

排队买票

解答：

硬币序列

5.3 动态规划

动态规划（DP）算法

骰子游戏

世界大赛

动态骰子游戏

解答：

动态纸牌游戏

解答：

5.4 布朗运动与随机微积分

布朗运动

A. 定义并列举布朗运动的一些性质？

B. 布朗运动与其平方的相关性是多少？

C. 令 \(B_t\) 为一个布朗运动。\(B_1 > 0\) 且 \(B_2 < 0\) 的概率是多少？

C.

解答：

伊藤引理（Ito's lemma）

A. 设 $B_t$ 是一个布朗运动，且 $Z_t = \sqrt{t}B_t$。$Z_t$ 的均值和方差是多少？$Z_t$ 是一个鞅过程吗？

B. 设 $W(t)$ 是一个布朗运动。$W(t)^3$ 是一个鞅过程吗？

解答：对 $f(W(t), t) = W(t)^3$ 应用伊藤引理，我们得到

第5章随机过程与随机微积分