博弈论基础

博弈的基本要素

博弈论（Game Theory）研究理性决策者之间的战略互动。一个标准形式博弈（Normal Form Game）由三个要素组成：

参与人集合（Players）：\(N = \{1, 2, \ldots, n\}\)
策略空间（Strategy Space）：每个参与人 \(i\) 的策略集 \(S_i\)
收益函数（Payoff Function）：\(u_i: S_1 \times S_2 \times \cdots \times S_n \to \mathbb{R}\)

策略组合 \(\mathbf{s} = (s_1, s_2, \ldots, s_n)\) 称为策略剖面（Strategy Profile）。记 \(s_{-i}\) 为除参与人 \(i\) 以外所有参与人的策略。

占优策略与纳什均衡

占优策略（Dominant Strategy）：策略 \(s_i^*\) 是参与人 \(i\) 的严格占优策略，若对所有 \(s_i \neq s_i^*\) 和所有 \(s_{-i}\)：

\[ u_i(s_i^*, s_{-i}) > u_i(s_i, s_{-i}) \]

纳什均衡（Nash Equilibrium, NE）：策略剖面 \(\mathbf{s}^*\) 是纳什均衡，若对每个参与人 \(i\)：

\[ u_i(s_i^*, s_{-i}^*) \geq u_i(s_i, s_{-i}^*), \quad \forall s_i \in S_i \]

即在给定其他参与人策略不变的条件下，没有任何参与人有偏离的动机。

纳什定理

每个有限博弈（有限参与人、有限策略）至少存在一个纳什均衡（可能是混合策略均衡）。这是纳什（John Nash, 1950）的开创性贡献。

经典博弈：囚徒困境

囚徒困境（Prisoner's Dilemma）是博弈论中最著名的模型，揭示了个体理性与集体理性之间的冲突。

	合作 (C)	背叛 (D)
合作 (C)	\((-1, -1)\)	\((-3, 0)\)
背叛 (D)	\((0, -3)\)	\((-2, -2)\)

背叛（D）是两个参与人的严格占优策略，因此唯一纳什均衡为 \((D, D)\)，收益为 \((-2, -2)\)。然而双方合作的结果 \((-1, -1)\) 帕累托优于（Pareto Dominates）均衡结果。

囚徒困境的应用

囚徒困境结构广泛存在于经济学中：公共品供给问题、军备竞赛、价格战、环境保护等。重复博弈（Repeated Game）中的民间定理（Folk Theorem）表明，如果博弈无限次重复且贴现因子 \(\delta\) 足够大（\(\delta \geq \frac{g - c}{g - p}\)，其中 \(g\) 为背叛收益，\(c\) 为合作收益，\(p\) 为惩罚收益），则合作可以作为子博弈完美均衡（Subgame Perfect Equilibrium）被支撑。

混合策略均衡

当纯策略纳什均衡不存在时，需要引入混合策略（Mixed Strategy）。混合策略 \(\sigma_i\) 是策略集 \(S_i\) 上的概率分布。

考虑匹配硬币博弈（Matching Pennies）：

	正面 (H)	反面 (T)
正面 (H)	\((1, -1)\)	\((-1, 1)\)
反面 (T)	\((-1, 1)\)	\((1, -1)\)

不存在纯策略纳什均衡。设参与人1以概率 \(p\) 选择H，参与人2以概率 \(q\) 选择H。

混合策略纳什均衡的关键思想：在均衡中，对手的混合策略使自己对各纯策略无差异（Indifference Condition）。

参与人2的期望收益对H和T无差异：

\[ E[u_2|H] = E[u_2|T] \quad \Longrightarrow \quad -p + (1-p) = p - (1-p) \quad \Longrightarrow \quad p = \frac{1}{2} \]

对称地，\(q = 1/2\)。混合策略纳什均衡为 \(\sigma_1 = \sigma_2 = (1/2, 1/2)\)。

无差异原理

在混合策略纳什均衡中，每个参与人必须在其混合策略的支撑集（Support）中的所有纯策略上获得相同的期望收益。这意味着每个参与人的混合概率由使对手无差异的条件决定，而非由自身偏好直接决定。

序贯博弈与子博弈完美均衡

序贯博弈（Sequential Game）用扩展形式（Extensive Form）表示，包含博弈树（Game Tree）、信息集（Information Set）等概念。

子博弈完美均衡（Subgame Perfect Equilibrium, SPE）要求策略在每个子博弈中都构成纳什均衡，通过逆向归纳法（Backward Induction）求解。

进入威慑博弈

潜在进入者（Entrant）先选择进入或不进入；若进入，在位者（Incumbent）选择容纳或打价格战。

若在位者容纳：进入者获利2，在位者获利1
若在位者打价格战：双方获利-1
若不进入：进入者获利0，在位者获利3

逆向归纳法：在位者理性选择容纳（\(1 > -1\)），因此进入者选择进入（\(2 > 0\)）。SPE为（进入，容纳），尽管在位者可能"威胁"打价格战，但这一威胁不可信（Not Credible）。

信息与贝叶斯博弈

当参与人对博弈的某些方面存在不确定性时，进入不完全信息博弈（Games of Incomplete Information）的范畴。海萨尼（Harsanyi）引入"自然"（Nature）先行动选择参与人的类型（Type），将不完全信息博弈转化为不完美信息博弈。

贝叶斯纳什均衡（Bayesian Nash Equilibrium, BNE）要求每个参与人在给定自身类型和对他人类型的先验信念（Prior Belief）下，最大化期望收益：

\[ s_i^*(\theta_i) \in \arg\max_{s_i \in S_i} \sum_{\theta_{-i}} p(\theta_{-i}|\theta_i) \cdot u_i(s_i, s_{-i}^*(\theta_{-i}), \theta_i, \theta_{-i}) \]

在动态不完全信息博弈中，完美贝叶斯均衡（Perfect Bayesian Equilibrium, PBE）进一步要求信念在均衡路径上通过贝叶斯法则更新，在均衡路径外也需合理指定。