Skip to content

博弈论基础

博弈的基本要素

博弈论(Game Theory)研究理性决策者之间的战略互动。一个标准形式博弈(Normal Form Game)由三个要素组成:

  • 参与人集合(Players)\(N = \{1, 2, \ldots, n\}\)
  • 策略空间(Strategy Space):每个参与人 \(i\) 的策略集 \(S_i\)
  • 收益函数(Payoff Function)\(u_i: S_1 \times S_2 \times \cdots \times S_n \to \mathbb{R}\)

策略组合 \(\mathbf{s} = (s_1, s_2, \ldots, s_n)\) 称为策略剖面(Strategy Profile)。记 \(s_{-i}\) 为除参与人 \(i\) 以外所有参与人的策略。

占优策略与纳什均衡

占优策略(Dominant Strategy):策略 \(s_i^*\) 是参与人 \(i\) 的严格占优策略,若对所有 \(s_i \neq s_i^*\) 和所有 \(s_{-i}\)

\[ u_i(s_i^*, s_{-i}) > u_i(s_i, s_{-i}) \]

纳什均衡(Nash Equilibrium, NE):策略剖面 \(\mathbf{s}^*\) 是纳什均衡,若对每个参与人 \(i\)

\[ u_i(s_i^*, s_{-i}^*) \geq u_i(s_i, s_{-i}^*), \quad \forall s_i \in S_i \]

即在给定其他参与人策略不变的条件下,没有任何参与人有偏离的动机。

纳什定理

每个有限博弈(有限参与人、有限策略)至少存在一个纳什均衡(可能是混合策略均衡)。这是纳什(John Nash, 1950)的开创性贡献。

经典博弈:囚徒困境

囚徒困境(Prisoner's Dilemma)是博弈论中最著名的模型,揭示了个体理性与集体理性之间的冲突。

合作 (C) 背叛 (D)
合作 (C) \((-1, -1)\) \((-3, 0)\)
背叛 (D) \((0, -3)\) \((-2, -2)\)

背叛(D)是两个参与人的严格占优策略,因此唯一纳什均衡为 \((D, D)\),收益为 \((-2, -2)\)。然而双方合作的结果 \((-1, -1)\) 帕累托优于(Pareto Dominates)均衡结果。

囚徒困境的应用

囚徒困境结构广泛存在于经济学中:公共品供给问题、军备竞赛、价格战、环境保护等。重复博弈(Repeated Game)中的民间定理(Folk Theorem)表明,如果博弈无限次重复且贴现因子 \(\delta\) 足够大(\(\delta \geq \frac{g - c}{g - p}\),其中 \(g\) 为背叛收益,\(c\) 为合作收益,\(p\) 为惩罚收益),则合作可以作为子博弈完美均衡(Subgame Perfect Equilibrium)被支撑。

混合策略均衡

当纯策略纳什均衡不存在时,需要引入混合策略(Mixed Strategy)。混合策略 \(\sigma_i\) 是策略集 \(S_i\) 上的概率分布。

考虑匹配硬币博弈(Matching Pennies):

正面 (H) 反面 (T)
正面 (H) \((1, -1)\) \((-1, 1)\)
反面 (T) \((-1, 1)\) \((1, -1)\)

不存在纯策略纳什均衡。设参与人1以概率 \(p\) 选择H,参与人2以概率 \(q\) 选择H。

混合策略纳什均衡的关键思想:在均衡中,对手的混合策略使自己对各纯策略无差异(Indifference Condition)。

参与人2的期望收益对H和T无差异:

\[ E[u_2|H] = E[u_2|T] \quad \Longrightarrow \quad -p + (1-p) = p - (1-p) \quad \Longrightarrow \quad p = \frac{1}{2} \]

对称地,\(q = 1/2\)。混合策略纳什均衡为 \(\sigma_1 = \sigma_2 = (1/2, 1/2)\)

无差异原理

在混合策略纳什均衡中,每个参与人必须在其混合策略的支撑集(Support)中的所有纯策略上获得相同的期望收益。这意味着每个参与人的混合概率由使对手无差异的条件决定,而非由自身偏好直接决定。

序贯博弈与子博弈完美均衡

序贯博弈(Sequential Game)用扩展形式(Extensive Form)表示,包含博弈树(Game Tree)、信息集(Information Set)等概念。

子博弈完美均衡(Subgame Perfect Equilibrium, SPE)要求策略在每个子博弈中都构成纳什均衡,通过逆向归纳法(Backward Induction)求解。

进入威慑博弈

潜在进入者(Entrant)先选择进入或不进入;若进入,在位者(Incumbent)选择容纳或打价格战。

  • 若在位者容纳:进入者获利2,在位者获利1
  • 若在位者打价格战:双方获利-1
  • 若不进入:进入者获利0,在位者获利3

逆向归纳法:在位者理性选择容纳(\(1 > -1\)),因此进入者选择进入(\(2 > 0\))。SPE为(进入,容纳),尽管在位者可能"威胁"打价格战,但这一威胁不可信(Not Credible)。

信息与贝叶斯博弈

当参与人对博弈的某些方面存在不确定性时,进入不完全信息博弈(Games of Incomplete Information)的范畴。海萨尼(Harsanyi)引入"自然"(Nature)先行动选择参与人的类型(Type),将不完全信息博弈转化为不完美信息博弈。

贝叶斯纳什均衡(Bayesian Nash Equilibrium, BNE)要求每个参与人在给定自身类型和对他人类型的先验信念(Prior Belief)下,最大化期望收益:

\[ s_i^*(\theta_i) \in \arg\max_{s_i \in S_i} \sum_{\theta_{-i}} p(\theta_{-i}|\theta_i) \cdot u_i(s_i, s_{-i}^*(\theta_{-i}), \theta_i, \theta_{-i}) \]

在动态不完全信息博弈中,完美贝叶斯均衡(Perfect Bayesian Equilibrium, PBE)进一步要求信念在均衡路径上通过贝叶斯法则更新,在均衡路径外也需合理指定。