跳转至

决策制定(AIMA Part IV)

本笔记对应 AIMA(Artificial Intelligence: A Modern Approach)第16–17章的内容,涵盖简单决策和复杂决策。前面的概率推理笔记解决了"世界是什么样的"(推断),本章进一步回答"应该做什么"(决策)。


1. 效用理论

1.1 期望效用最大化

一个理性智能体应当选择最大化期望效用(Maximum Expected Utility, MEU)的行动:

\[ a^* = \arg\max_{a} \mathbb{E}[U(s) \mid a] = \arg\max_{a} \sum_{s} P(s \mid a) \cdot U(s) \]

其中 \(U(s)\) 是状态 \(s\) 的效用函数,\(P(s \mid a)\) 是采取行动 \(a\) 后到达状态 \(s\) 的概率。

MEU 原则是 AIMA 中理性智能体设计的核心准则——它将概率推理(信念)与效用理论(偏好)统一在一个决策框架中。

1.2 效用函数与风险态度

效用函数 \(U: S \to \mathbb{R}\) 将结果映射为实数值,反映智能体的偏好。不同的效用函数形状反映不同的风险态度

风险态度 效用函数形状 特征
风险中性 线性:\(U(x) = x\) 只关心期望值
风险厌恶 凹函数:\(U(x) = \sqrt{x}\) 偏好确定性收益,\(U(\mathbb{E}[x]) > \mathbb{E}[U(x)]\)
风险偏好 凸函数:\(U(x) = x^2\) 偏好赌博,\(U(\mathbb{E}[x]) < \mathbb{E}[U(x)]\)

风险态度示例

考虑两个选择:(A) 确定获得 $100;(B) 50% 概率获得 $200,50% 概率获得 \(0。两者的期望金额相同(\)100),但风险厌恶者会选 A,风险偏好者会选 B。

1.3 效用函数的公理化基础

冯·诺伊曼和摩根斯特恩(von Neumann & Morgenstern)证明,如果智能体的偏好满足以下公理,则必然存在一个效用函数使其行为等价于 MEU:

公理 含义
完备性(Completeness) 对任意两个结果 \(A, B\),智能体能判断 \(A \succ B\)\(B \succ A\)\(A \sim B\)
传递性(Transitivity) 如果 \(A \succ B\)\(B \succ C\),则 \(A \succ C\)
连续性(Continuity) 如果 \(A \succ B \succ C\),则存在概率 \(p\) 使得 \(B \sim [p: A;\ (1-p): C]\)
独立性(Independence) 如果 \(A \succ B\),则对任意 \(C\)\(p\)\([p: A;\ (1-p): C] \succ [p: B;\ (1-p): C]\)

违反这些公理的行为(如 Allais 悖论)虽然在人类中常见,但被视为非理性。


2. 信息价值

2.1 完美信息价值(VPI)

在做决策之前,智能体可以选择先收集信息再行动完美信息价值(Value of Perfect Information, VPI)量化了获得某个变量真实值的期望收益:

\[ \text{VPI}(E_j \mid \mathbf{e}) = \left(\sum_{e_j} P(e_j \mid \mathbf{e}) \cdot \text{EU}(\alpha_{e_j} \mid \mathbf{e}, E_j = e_j)\right) - \text{EU}(\alpha \mid \mathbf{e}) \]

其中 \(\alpha_{e_j}\) 是在知道 \(E_j = e_j\) 后的最优行动,\(\alpha\) 是当前信息下的最优行动。

VPI 的关键性质

  • \(\text{VPI}(E_j) \ge 0\):信息不会有负价值(在期望意义下)
  • VPI 不具有可加性:\(\text{VPI}(E_1, E_2) \neq \text{VPI}(E_1) + \text{VPI}(E_2)\)(一般情况下)
  • 如果当前最优决策在任何 \(E_j\) 取值下都不会改变,则 \(\text{VPI}(E_j) = 0\)

2.2 信息收集决策

基于 VPI,智能体可以理性地决定是否值得花费成本去获取信息:

  • 如果 \(\text{VPI}(E_j) > \text{Cost}(E_j)\),则应收集该信息
  • 在多个可收集信息源中,选择净价值最高的那个
  • 这是一个元推理(meta-reasoning)问题:关于如何推理的推理

3. 决策网络

决策网络(Decision Network),也称影响图(Influence Diagram),是贝叶斯网络的扩展,用于建模决策问题。它包含三种节点:

节点类型 形状 含义
机会节点(Chance) 椭圆形 随机变量(与贝叶斯网络中的节点相同)
决策节点(Decision) 矩形 智能体可以选择的行动
效用节点(Utility) 菱形 给定父节点取值时的效用值

求解决策网络的过程:

  1. 设置证据变量
  2. 对于每个可能的决策值,计算效用节点的期望效用
  3. 选择使期望效用最大的决策

决策网络将概率推理和决策优化统一在一个图模型中,使得复杂决策问题的建模和求解变得直观。


4. 序贯决策:马尔可夫决策过程

4.1 MDP 定义

当决策涉及多个时间步时,我们进入序贯决策的领域。马尔可夫决策过程(Markov Decision Process, MDP)是建模序贯决策的标准框架:

\[ \text{MDP} = \langle S, A, T, R, \gamma \rangle \]
元素 含义
\(S\) 状态空间
\(A\) 动作空间
\(T(s' \mid s, a)\) 状态转移概率
\(R(s, a, s')\) 奖励函数
\(\gamma \in [0, 1)\) 折扣因子

4.2 贝尔曼方程

最优值函数满足贝尔曼最优方程:

\[ V^*(s) = \max_{a} \sum_{s'} T(s' \mid s, a) \left[R(s, a, s') + \gamma V^*(s')\right] \]

最优策略 \(\pi^*(s) = \arg\max_{a} Q^*(s, a)\)

4.3 求解算法

算法 思路 复杂度
值迭代(Value Iteration) 反复应用贝尔曼更新直到收敛 每次迭代 \(O(\|S\|^2 \|A\|)\)
策略迭代(Policy Iteration) 交替进行策略评估和策略改进 通常更少迭代次数

与强化学习的关系

MDP 是强化学习的理论基础。值迭代和策略迭代假设已知转移概率 \(T\) 和奖励函数 \(R\)(即"模型已知"),而强化学习处理的是模型未知的情况——智能体必须通过与环境交互来学习。详细内容请参见本站的强化学习笔记。


5. POMDP:部分可观测环境下的决策

5.1 定义

部分可观测马尔可夫决策过程(POMDP)在 MDP 的基础上增加了观测模型:

\[ \text{POMDP} = \langle S, A, T, R, \gamma, \Omega, O \rangle \]

其中 \(\Omega\) 是观测空间,\(O(o \mid s', a)\) 是在执行动作 \(a\) 后到达状态 \(s'\) 时观察到 \(o\) 的概率。

5.2 信念状态

在 POMDP 中,智能体无法直接观察状态,而是维护一个信念状态(belief state)\(b(s) = P(S_t = s \mid h_t)\),即基于历史观测和动作的状态概率分布。

信念更新遵循贝叶斯规则:

\[ b'(s') = \eta \cdot O(o \mid s', a) \sum_{s} T(s' \mid s, a) \cdot b(s) \]

POMDP 可以转化为信念空间上的连续状态 MDP,但求解通常是计算上非常困难的(PSPACE-complete)。实际中常用点基值迭代(PBVI)等近似方法。


6. 博弈论与多智能体决策

6.1 博弈论基础

当环境中存在多个理性智能体时,单个智能体的最优决策取决于其他智能体的行为。博弈论(Game Theory)提供了分析这类情况的框架。

正规形式博弈由以下元素定义:

  • 参与者集合 \(\{1, 2, \dots, n\}\)
  • 每个参与者的策略集 \(S_i\)
  • 每个参与者的效用函数 \(u_i(s_1, \dots, s_n)\)

6.2 纳什均衡

纳什均衡(Nash Equilibrium)是一组策略 \((s_1^*, \dots, s_n^*)\),使得没有任何参与者能通过单方面改变策略来提高自己的效用:

\[ \forall i, \forall s_i: \quad u_i(s_i^*, s_{-i}^*) \ge u_i(s_i, s_{-i}^*) \]
概念 说明
纯策略均衡 每个参与者选择一个确定的动作
混合策略均衡 参与者在动作上定义概率分布
Nash 存在性定理 任何有限博弈至少存在一个混合策略纳什均衡

经典示例:囚徒困境

两个嫌疑人各自决定合作(沉默)或背叛(供出对方)。纳什均衡是双方都背叛——尽管双方合作的结果对双方都更好。这说明个体理性不一定导致集体最优。

6.3 机制设计

机制设计(Mechanism Design)是博弈论的"逆问题":给定期望的社会结果,如何设计规则(机制)使得理性参与者的均衡行为恰好产生该结果?

典型应用包括拍卖设计(如 Vickrey 拍卖中的真实出价激励)和投票机制


交叉引用

与本站其他笔记的关联

  • MDP 和强化学习:本站的强化学习笔记详细覆盖了 MDP 的求解方法(值迭代、策略迭代)、Q-learning、策略梯度、Actor-Critic 等内容。本文仅做概念性介绍。
  • 概率推理基础:本文的决策网络和 POMDP 建立在概率推理中贝叶斯网络和 HMM 的基础上。
  • 博弈搜索对抗搜索笔记从搜索的角度讨论了双人零和博弈(Minimax、Alpha-Beta 剪枝),与本文的博弈论视角互补。

参考资料

  • Russell & Norvig, Artificial Intelligence: A Modern Approach, Chapters 16–17
  • Kaelbling, Littman & Cassandra, "Planning and Acting in Partially Observable Stochastic Domains", Artificial Intelligence, 1998
  • Myerson, Game Theory: Analysis of Conflict

评论 #