跳转至

BDI 模型

概述

BDI(Belief-Desire-Intention)模型是智能体研究中最具影响力的理论框架之一。它源于 Michael Bratman 的实践推理哲学,被 Rao 和 Georgeff 形式化为计算模型,至今仍是理解和设计理性智能体的核心参考。


1. 哲学基础

1.1 Bratman 的实践推理理论

Bratman (1987) 认为,人类的理性行为不仅由信念和愿望驱动,还需要意图作为承诺机制:

  • 信念 (Belief):智能体关于世界状态的信息,可能不完整或不正确
  • 愿望 (Desire):智能体希望达成的状态,可以相互矛盾
  • 意图 (Intention):智能体承诺要执行的行动计划,具有持久性

意图的关键作用

意图不仅仅是"选中的愿望"。意图具有承诺性(不会轻易放弃)、约束性(约束未来决策)和推理触发性(触发手段-目的推理)。

1.2 与理性选择理论的区别

经典理性选择理论(如期望效用最大化)假设完全理性:

\[ a^* = \arg\max_{a \in A} \mathbb{E}[U(s') \mid s, a] \]

但 Bratman 指出,人类是有限理性的。意图机制允许智能体:

  1. 减少计算负担:不需要在每一步重新计算所有选项
  2. 保持行为一致性:承诺的意图约束了可选行动空间
  3. 支持协调:对他人的意图预期使协作成为可能

2. 形式化模型

2.1 模态逻辑表示

Rao 和 Georgeff (1991) 使用分支时间模态逻辑(CTL*)来形式化 BDI:

信念(关于世界状态的信息):

\[ \text{Bel}(a, \phi) \quad \text{智能体 } a \text{ 相信 } \phi \text{ 为真} \]

愿望(期望达成的状态):

\[ \text{Des}(a, \phi) \quad \text{智能体 } a \text{ 期望 } \phi \text{ 成立} \]

意图(承诺执行的计划):

\[ \text{Int}(a, \phi) \quad \text{智能体 } a \text{ 打算实现 } \phi \]

2.2 BDI 公理

BDI 模态逻辑满足以下关键公理:

信念的一致性

\[ \text{Bel}(a, \phi) \rightarrow \neg \text{Bel}(a, \neg \phi) \]

意图蕴含信念

\[ \text{Int}(a, \phi) \rightarrow \text{Bel}(a, \Diamond \phi) \]

即智能体不会意图去做它认为不可能的事。

意图蕴含愿望

\[ \text{Int}(a, \phi) \rightarrow \text{Des}(a, \phi) \]

即意图是愿望的子集(但反之不成立)。

意图的持久性

\[ \text{Int}(a, \phi) \rightarrow \text{Int}(a, \phi) \; \mathcal{U} \; (\text{Bel}(a, \phi) \lor \text{Bel}(a, \neg \Diamond \phi)) \]

意图持续直到:(1) 相信已完成,或 (2) 相信不可能完成。\(\mathcal{U}\) 为时序逻辑中的"Until"算子。

2.3 BDI 智能体的世界模型

graph TD
    subgraph 智能体内部状态
        B[信念集 B<br/>关于世界的信息]
        D[愿望集 D<br/>期望的目标状态]
        I[意图集 I<br/>承诺的行动计划]
        PL[计划库 Plan Library<br/>可用的行动方案]
    end

    ENV[环境] -->|感知| B
    B --> DR[慎思推理<br/>Deliberation]
    D --> DR
    DR --> I
    I --> MR[手段-目的推理<br/>Means-End Reasoning]
    PL --> MR
    MR --> ACT[行动执行]
    ACT --> ENV

3. BDI 推理循环

BDI 智能体的核心运行循环如下:

3.1 算法描述

算法: BDI 推理循环
输入: 初始信念 B₀, 初始愿望 D₀, 计划库 PlanLib

B ← B₀
D ← D₀
I ← ∅

while true do
    p ← PERCEIVE(environment)          // 感知环境
    B ← BRF(B, p)                      // 信念修正函数
    D ← OPTION-GENERATOR(B, D, I)      // 生成选项(愿望更新)
    I ← DELIBERATE(B, D, I)            // 慎思:选择意图
    π ← PLAN(B, I, PlanLib)            // 手段-目的推理:生成计划
    while not (EMPTY(π) or SUCCEEDED(I, B) or IMPOSSIBLE(I, B)) do
        α ← HEAD(π)                    // 取计划的第一个动作
        EXECUTE(α)                      // 执行动作
        p ← PERCEIVE(environment)       // 重新感知
        B ← BRF(B, p)                  // 更新信念
        if RECONSIDER?(I, B) then       // 是否需要重新慎思?
            D ← OPTION-GENERATOR(B, D, I)
            I ← DELIBERATE(B, D, I)
        end if
        if not SOUND(π, I, B) then      // 计划是否仍然有效?
            π ← PLAN(B, I, PlanLib)     // 重新规划
        end if
    end while
end while

3.2 关键决策点

何时重新慎思(Reconsideration)

这是 BDI 系统设计中最微妙的决策:

  • 过于频繁:浪费计算资源,行为不连贯("心猿意马")
  • 过于稀少:无法适应环境变化("固执己见")
  • 最佳策略:当环境发生重大变化时重新慎思
\[ \text{RECONSIDER?}(I, B) = \begin{cases} \text{true} & \text{if } \Delta(B) > \theta \text{ or } \exists i \in I: \text{Bel}(\neg \Diamond i) \\ \text{false} & \text{otherwise} \end{cases} \]

4. PRS:实践推理系统

PRS(Procedural Reasoning System)由 Georgeff 和 Lansky (1987) 开发,是 BDI 模型的第一个完整实现。

4.1 PRS 架构

组件 功能
信念数据库 存储关于世界的当前信息
目标栈 维护当前活跃的目标
知识域 (KA) 可用的计划/方法库
意图结构 当前执行中的计划树
元级 KA 控制推理过程本身的规则

4.2 PRS 的应用

PRS 最初被应用于航天飞机的故障诊断系统(SRI International for NASA),后续广泛应用于:

  • 航空交通管理
  • 商业流程管理
  • 网络管理
  • 军事模拟

5. AgentSpeak(L) 语言

Rao (1996) 提出了 AgentSpeak(L),一种基于 BDI 的智能体编程语言。

5.1 语法

// 初始信念
location(agent, office).
time(morning).

// 初始目标
!start_work.

// 计划规则
+!start_work : location(agent, office) & time(morning)
    <- open_computer;
       check_email;
       !plan_day.

+!start_work : not location(agent, office)
    <- !go_to(office);
       !start_work.

+!plan_day : has_meetings(today)
    <- review_calendar;
       prepare_materials.

+!plan_day : not has_meetings(today)
    <- !focus_work.

5.2 AgentSpeak(L) 语义

  • +!g:采纳新目标 g
  • -!g:放弃目标 g
  • +b:新增信念 b
  • -b:删除信念 b
  • context:计划的前提条件(对信念集的查询)
  • body:计划体(动作和子目标的序列)

5.3 Jason 实现

Jason (Bordini & Hübner, 2007) 是 AgentSpeak(L) 最成熟的解释器,提供了:

  • 完整的 BDI 推理循环实现
  • 多智能体通信基础设施
  • 与 Java 的互操作
  • 可定制的选择函数

6. BDI 与 LLM 智能体

6.1 映射关系

现代 LLM 智能体可以从 BDI 角度理解:

BDI 概念 LLM 智能体对应
信念 (Belief) 上下文窗口中的信息 + 外部记忆检索
愿望 (Desire) 用户指令 + 系统提示中的目标
意图 (Intention) 当前正在执行的计划步骤
计划库 工具定义 + Few-shot 示例 + 内置知识
信念修正 观察工具执行结果后更新上下文
慎思 CoT 推理过程
手段-目的推理 工具选择与参数生成

6.2 LLM 作为 BDI 的"柔性"实现

传统 BDI 的"硬"逻辑推理:

\[ \text{Bel}(a, \text{raining}) \land \text{Des}(a, \text{stay\_dry}) \rightarrow \text{Int}(a, \text{take\_umbrella}) \]

LLM 的"软"推理:

系统: 你是一个助手。当前天气:下雨。用户目标:保持干燥。
LLM: 我建议带一把伞。[选择工具: check_weather → 确认下雨]
     让我帮你查找最近的便利店购买雨具。

LLM 提供了 BDI 的"模糊"但更灵活的实现:

  • 信念不是精确的逻辑公式,而是概率性的语言表述
  • 推理不是严格的逻辑推导,而是基于模式匹配的类比推理
  • 计划不是预定义的程序,而是在线生成的自然语言步骤

6.3 优势与不足

维度 经典 BDI LLM-BDI
推理严密性 高(逻辑保证) 低(可能"幻觉")
灵活性 低(受限于计划库) 高(在线生成)
知识覆盖 窄(手工编码) 广(预训练语料)
可解释性 高(规则可追溯) 中(CoT 部分可解释)
鲁棒性 低(脆性失败) 中(优雅降级)

交叉引用

LLM 时代的认知架构框架详见 LLM认知架构。规划与推理的详细讨论见 规划与推理综述


7. BDI 的局限性与批评

  1. 逻辑全知问题:形式化假设智能体知道其信念的所有逻辑推论
  2. 框架问题:难以高效地推理哪些信念不受动作影响
  3. 情感和社会因素:原始模型不包含情感、社会规范等因素
  4. 学习能力缺失:经典 BDI 没有内置学习机制
  5. 计划修复:当计划失败时,重规划的开销可能很大

总结

BDI 模型为智能体的理性行为提供了优雅的理论框架。尽管已有 30 多年的历史,其核心思想——信念驱动推理、愿望驱动目标、意图驱动承诺——在 LLM 时代依然具有重要的指导意义。


参考文献

  1. Bratman, M.E. (1987). Intention, Plans, and Practical Reason. Harvard University Press.
  2. Rao, A.S. & Georgeff, M.P. (1991). Modeling Rational Agents within a BDI-Architecture. KR 1991.
  3. Rao, A.S. (1996). AgentSpeak(L): BDI Agents Speak Out in a Logical Computable Language. MAAMAW 1996.
  4. Georgeff, M.P. & Lansky, A.L. (1987). Reactive Reasoning and Planning. AAAI 1987.
  5. Bordini, R.H. & Hübner, J.F. (2007). Programming Multi-Agent Systems in AgentSpeak using Jason. Wiley.
  6. Wooldridge, M. (2000). Reasoning about Rational Agents. MIT Press.

评论 #