关键会议与论文
概述
智能体研究横跨多个学科,相关成果散布于 AI、NLP、机器人学、软件工程等多个顶级会议。本文梳理智能体领域最重要的学术会议和奠基性论文,帮助研究者快速定位核心文献。
1. 核心学术会议
1.1 智能体专属会议
| 会议 | 全称 | 创办年份 | 特点 |
|---|---|---|---|
| AAMAS | International Conference on Autonomous Agents and Multiagent Systems | 2002 | 智能体领域最权威的专属会议 |
| AAAI | Association for the Advancement of Artificial Intelligence | 1980 | 综合 AI 会议,大量智能体工作 |
| IJCAI | International Joint Conference on Artificial Intelligence | 1969 | 最早的 AI 国际会议 |
1.2 深度学习与 NLP 会议
LLM 智能体研究主要发表在以下会议:
| 会议 | 与智能体的关联 | 代表性工作 |
|---|---|---|
| NeurIPS | Agent workshops、推理方法 | CoT、ToT、Reflexion |
| ICML | RL-based agents、工具学习 | Toolformer、RLHF |
| ICLR | LLM reasoning、agent architectures | ReAct、Self-Refine |
| ACL/EMNLP | 语言智能体、对话系统 | WebGPT、Generative Agents |
| COLM | Conference on Language Modeling (2024新) | LLM agent 评估与设计 |
1.3 机器人与具身智能会议
| 会议 | 与智能体的关联 |
|---|---|
| ICRA | 机器人智能体、具身规划 |
| IROS | 自主系统、多机器人协调 |
| CoRL | 机器人学习、具身决策 |
| RSS | 机器人科学与系统 |
1.4 重要 Workshops
| Workshop | 依托会议 | 主题 |
|---|---|---|
| LLM Agents Workshop | NeurIPS 2023/2024 | LLM 智能体的设计与评估 |
| Foundation Models for Decision Making | NeurIPS 2023 | 基座模型用于决策 |
| Agent Learning in Open-Endedness | ICML 2024 | 开放世界中的智能体学习 |
| Language Agents Workshop | ICLR 2024 | 语言驱动的智能体 |
2. 奠基性论文
2.1 博客与综述(非正式但影响深远)
| 年份 | 作者 | 标题 | 贡献 |
|---|---|---|---|
| 2023.06 | Lilian Weng | LLM Powered Autonomous Agents | 定义了 LLM 智能体的经典框架:规划+记忆+工具使用 |
| 2023.09 | Andrew Ng | Agentic Design Patterns | 系统总结了四种智能体设计模式:反思、工具使用、规划、多智能体 |
| 2024.01 | Anthropic | Building Effective Agents | 提出了智能体系统的工程最佳实践 |
入门推荐
Lilian Weng 的博客文章是 LLM 智能体领域引用最广泛的非正式文献,建议作为入门首选。
2.2 推理与思维链
| 年份 | 论文 | 会议 | 核心贡献 |
|---|---|---|---|
| 2022 | Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | NeurIPS 2022 | Wei et al. 提出 CoT,证明中间推理步骤显著提升 LLM 推理能力 |
| 2022 | Self-Consistency Improves Chain of Thought Reasoning | ICLR 2023 | Wang et al. 提出自一致性采样,多条推理路径投票 |
| 2023 | Tree of Thoughts: Deliberate Problem Solving with LLMs | NeurIPS 2023 | Yao et al. 将推理从链扩展为树,支持回溯和搜索 |
2.3 行动与工具使用
| 年份 | 论文 | 会议 | 核心贡献 |
|---|---|---|---|
| 2022 | ReAct: Synergizing Reasoning and Acting in Language Models | ICLR 2023 | Yao et al. 提出 Thought-Action-Observation 循环,统一推理与行动 |
| 2021 | WebGPT: Browser-assisted Question-answering | arXiv | Nakano et al. LLM 使用浏览器搜索和引用信息 |
| 2023 | Toolformer: Language Models Can Teach Themselves to Use Tools | NeurIPS 2023 | Schick et al. LLM 自主学习何时及如何调用工具 |
| 2023 | Gorilla: Large Language Model Connected with Massive APIs | arXiv | Patil et al. 训练 LLM 准确调用大规模 API |
2.4 反思与自我改进
| 年份 | 论文 | 会议 | 核心贡献 |
|---|---|---|---|
| 2023 | Reflexion: Language Agents with Verbal Reinforcement Learning | NeurIPS 2023 | Shinn et al. 语言化的经验反思替代梯度更新 |
| 2023 | Self-Refine: Iterative Refinement with Self-Feedback | NeurIPS 2023 | Madaan et al. 生成-反馈-改进的迭代优化循环 |
| 2024 | Self-Debugging: Teaching LLMs to Debug Their Predictions | arXiv | Chen et al. LLM 通过执行反馈自我调试代码 |
2.5 智能体系统与架构
| 年份 | 论文 | 会议 | 核心贡献 |
|---|---|---|---|
| 2023 | Generative Agents: Interactive Simulacra of Human Behavior | UIST 2023 | Park et al. 25个生成式智能体在虚拟小镇中的社会模拟 |
| 2023 | Voyager: An Open-Ended Embodied Agent with LLMs | arXiv | Wang et al. Minecraft 中的终身学习智能体 |
| 2023 | MetaGPT: Meta Programming for Multi-Agent Collaborative Framework | ICLR 2024 | Hong et al. 标准化多智能体软件开发流程 |
| 2024 | Cognitive Architectures for Language Agents (CoALA) | arXiv | Sumers et al. 语言智能体的认知架构框架 |
2.6 评估与基准
| 年份 | 论文 | 会议 | 核心贡献 |
|---|---|---|---|
| 2023 | AgentBench: Evaluating LLMs as Agents | ICLR 2024 | 首个综合性 LLM 智能体评估基准 |
| 2023 | SWE-bench: Can Language Models Resolve Real-World Issues? | ICLR 2024 | 基于真实 GitHub Issue 的软件工程评估 |
| 2023 | WebArena: A Realistic Web Environment for Building Autonomous Agents | ICLR 2024 | 逼真的网页环境智能体评估 |
3. 经典著作
| 著作 | 作者 | 年份 | 地位 |
|---|---|---|---|
| Artificial Intelligence: A Modern Approach | Russell & Norvig | 1995/2020 | AI 圣经,智能体视角贯穿全书 |
| An Introduction to MultiAgent Systems | Wooldridge | 2002/2009 | 多智能体系统经典教材 |
| Multiagent Systems | Shoham & Leyton-Brown | 2008 | 多智能体算法与博弈论 |
| Speech and Language Processing | Jurafsky & Martin | 2000/2024 | NLP 参考书,对话系统章节 |
4. 论文阅读路线图
入门级(建议按顺序阅读)
- Weng (2023) — LLM Powered Autonomous Agents(博客)
- Wei et al. (2022) — Chain-of-Thought
- Yao et al. (2022) — ReAct
- Park et al. (2023) — Generative Agents
- Shinn et al. (2023) — Reflexion
进阶级
- Yao et al. (2023) — Tree of Thoughts
- Sumers et al. (2024) — CoALA
- Schick et al. (2023) — Toolformer
- Wang et al. (2023) — Voyager
- Hong et al. (2023) — MetaGPT
前沿级
- OpenAI (2024) — o1 System Card
- DeepSeek (2025) — DeepSeek-R1
- Anthropic (2024) — Building Effective Agents
- AgentBench / SWE-bench 评估论文
5. 关键研究团队
| 团队/机构 | 代表人物 | 研究方向 |
|---|---|---|
| Princeton NLP | Karthik Narasimhan, Shunyu Yao | ReAct、ToT、SWE-bench |
| Stanford NLP | Percy Liang, Joon Sung Park | Generative Agents、HELM |
| CMU | Graham Neubig | 代码智能体、软件工程 |
| OpenAI | 研究团队 | GPT系列、Function Calling、Operator |
| Anthropic | 研究团队 | Claude、Constitutional AI |
| DeepMind | 研究团队 | Gemini、AlphaCode |
| Microsoft Research | 研究团队 | AutoGen、TaskWeaver |
| Tsinghua KEG | 唐杰团队 | AgentBench、ChatGLM |
参考文献
- Weng, L. (2023). LLM Powered Autonomous Agents. lilianweng.github.io.
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
- Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
- Park, J.S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023.
- Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. NeurIPS 2023.