Agent 定义与分类

最后更新：2026-04-24

"AI Agent" 是 2023-2026 最被滥用的词——几乎每家 AI 公司都自称做 Agent。本文从能力边界 + 自主程度 + 交互形式三个维度，给 Agent 一个可操作的分类框架，厘清 Copilot / Agent / Operator / AutoGPT / Devin 的真正区别。

一句话结论

Agent = 具备"感知 → 规划 → 行动 → 反思"闭环能力的 AI 系统。按自主程度分三级：L1 Copilot（被动建议）→ L2 半自主 Agent（多步骤委派）→ L3 全自主 Agent（长时程任务 + 自主决策）。2026 绝大多数生产环境 AI 仍在 L1-L2 之间，L3 仍是"Demo 能跑、生产会翻车"的阶段。

三条关键要点

Copilot ≠ Agent：Copilot 是行内补全（代码建议、邮件草稿），Agent 是任务委派（"修这个 bug"）—— 两者之间的鸿沟是主动性 + 多步决策
Agent 的鼻祖是 2023-03 AutoGPT：在 ChatGPT 之上加循环 + 工具 + 目标分解，震动极大但产出极差 —— 2023 Agent 的"Demo vs 生产"差距教训犹新
2025 Agent 真正可用：Claude Computer Use (2024-10) + Devin (2024-03) + Claude Code (2025-02) + ChatGPT Agent (2025-07) 串起 "Agent 从玩具到工具"的转折

Agent 的三个能力组件

组件 1 · 感知（Perception）

接收用户输入 / 系统状态 / 环境反馈
从 LLM Text → 多模态（Vision / Audio）→ Tool output 逐步扩展

组件 2 · 规划（Planning）

ReAct（Reason + Act）：最早期 + 最通用框架
Chain of Thought / Tree of Thoughts：引入推理链
Hierarchical Planning：拆分 subtask
Reflection / Critic：自我批改

组件 3 · 行动（Action）

Tool Use：调用 API / 函数
Code Execution：写代码 + 运行
Computer Use：操作 GUI（Claude CU / Operator）
Browser Control：浏览器 Agent
Multi-Agent Coordination：与其他 Agent 协作

闭环：反思（Reflection）

验证行动结果
修正规划
更新 Memory
关键区别 Agent vs Copilot：Agent 自己闭环，Copilot 由人闭环

Agent 三级分类

L1 · Copilot（行内建议）

定义：AI 在上下文中给出建议，用户审核采纳
代表：GitHub Copilot 补全、ChatGPT 对话、Notion AI、Grammarly
自主程度：0-10%（每步都需用户拍板）
JTBD：辅助人类做事更快

L2 · 半自主 Agent（多步委派）

定义：AI 多步骤完成一个明确任务，中间可以反思 / 重试，最后返回结果让用户验证
代表：Claude Code 自动修 bug、Cursor Composer、Perplexity Deep Research、ChatGPT Operator
自主程度：30-70%
JTBD：替代人类完成 1-2 小时的中等任务
成功率：通常 50-80%（视任务类型）

L3 · 全自主 Agent（长时程）

定义：AI 长时间工作（小时 → 天），自主分解目标、调度工具、做决策
代表（2026 初）：Devin（Cognition）、Manus（中国 Agent 爆款）、实验性 AutoGPT / BabyAGI
自主程度：> 70%
JTBD：替代人类完成一整个"工单 / ticket"的工作
成功率：10-40%（且越复杂越低）
最大挑战：误差累积、决策偏差、目标漂移

按交互形态分类

形态	代表	入口
Terminal / CLI	Claude Code、OpenAI Codex CLI、Aider	命令行
IDE 集成	Cursor、Windsurf、GitHub Copilot	VS Code / JetBrains
Web 对话	ChatGPT、Claude.ai、Gemini	浏览器
浏览器 Agent	Operator、Browser Use、Comet	浏览器内自控
Computer Use	Claude Computer Use	操作系统级
Multi-Agent 框架	LangGraph、CrewAI、AutoGen	SDK

历史演化（2022-2026）

2022-11  ChatGPT 发布 —— Agent 概念萌芽
2023-03  AutoGPT / BabyAGI 爆火 —— "Agent 革命" 宣言期
2023-07  Function Calling（OpenAI）—— Tool Use 标准化
2023-10  Assistants API（OpenAI）—— Agent 基础设施
2024-03  Devin 发布（Cognition）—— "第一个 AI 软件工程师"
2024-10  Claude Computer Use（Anthropic）—— 操作电脑
2024-11  MCP 协议开源（Anthropic）—— Agent 标准协议
2025-01  ChatGPT Operator beta —— 浏览器 Agent 入口
2025-02  Claude Code 发布 —— Terminal Agent 大爆炸
2025-03  Manus 爆火（中国）—— C 端 Agent 现象
2025-04  OpenAI Codex CLI 开源
2025-07  ChatGPT Agent（正式版）
2025-09  Claude Agent SDK —— Agent 开发框架

用颠覆创新 + JTBD 框架看 Agent 演进

2022 ChatGPT 的 JTBD："帮我想"（回答问题）
2024 Claude Code / Devin 的 JTBD："帮我做"（完成任务）
2026+ 的 JTBD 猜想："替我决策"（长时程决断）

这种 JTBD 升级伴随监督频率下降 + 错误代价升高——从"每句话审"到"每小时审"到"每天审"。

用跨越鸿沟 Crossing the Chasm 框架看 2026 Agent 市场

阶段	代表产品	用户	2026 判断
Innovators	AutoGPT、BabyAGI	极客	已过
Early Adopters	Claude Code、Cursor、Devin	专业开发者	正在
Early Majority	未出现	主流企业	未到
Late Majority	——	保守企业	2027+

主流企业采用前的鸿沟挑战： - 完整解决方案（not DIY） - 明确 ROI 证明 - 合规 + 安全边界 - 案例库 + 专业服务 成熟

2026 关键变量

L3 Agent 成功率能否从 30% 升到 70%：这是"Demo 到生产"的分水岭
MCP 协议生态扩散：是否成为事实标准
浏览器 Agent 解决网络身份验证问题：CAPTCHA、2FA、隐私
Agent 价格模式：按成功付费 vs seat 订阅
法律责任划分：Agent 出错的民事责任

我的判断

我的看法：

"Agent" 术语会继续被滥用——每个 Copilot 产品都会自称 Agent

L2 半自主 Agent 是 2026-2027 商业化主战场：不求全自主，把"1-2 小时明确任务"做扎实

L3 全自主 Agent 仍是研究前沿：Devin / Manus 展示方向，但生产事故风险高

Agent 分类标准会统一：可能出现类似自驾 L1-L5 的行业认证

最大机会不是"通用 Agent"，而是"行业专用 Agent"：Harvey（法律）、Sierra（客服）、Devin（软件）

我可能错在哪里： - L3 Agent 2026 年底即达到可商用（Devin / Manus 突破） - "通用 Agent"成为新赢家（ChatGPT Agent 超越垂直） - Agent 分类始终无行业共识，概念混乱持续

延伸阅读

Anthropic · "Building Effective Agents"（2024-12 博客）
OpenAI · "A Practical Guide to Building Agents"（2025）
本站 · Agent 技术栈 · Multi-Agent 系统 · Agent 行业现状 · 颠覆创新框架