Computer Use Agent：Claude CU · Operator · 人机操作 AI

最后更新：2026-04-24

Computer Use Agent（CU）是 Agent 家族中最激进的形态——AI 直接看屏幕 + 控制鼠标键盘，像人一样操作任意软件。Anthropic 2024-10 首发 Claude Computer Use，OpenAI 2025-01 推出 Operator，Google 2025 Project Astra / Gemini Robotics 紧随。但准确率 + 速度 + 成本都仍是 2026 大挑战。

一句话结论

Computer Use 是 "最通用的 Agent 能力，但也最脆弱" —— 理论上能操作任意软件（Figma / Excel / 任何网站 / 任何 GUI），但在真实业务场景的成功率 30-60%，速度慢（每操作 2-5 秒），成本高（每任务 $0.5-5）。2026 仍是"Demo 好、生产难"阶段。

三条关键要点

Claude Computer Use（2024-10）是首款商用 CU，开创"截屏 → 模型推理 → mouse/keyboard action"范式
OpenAI Operator（2025-01 beta → 2025-07 正式）更聚焦浏览器，限制范围但稳定性更高
当前 CU 瓶颈：像素级交互 + 延迟 + CAPTCHA / 2FA / 隐私 / 法律边界

Computer Use 技术架构

核心循环

1. Screenshot 屏幕
2. LLM 推理：
   - "当前截图显示什么？"
   - "距离目标差多少？"
   - "下一步动作？"
3. Action: click(x, y) / type("...") / scroll(dy)
4. Wait + 再 screenshot
5. Loop 直到完成或放弃

关键技术组件

Vision 模型：理解 GUI 截图（button、input、link）
坐标预测：像素级精度（Anthropic / OpenAI 都在此下功夫）
Action 抽象：click / type / scroll / keyboard shortcuts
等待策略：页面加载时机判断
错误恢复：识别"不正常"状态并纠偏

主流产品对比

Claude Computer Use（Anthropic）

发布：2024-10-22
形态：Anthropic API 提供 computer 工具
能力：任意 GUI 操作（不限浏览器）
精度：屏幕坐标级（~10-20px 误差）
速度：每 action ~3-5 秒
定价：按 Claude API tokens 算（贵）
用例：填表单、跨 App 数据搬运、RPA 替代

OpenAI Operator（ChatGPT Agent）

发布：2025-01-23 beta，2025-07 正式版改名 "ChatGPT Agent"
形态：ChatGPT Pro 特权，云端虚拟浏览器
能力：仅限浏览器（Chrome 实例云端运行）
精度：CUA（Computer Using Agent）模型专训
速度：每 action ~2-4 秒
定价：Pro $200/月含 + Action 限额
用例：订机票、网购、预约、表单填写

Google Project Mariner（2024-12 实验）

形态：Chrome 扩展 + Gemini
能力：浏览器操作
状态：Beta，小范围用户

Browser Use（开源框架）

形态：开源 Python 库
支持模型：GPT-4o / Claude / Gemini
可自托管
开发者友好

OSWorld / AndroidWorld（研究基准）

不是产品，是 benchmark
Ubuntu / Android 任务集

精度对比（2026-Q1）

产品	基准任务成功率
Claude Computer Use（Opus 4）	~55%（OSWorld）
OpenAI Operator / ChatGPT Agent	~45%（浏览器限定）
Gemini Project Mariner	~35%（浏览器）
Human baseline	~80%

观察：CU Agent 仍未追平人类，差距还大。

典型应用场景

场景 1 · RPA（机器人流程自动化）替代

传统 RPA（UiPath / Automation Anywhere）靠规则脚本
CU Agent 靠模型适应变化
优势：UI 变了不用改脚本
劣势：不稳定 + 慢 + 贵

场景 2 · 个人 Assistant

替用户订餐 / 订机票 / 预约医生
ChatGPT Operator 主推方向
挑战：身份验证、支付、隐私

场景 3 · 数据搬运

从 A 系统读 → 改 → 写 B 系统
企业内部 legacy 系统整合
Claude CU 主推 B 端场景

场景 4 · 测试自动化

QA 测试 UI 流程
类似 Selenium 但 AI 驱动
新兴用例

用颠覆创新框架看 CU 对 RPA 的颠覆

传统 RPA（UiPath $10B+ 市值）的 JTBD： - "让非开发者自动化 UI 流程" - 依赖 record-replay 或可视化脚本

CU Agent 的 JTBD： - 一样的目标，但 - 不需要录制，自然语言指令 - 抗 UI 变化

潜在颠覆路径： - 2026-2028 CU 稳定性上升 - UiPath 市值受冲击（2024 已从 $40B 跌到 $10B） - 可能被 Anthropic / OpenAI Agent 产品吞并

用 Wardley Maps 框架看 CU 演化

组件	2024	2026
Screenshot 理解	Custom-Built	Product（视觉模型成熟）
坐标预测	Genesis	Custom-Built（在改善）
Action 抽象	Custom-Built	Product（共通接口）
错误恢复	Genesis	Genesis（仍是难题）
商业包装	Genesis	Custom-Built（Claude CU / Operator）

战略洞察：Screenshot 理解商品化后，下一个瓶颈是错误恢复 + 长时程可靠性——这是 2026-2028 研究重点。

关键挑战

1. CAPTCHA / 2FA / Bot 防御

越来越多网站识别并拦截 AI Agent
道德 / 法律争议（OpenAI 2024 被曝让 CU Agent "假装视障" 通过 CAPTCHA）

2. 速度

每 action 2-5 秒
10 步任务 = 20-50 秒（人类 5-10 秒）
对实时交互极不友好

3. 成本

每次 Screenshot → Vision 推理 = tokens
Opus 4 + Vision 每 action ~$0.02-0.05
100 步任务 = $2-5
对大规模商用偏贵

4. 准确率

坐标偏差 / 识别错位置
长时程 task 误差累积

5. 隐私 + 法律

Agent 看到用户屏幕 → 敏感信息
自动登录 / 支付 / 法律文件签署的责任划分

2026 关键变量

OpenAI Operator 主流化：ChatGPT Pro 中 Operator 使用率
企业 CU 落地：有无 Fortune 500 Case Study
新 benchmark OSWorld v2 / VisualAgentBench：标准化评测
CAPTCHA 网站 vs AI 的博弈：Cloudflare / Google reCAPTCHA 对抗升级
CU 与手机 / 物联网扩展：Android / iOS CU Agent

我的判断

我的看法：

Computer Use 是 Agent 的终极形态，但 2026-2027 仍是"半成品"：Demo 好看、生产难用

OpenAI Operator 路线更务实（限定浏览器）比 Claude CU 通用型更容易落地

RPA 行业（UiPath）未来 5 年会被挤压 但不会消失——Legacy 系统 + 合规场景仍需要

CU 的 killer app 可能是 B2B 数据搬运，而非 C 端助手

2027-2028 CU 会与手机 OS 深度集成（iOS / Android 自带 AI Agent 接管 App）

我可能错在哪里： - Claude CU 2026 出现突破，成功率跳到 80%+，成为主流 - 监管（欧盟）快速限制 Agent 操作第三方服务，CU 被法律锁死 - 手机厂商（Apple / Google）做得比 Anthropic / OpenAI 更好

延伸阅读

Anthropic · Claude Computer Use 发布博客（2024-10）
OpenAI · Operator System Card
本站 · ChatGPT Agent（Operator） · Claude Computer Use · 浏览器 Agent · Deep Research 产品 · 颠覆创新框架