Skip to content

AI Agent Introduction

一个AI agent包含两个层面的内容:

  • Agentic Frameworks 编排层,这是智能体的大脑,负责定义智能体的目标、角色、记忆和规划能力。其核心原理是通过ReAct、Chain of Thought等提示工程的技术,将复杂任务分解为一系列可执行的步骤。现在最主流的就是LangChain。
  • Action Layer 行动层,即agent编排规划后,调用行动层的工具来与外部世界(如浏览器或API)进行实际交互。

一般可以这么认为:

AI Agents(最大集合)
│
├── Disembodied Agents(不具身)
│     ├── ChatGPT
│     ├── Web agents
│     └── Planning agents without action
│
└── Embodied AI Agents(具身智能,子集)
        ├── Robotic Agents
        ├── Virtual embodied agents(游戏、模拟)
        └── Wearable embodied agents(眼镜、AR)

本笔记主要讨论的是不具身的AI Agents,而具身智能则单独作为一个章节讨论。换句话说,不具身的智能体主要核心是利用AI技术来编排工作、完成任务。为什么要研究不具身智能呢?因为AGI还遥遥无期,现有技术尚不能撑起具身智能的半边天,那我们基于现有技术去解决实际问题,即开发针对特定领域的Agents,便是本主题的主要学习、研究以及讨论的内容。

在我的网站中,如果没有特别提及,一般AI Agents都是指非具身的智能体,准确点来说,可以叫做任务导向型AI智能体(Autonomous Task-Solving AI Agents)。如今业界常说的就是这种智能体。

OpenAI前科学家Lilian Weng曾给出一个被全行业广泛引用的公式,可以被视为当下AI Agent最公认的定义:

AI Agent = LLM + Planning + Memory + Tools


评论 #