GUI based

GUI based agent基于视觉进行交互。传统的网页交互技术基本都是基于DOM进行的，agent无法看到页面，而是读取页面底层的HTML结构，即文档对象模型（DOM），通过分析文本和元数据，使用传统的选择器（如XPath或CSS选择器）来定位元素。然而，这种方式极端脆弱，一旦网页内部代码发生改变，agent的选择器会立即失效。

Vision-based则是通过CV和MLLM来分析页面的截图（即像素），它像人一样看页面，基于元素的视觉外观、标签文本和上下文来识别他们。从智能体发展的角度来看，我认为Vision-based是毫无疑问的未来选择。因为所有的页面最终都是要给人看的，那么agent在代替人的工作的过程中，只要能做到人能做的事情，那么agent就可以上岗工作，实现我们制造虚拟机器人的目的。

GUI based的理念符合机器人的定义：感知、规划、行动。