Skip to content

GUI based

GUI based agent基于视觉进行交互。传统的网页交互技术基本都是基于DOM进行的,agent无法看到页面,而是读取页面底层的HTML结构,即文档对象模型(DOM),通过分析文本和元数据,使用传统的选择器(如XPath或CSS选择器)来定位元素。然而,这种方式极端脆弱,一旦网页内部代码发生改变,agent的选择器会立即失效。

Vision-based则是通过CV和MLLM来分析页面的截图(即像素),它像人一样看页面,基于元素的视觉外观、标签文本和上下文来识别他们。从智能体发展的角度来看,我认为Vision-based是毫无疑问的未来选择。因为所有的页面最终都是要给人看的,那么agent在代替人的工作的过程中,只要能做到人能做的事情,那么agent就可以上岗工作,实现我们制造虚拟机器人的目的。

GUI based的理念符合机器人的定义:感知、规划、行动。


评论 #