首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!

在当今科技迅速发展的时代,大型语言模型(Large Language Model,LLM)正以前所未有的速度改变着我们与数字世界的互动方式。基于LLM的智能代理(LLM Agent),从简单的信息搜索到复杂的网页操作,它们正在逐步融入我们的生活。然而,一个关键问题仍然悬而未决:当这些LLM Agent踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余

现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。

图片

▲WebCanvas框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas考虑到了在线网络交互中任务路径的非唯一性,“奖杯”代表成功到达每个关键节点后获得的步骤分数。

为破解这一难题,跨越星空科技的iMean AI团队和来自卡内基梅隆大学的合作者提出了一种创新的在线评测框架——WebCanvas,旨在为Agent在真实网络世界中的表现提供一个全面的评估方法。WebCanvas的创新点之一在于提出了“关键节点”的概念。这一概念不仅聚焦于任务的最终完成情况,还能够深入至任务执行过程的细节,确保评估的精准度。通过识别并检测任务流程中的关键节点——无论是到达特定网页,还是执行特定操作(如点击特定的按钮),WebCanvas为在线评估Agent提供了一个新的视角。

基于WebCanvas框架,作者构建了Mind2Web-Live数据集,该数据集包含从Mind2Web中随机挑选出的542个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验,我们发现,当Agent配备Memory模块,辅以ReAct推理框架,并搭载GPT-4-turbo模型后,其任务成功率提升至23.1%。我们深信,随着技术的不断演进,Web Agent的潜力依旧无限,这个数字将很快会被突破。

图片

论文标题:
WebCanvas: Benchmarking Web Agents in Online Environments

论文链接:
https://arxiv.org/pdf/2406.12373

WebCanvas平台链接
https://imean.ai/web-canvas

项目代码链接:
https://github.com/iMeanAI/WebCanvas

数据集链接:
https://huggingface.co/datasets/iMeanAI/Mind2Web-Live

关键节点

“关键节点”的概念是WebCanvas的核心思想之一。关键节点指的是完成特定网络任务过程中不可或缺的步骤,也就是说,无论完成任务的路径如何,这些步骤都是不可或缺的。这些步骤涵盖了访问特定网页以及在页面上执行特定操作,如填写表单或点击按钮。

以WebCanvas框架图绿色部分为例,用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的,比如从烂番茄的首页开始探索,或者直接通过搜索引擎定位置“即将上映的电影”页面。在筛选影片的过程中,用户可能先选择“冒险”类型,再根据受欢迎程度排序,或者反之亦然。虽然存在多条实现目标的路径,但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此,这三个操作被定义为该任务的关键节点。

评估指标

WebCanvas的评估体系分为两大部分:步骤得分和任务得分,两者共同构评估WebAgent综合能力。

  • 步骤得分:衡量Agent在关键节点上的表现,每个关键节点都与一个评估函数相关联,通过三种评估目标(URL、元素路径、元素值)和三种匹配函数(精确、包含、语义)来实现。每到达一个关键节点并通过评估函数,Agent就能获得相应的分数。

图片

▲评估函数总览,其中E代表网页元素Element

  • 任务得分:分为任务完成得分和效率得分。任务完成得分反映Agent是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率,计算方法为每个步骤得分所需的平均步骤数。

Mind2Web-Live数据集

作者从Mind2Web训练集中随机抽取了601个与时间无关的任务,以及测试集Cross-task子集中的179个同样与时间无关的任务,然后将这些任务在真实在线环境中进行标注。最终,作者构建了由542个任务组成的Mind2Web-Live数据集, 其中包含了438个训练样本和104个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。

图片

数据标注工具

数据标注过程中,作者使用了跨越星空科技开发的iMean Builder浏览器插件。该插件能够记录用户浏览器交互行为,包括但不限于点击、文本输入、悬浮、拖拽等动作,同时记录操作的具体类型、执行参数、目标元素的Selector路径,以及元素内容和页面坐标位置。此外,iMean Builder还为每一步操作生成网页截图,为验证和维护工作流程提供了直观的展示。

图片

▲示例:使用iMean Builder插件注释两个不同的任务。(A) 在Yelp上查找加州提供免费Wi-Fi的豪华轿车停车场,(B) 在Steam上查找Dota 2游戏并将所有 DLC 添加到购物车中

数据维护

网络环境瞬息万变,网站内容的更新、用户界面的调整乃至站点的关闭都是不可避免的常态。这些变化可能导致先前定义的任务或关键节点失去时效性,从而影响评测的有效性和公平性。

为此,作者设计了一套数据维护方案,旨在确保评测集的持续相关性和准确性。在数据收集阶段,除了标注关键节点外,iMean Builder插件还能够详细记录每一步工作流执行的信息,包括动作类型、Selector路径、元素值以及坐标位置等。后续使用iMean Replay SDK的元素匹配策略就能重现工作流动作,并及时发现并报告工作流或评估函数中的任何无效情况。

通过此方案,我们有效解决了流程失效带来的挑战,确保了评测数据集能够适应网络世界的不断演变,为自动化评测Agent的能力提供了坚实的基础。

图片

数据管理平台

在WebCanvas网站上集成了数据管理平台,用户可以清晰地浏览所有已录制的任务流程及其关键节点,也能够迅速向平台管理员反馈失效的流程,确保数据的时效性和准确性。

同时,作者鼓励社区成员积极参与,共同构建一个良好的生态系统。无论是维护现有数据的完整性,还是开发更先进的Agent进行测试,甚至是创造全新的数据集,WebCanvas都欢迎各种形式的贡献。这不仅促进了数据质量的提升,还鼓励技术创新,能够形成良性循环推动整个领域向前发展。

图片

▲WebCanvas网站首页

图片

▲Mind2Web-Live数据集的可视化展示

基础Agent框架

作者构建了一个全面的Agent框架,旨在优化Agent在在线网络环境下的任务执行效率。该框架主要由四个关键组件组成:规划(Planning)、观察(Observation)、记忆(Memory)以及奖励(Reward)模块。

  • 规划(Planning):基于Accessibility Tree的输入,Planning模块运用ReAct推理框架进行逻辑推断,生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标,给出行动路径。

  • 观察(Observation):Agent通过解析浏览器提供的HTML源代码,将其转换成Accessibility Tree结构。这一过程确保了Agent能够以标准化格式接收网页信息,便于后续分析和决策。

  • 记忆(Memory):Memory模块负责存储Agent在任务执行过程中的历史数据,包括但不限于Agent的思考过程、过往的决策等。

  • 奖励(Reward):Reward模块能对Agent的行为给予评价,包括对决策质量的反馈以及给出任务完成信号。

图片

▲基础Agent框架示意图

主要实验

作者使用基础Agent框架并接入不同LLM进行评估(不含Reward模块)。实验结果如下图所示,其中Completion Rate指的是关键节点的达成率,Task Success Rate指的是任务成功率。

图片

图片

除此之外,作者还探索了Reward模块对Agent能力的影响,其中(+)号代表Reward信息中包含人类标注数据以及关键节点信息供Agent参考,Human Alignment分数代表Agent与人类的对齐程度。初步实验的结果表明,在线网络环境中,Agent并不能够通过Self Reward模块改善能力,但是整合了原始标注数据的Reward模块能够增强Agent的能力。

图片

实验分析

在附录中,作者对实验结果进行了分析,下图是任务复杂度与任务难度之间的关系,橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹,而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。

图片

▲任务复杂度与任务难度之间的关系。"num of steps"指的是标注数据中动作序列的长度,与关键节点的数量一起作为任务复杂度的参考。

下表是实验结果与地区、设备、系统之间的关系。作者鼓励实验在美国地区或使用美国的Windows服务器进行相关实验。

图片

全文总结

在推动LLM和Agent技术发展的征途上,构建一套适应真实网络环境的评测体系至关重要。本文聚焦于在瞬息万变的互联网世界中有效地评价Agent的表现。我们直面挑战,通过在开放的环境中界定关键节点和对应的评测函数达成了这一目标,并开发数据维护系统减小了后续维护成本。

经过不懈努力,我们已迈出了实质性的步伐,并向着建立稳健且精准的在线评测系统前进。然而,在动态的网络空间中进行评测并非易事,它引入了一系列在封闭、离线场景下未曾遭遇的复杂问题。在评测Agent的过程中,我们遇到了诸如网络连接不稳定、网站访问限制,以及评测函数的局限性等难题。这些问题凸显出在复杂的真实环境中,对Agent进行评测所面临的艰巨任务,要求我们不断精进调整Agent的推理和评测框架。

我们呼吁整个科研社区共同协作,以应对未知挑战,推动评测技术的革新与完善。我们坚信,只有通过持续的研究与实践,才能逐步克服这些障碍。我们期待着与同行们携手并进,共创LLM Agent的新纪元。

主要作者介绍

潘奕琛:浙江大学硕士一年级研究生。

孔德涵:跨越星空科技模型算法负责人。

周思达:南昌大学2024届毕业生,将于西安电子科技大学攻读硕士。

崔成:浙江中医药大学2024届毕业生,将于苏州大学攻读硕士。

潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3247272.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

couldn‘t read native报错!Typora中使用Pandoc导出Word失败的解决方法

couldn‘t read native报错!Typora中使用Pandoc导出Word失败的解决方法 一、问题描述 在Typora中使用Pandoc将markdown文件导出为word文件时,发生如下图所示错误: 在网上找了资料以后,发现是因为md文件里面有表格,如果把表格删掉…

【Harmony】SCU暑期实训鸿蒙开发学习日记Day2

目录 Git 参考文章 常用操作 ArkTS的网络编程 Http编程 发送请求 GET POST 处理响应 JSON数据解析 处理响应头 错误处理 Web组件 用生命周期钩子实现登录验证功能 思路 代码示例 解读 纯记录学习日记,杂乱,误点的师傅可以掉了&#x1…

网络和安全操作

一、网络的介绍 1.编辑文件 文本编辑器有很多,比如图形模式的gedit、OpenOffice 等,文本模式下的编辑器有vi、vim(vi的增强版本)等。vi和vim是我们在Linux中最常用的编辑器。 gedit:类似于windows下的记事本&#xf…

【MATLAB第106期】#源码分享 | 基于MATLAB的有限差分算法的全局敏感性分析模型

【MATLAB第106期】#源码分享 | 基于MATLAB的有限差分法的全局敏感性分析模型 一、原理 有限差分法是一种数值方法,用于估计函数对输入参数的敏感性。在全局敏感性分析中,这种方法特别有用,因为它可以评估模型输出对所有输入参数变化的整体响…

stm32:CAN通讯

目录 介绍 协议层 CAN的 帧/报文 种类 数据帧 远程帧(遥控帧) 错误帧 过载帧 帧间隔 总线仲裁 stm32的CAN外设 工作模式 测试模式 功能框图 时序 标准时序 例子 环回静默模式测试 寄存器代码 HAL版本 介绍 一种功能丰富的车用总线标…

EasyExcel 学习之 导出 “WPS 表格在试图打开文件时遇到错误”

目录 1. 版本2. 现象2.1. Postman 文件下载成功且 WPS 可以正常打开2.2. VUE 下载成功但 WPS 无法打开 3. 原因:前端未指定 responseType4. 常见问题4.1. NoSuchMethodError4.1.1. org.apache.logging.log4j.LogBuilder org.apache.logging.log4j.Logger.atTrace()4.1.2. Could…

WebAssembly与JavaScript的交互(1)

前一阵子利用Balazor开发了一个NuGet站点,对WebAssembly进行了初步的了解,觉得挺有意思。在接下来的一系列文章中,我们将通过实例演示的方式介绍WebAssembly的一些基本概念和编程模式。首先我们先来说说什么是WebAssembly,它主要帮…

深入理解 Token:大模型为什么用token计费,token到底是什么东东

今天我们来聊聊一个你可能听说过,但可能不太了解的词——Token。在那些能聊天、写文章、甚至帮你做决定的智能大模型里,为什么都要用Token 来计费在这里插入图片描述 一、Token 是什么? 想象一下,你写了一封信,但不是…

若依前端和后端时间相差8小时

原因基类未设置时区 实体类继承 BaseEntity 加上timezone"GMT8" /** 创建时间 */ JsonFormat(pattern "yyyy-MM-dd HH:mm:ss" , timezone"GMT8") private Date createTime; 解决

网络安全(含面试题版)

一、网络概念 网络:一组相互连接的计算机,多台计算机组成,使用物理线路进行连接 作用: 数据交换 资源共享 二、网络分类 计算机网络覆盖的地理区域决定了它的类型。一般分为局域网(LAN)、城域网(MAN)、广域网(WAN)。 三、www万维网…

Android音视频—OpenGL 与OpenGL ES简述,渲染视频到界面基本流程

文章目录 OpenGL 简述特点和功能主要组件OpenGL ES当前状态 OpenGL ES 在 Android 上进行视频帧渲染总体流程 OpenGL 简述 OpenGL(Open Graphics Library)是一个跨平台的、语言无关的应用程序编程接口(API),用于开发生…

如何用AI交互数字人一体机,打造政务服务新名片?

如今,将“高效办成一件事”作为优化政务服务、提升行政效能的重要抓手,各地方为了促进政务服务由传统模式向数字化、智能化方向转变,纷纷在政务服务场景融合了AI交互数字人,实现“无人化、智慧化”导办、帮办、代办等模式&#xf…

redis缓存失效问题

缓存时效问题 缓存穿透 问题说明:指大量请求缓存中不存在的数据,导致这些请求都访问备用数据源(如数据库、外部服务等),从而引起系统资源浪费和性能问题。 解决方案:有“参数校验”、“缓存空值”、“布隆…

html 单页面引用vue3和element-plus

引入方式: element-plus基于vue3.0,所以必须导入vue3.0的js文件,然后再导入element-plus自身所需的js以及css文件,导入文件有两种方法:外部引用、下载本地使用 通过外部引用ElementPlus的css和js文件 以及Vue3.0文件 …

LG 选择 Flutter 来增强其智能电视操作系统 webOS

可以这个话题会让大多数人困惑,2024 年了为什么还会冒出 webOS 这种老古董?然后 LG 为什么选择 webOS ?现在为什么又选择 Flutter ? 其实早在 Google I/O 发布 Flutter 3.22 版本的时候,就提到了 LG 选择 Flutter 来增…

Postfix+Dovecot+Roundcube开源邮件系统搭建系列1-2:系统搭建目标+MariaDB数据库配置(MySQL)

1. 系统搭建目标 通过本系列文章,最终可以部署一套提供如下服务的邮件系统: SMTP服务:由Postfix提供,监听25、465、587端口。POP3服务:由Dovecot提供,监听110、995端口。IMAP服务:由Dovecot提…

el-table fixed固定列导致错位的解决方法介绍

问题描述: Element UI table组件可以通过设置fixedright属性实现列的固定,但是在某些情况下会导致固定列的样式错乱,只要刷新页面即出现表格错位问题,下面就总结下解决样式错乱实现方案 官方解决方案: 对 Table 进行重新布局。当 Table 或其…

安全防御:智能选路

目录 一、智能选路 1.1 就近选路 1.2 策略路由 1.3 虚拟系统---VRF 二、全局选路策略 1,基于链路带宽进行负载分担 2,基于链路质量进行负载分担 3,基于链路权重的负载分担 4,根据链路优先级的主备备份 DNS透明代理 一、…

vue执行npm install问题idealTree:yudao-ui-admin-vben: sill idealTree buildDeps

前言: 查看vue终端默认地址 npm config get registry 结果:https://registry.npmjs.org/问题: 在拉取芋道源码前端的时候执行npm install 遇到问题如下:一直卡着不动 查看版本 按照网上方法更换镜像为阿里的,仍然不…

ORA-00756 ORA-10567故障处理---惜分飞

数据库异常断电之后,recover 报ORA-00756 ORA-10567等错 SQL> recover database; ORA-00756: 恢复操作检测到数据块写入丢失 ORA-10567: Redo is inconsistent with data block (file# 1,block# 113855,file offset is 932700160 bytes) ORA-10564: tablespace S…