【LLM之Agent】ReAct论文阅读笔记

研究背景

论文介绍了 “ReAct” 范式,该范式旨在融合推理和行动的功能,通过让大型语言模型(LLMs)生成既包括言语推理轨迹又包括行动序列的输出,解决多种语言推理和决策任务。这种方法允许模型在与外部环境(如Wikipedia)交互时动态地进行推理和调整计划。

研究目标

ReAct的目标是改善LLMs中推理和行动生成的整合,以提升在多样化基准测试中的性能。它试图解决现有模型的局限性,这些模型通常将推理和行动生成分开处理,从而增加在需要这两种认知功能的任务中的效率。

相关工作

该方法与之前只侧重于推理的链式思考提示等方法形成对比。ReAct在整合基于行动的交互方面独树一帜,为涉及外部信息源的问题解决任务提供了更全面的解决方案。

方法论

ReAct采用一种新颖的提示策略,将推理和行动步骤交错使用,并利用如Wikipedia这样的外部API获取实时数据,以辅助决策过程。这种设置允许模型根据最新信息调整其响应,提高准确性和相关性。
在这里插入图片描述
ReAct框架结合了结构化提示和微调方法,在更少的数据样本上训练模型,同时实现更高的性能。它利用上下文学习和针对性微调,使模型适应特定任务,而不需要大量数据。

以在wiki上的HotPotQA数据为例:

设计动作空间
论文设计一个简单的维基百科web API三种类型的行动来支持交互式信息检索:

  • search[entity],返回前5个句子从相应的实体维基页面如果存在,或者建议5类似实体从维基百科搜索引擎
  • lookup[string],这将返回页面的下一个句子包含字符串,模拟Ctrl+F浏览器功能
  • finish[answer],这将会用答案来完成当前的任务

这个动作空间大多只能根据确切的段落名称检索到一篇文章的一小部分,这明显比现有的词汇或神经检索器更弱。其目的是模拟人类将如何与维基百科互动,并迫使模型通过语言中的显式推理进行检索。

prompt

问题:科罗拉多造山带东部区域的海拔范围是多少?
行动 1:搜索【科罗拉多造山带】
观察 1:科罗拉多造山带是科罗拉多及周边地区的一次山脉构造活动。
行动 2:查找【东部区域】
观察 2(结果 1 / 1):东部区域延伸至高原平原,称为中部平原造山带。
行动 3:搜索【高原平原】
观察 3:高原平原指两个不同的地区之一:
行动 4:搜索【美国高原平原】
观察 4:高原平原是大平原的一个子区域。从东到西,高原平原的海拔从大约 1,800 英尺升至 7,000 英尺(550 到 2,130 米)。
行动 5:结束【1,800 至 7,000 英尺】

实验

实验设计

实验在四个不同的基准测试上进行:问题回答、事实验证、基于文本的游戏和网页导航。这些测试旨在评估模型在复杂的多组件环境中执行推理和行动生成的能力。

任务类型任务数据集备注
问题回答Hot-PotQA从英文维基百科收集的 QA 数据集,包含大约113K个群众来源的问题,这些问题需要两篇维基百科文章的引言段落来回答。数据集中的每个问题都有两个黄金段落,以及这些段落中的句子列表,众包工作者认为这些句子是回答问题所必需的支持事实。
事实验证FEVER一个针对文本来源进行事实提取和验证的公开数据集。FEVER(事实提取和验证)由185,445个声明组成,通过修改从维基百科中提取的句子,然后在不知道这些句子的情况下进行验证。声明被分为 Supported,Refuted,NotRnoughInfo,数据是 Json 格式。
基于文本的游戏ALFWorldALFWorld(Shridhar等人,2020b)(图1(2))是一个基于文本的合成游戏,旨在与具体化的阿尔弗雷德基准测试对齐(Shridhar等人,2020a)。它包括6种类型的任务,其中代理需要通过文本操作导航模拟家庭,并与之进行交互(例如去咖啡柜1,取纸2,使用桌面灯1)。
网页导航WebShopWebShop是一个模拟的电子商务网站环境,拥有118万个真实世界的产品和12087条众包文本指令。在这种环境中,代理需要浏览多种类型的网页,并发出不同的操作来查找、自定义和购买给定说明的产品。WebShop提供了一些挑战,包括理解组合指令、查询(重新)公式、处理网页中的嘈杂文本以及执行战略探索。

实验结论

ReAct在所有测试领域中的性能均优于最先进的基线模型,特别是在传统仅行动模型中表现出色,并在从实时数据交互中受益的任务中显示出显著优势。实验还突出了ReAct提高模型可解释性和可信度的能力,使用户更容易理解并验证模型决策背后的推理。

比如在HotPotQA上的实验结果如下:
在这里插入图片描述

参考资料

  • 论文
  • 代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3226405.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu22.04.4 LTS系统/安装Anaconda【GPU版】

安装过程 1.wget命令行下载 下载Anaconda并保存文件至本地指定目录 wget -c https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh -P ~/Downloads/anaconda3 查看是否下载好了 2.安装Anaconda 2.1 bash命令安装 bash后面是anaconda3下载好的路径 bash …

补光灯LED照明 2.7V4.2V5V升60V80V100V升压恒流芯片IC-H6902B

H6902B升压恒流芯片IC确实是一款为LED照明应用设计的稳定且可靠的解决方案。这款芯片具有以下几个显著特点: 高效率:效率高达95%以上,这意味着在驱动LED灯时,电源到LED的能量转换效率非常高,减少了能量损失&#xff0…

untiy 在菜单栏添加自定义按钮 点击按钮弹出一个Unity窗口,并在窗口里添加属性

using System.Collections.Generic; using UnityEditor; using UnityEngine; using UnityEngine.Rendering.PostProcessing;public class AutoGenerateWindow : EditorWindow //这是定义一个窗口 {public string subjecttName "科目名字";//科目的名字public GameOb…

【JavaWeb】登录校验-会话技术(三)过滤器Filter与拦截器Interceptor、异常处理

过滤器Filter 什么是Filter? Filter表示过滤器,是 JavaWeb三大组件(Servlet、Filter、Listener)之一。过滤器可以把对资源的请求拦截下来,从而实现一些特殊的功能 使用了过滤器之后,要想访问web服务器上的资源,必须先…

在线PS新功能:一键抠图轻松搞定

Photoshop,设计界的巨头软件,是多少设计小白入门的噩梦。Photoshop下载难度大,Photoshop收费贵,PS暂存盘已满,PS操作难度大...为了减少设计师被Photoshop压制,设计工具市场不断升级发展,即时设计…

大连网站制作需要注意哪些问题

在制作大连网站时,需要注意以下几个问题: 1. 目标受众:首先要明确网站的目标受众是谁,根据受众的特点和需求来设计网站的内容和结构。比如,如果目标受众是年轻人,网站的设计风格可以更加时尚和前卫&#xf…

昇思MindSpore学习笔记6-05计算机视觉--SSD目标检测

摘要: 记录MindSpore AI框架使用SSD目标检测算法对图像内容识别的过程、步骤和方法。包括环境准备、下载数据集、数据采样、数据集加载和预处理、构建模型、损失函数、模型训练、模型评估等。 一、概念 1.模型简介 SSD目标检测算法 Single Shot MultiBox Detecto…

Java的数学学习系统-计算机毕业设计源码 56236

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.1.1技术可行性 2.1.2经济可行性 2.1.3操作可行性 2.2 系统流程分析 2.2.1系统开发流程 2.2.2 用户登录流程 2.2.3 系统操作流程 2.2.4 添加信息流程 …

前端javascript中的排序算法之冒泡排序

冒泡排序(Bubble Sort)基本思想: 经过多次迭代,通过相邻元素之间的比较与交换,使值较小的元素逐步从后面移到前面,值较大的元素从前面移到后面。 大数据往上冒泡,小数据往下沉,也就是…

【企业级监控】源码部署Zabbix与监控主机

Zabbix企业级分布式监控 文章目录 Zabbix企业级分布式监控资源列表基础环境一、LNMP环境搭建(在zbx主机上)1.1、配置Yum仓库1.1.1、下载阿里云的仓库文件1.2.2、安装PHP7的仓库1.2.3、生成Mariadb10.11的仓库文件1.2.4、快速重建Yum缓存 1.2、安装PHP7.4…

Python函数语法详解(与C++对比学习)

一、Python函数的形式 def function_name (参数, ...) -> return value_type:# 函数体return value# 看具体需求# 如果没有return语句,函数执行完毕后也会返回结果# 只是结果为None。return None可以简写为return 二、函数名 这里可以与C中进行类比&#xff0c…

强化学习总结(有具体代码实现)

文章目录 第一部分 强化学习基础第1章 强化学习概述1.1 强化学习概念1.2 强化学习的环境1.3 强化学习的目标1.4 强化学习的数据 第2章 多臂老虎机问题(MAB问题)2.1 问题描述2.1.1 问题定义2.1.2 形式化描述2.1.3 累积懊悔2.1.4 估计期望奖励 2.2 解决方法…

windows10 +VS2019环境下的PCL安装和配置

今天想做点云重建,千篇一律,PCL少不了。一路跑下来觉得PCL的安装和环境配置还挺麻烦的,比OpenCV真的麻烦很多,有点不想写详细安装和配置过程了,偷个懒,就转载一下大佬的文章吧,下面的博主们已经…

PostgreSQL 中如何处理数据的并发更新冲突解决?

文章目录 一、并发更新冲突的场景二、PostgreSQL 中的并发控制机制(一) 封锁机制(二) 事务隔离级别 三、并发更新冲突的解决方法(一) 重试机制(二) 使用乐观并发控制(三&…

用这款免费爬虫神器,不用手动撸代码了!

很多人学习Python和我说是为了“爬虫”,爬虫的用处确实很丰富,如: 市场研究,了解竞争对手信息,爬虫收集舆论信息、产品动态。 价格分析,通过抓取不同平台商品价格,监测价格波动,…

PDManer使用教程及安装包

以下安装包版本比较低,用习惯了,需要高版本可以去官网下载 链接:https://pan.baidu.com/s/1Hj4zJ0UCcdk0YQTlteVCTQ?pwdv72v 提取码:v72v 使用教程 连接数据库 导入表信息 创建关系图 第一步 第二步 如果列显示不全 &#x…

【LLM大模型】机器学习导论(西瓜书)[推荐阅读]

哈喽啊大家&#xff0c;今天又来给大家推荐一本机器学习方面的书籍<机器学习西瓜书>。本书作为该领域的入门教材&#xff0c;在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解&#xff0c;作者试图尽可能少地使用数学知识…

【内网渗透】MSF渗透阶段的常用指令笔记

目录 渗透阶段划分 msfvenom 常用参数 各平台生成payload命令 Meterpreter Meterpreter的常用命令 基本命令 常用命令 针对安卓手机的一些命令 针对Windows的一些命令 文件系统命令 生成木马反弹shell(以linux靶机为例) 木马生成 配置监控 攻击利用 辅助模块 怎…

QT TCP多线程网络通信

学习目标&#xff1a; TCP网络通信编程 学习前置环境 运行环境:qt creator 4.12 QT TCP网络通信编程-CSDN博客 Qt 线程 QThread类详解-CSDN博客 学习内容 使用多线程技术实现服务端计数器 核心代码 客户端 客户端&#xff1a;负责连接服务端&#xff0c;每次连接次数1。…

从零开始做题:MP3

题目 给出一个mp3文件 解题 右键->selection->save selection->另存为xxx.png即可 8750d5109208213f E:\逐鹿\MISC\tools\MP3Stego_1_1_19\MP3Stego>.\decode -X cipher.mp3 MP3StegoEncoder 1.1.19 See README file for copyright info Input file cipher.mp3…