[算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?

什么是AI Agent (LLM Agent)

AI Agent 的定义

AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。

AI Agent 的主要组成部分:

在LLM赋能的自主agent系统中(LLM Agent),LLM充当agent大脑的角色,并与若干关键组件协作 。

规划(planning)

  • • 子目标分解:agent将大任务拆分为更小的可管理的子目标,使得可以有效处理复杂任务。

  • • 反思与完善:agent对历史动作可以自我批评和自我反思,从错误中学习并在后续步骤里完善,从而改善最终结果的质量。

记忆(Memory)

  • • 短期记忆:上下文学习即是利用模型的短期记忆学习。

  • • 长期记忆:为agent提供保留和召回长期信息的能力,通常利用外部向量存储和检索实现。

工具使用(tool use)

  • • 对模型权重丢失的信息,agent学习调用外部API获取额外信息,包括当前信息、代码执行能力、专有信息源的访问等等。

行动(Action)

  • • 行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。

AI Agent的意义

人机协同模式

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式AI的智能革命演化至今,从人机协同呈现了三种模式:

(1)嵌入(embedding)模式。用户通过与AI进行语言交流,使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下,AI的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。

(2)副驾驶(Copilot)模式。在这种模式下,人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。例如,在软件开发中,AI可以为程序员编写代码、检测错误或优化性能提供帮助。人类和AI在这个过程中共同工作,互补彼此的能力。AI更像是一个知识丰富的合作伙伴,而非单纯的工具。

实际上,2021年微软在GitHub首次引入了Copilot(副驾驶)的概念。GitHub Copilot是一个辅助开发人员编写代码的AI服务。2023年5月,微软在大模型的加持下,Copilot迎来全面升级,推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等,并提出“Copilot是一种全新的工作方式”的理念。工作如此,生活也同样需要“Copilot”,“出门问问”创始人李志飞认为大模型的最好工作,是做人类的“Copilot”。

(3)智能体(Agent)模式。人类设定目标和提供必要的资源(例如计算能力),然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。

人类与AI协同的三种方式

从前文对智能体记忆、规划、行动和使用工具四个主要模块的功能分析来看,智能体模式相较于嵌入模式、副驾驶模式无疑更为高效,或将成为未来人机协同的主要模式。

基于Agent的人机协同模式,每个普通个体都有可能成为超级个体。超级个体是拥有自己的AI团队与自动化任务工作流,基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。

AI Agent与软件开发

AI Agent将使软件架构的范式从面向过程迁移到面向目标。现有的软件(包括APP)通过一系列预定义的指令、逻辑、规则和启发式算法将流程固定下来,以满足软件运行结果符合用户的预期,即用户按照指令逻辑一步一步操作达成目标。这样一种面向过程的软件架构具有高可靠性、确定性。但是,这种面向目标的架构只能应用于垂直领域,而无法普遍应用到所有领域,因此标准化和定制化之间如何平衡也成为SaaS行业面对的难题之一。

软件架构范式迁移

AI Agent范式将原本由人类主导的功能开发,逐渐迁移为以AI为主要驱动力。以大模型为技术基础设施,Agent为核心产品形态,把传统软件预定义的指令、逻辑、规则和启发式算法的任务层级演变成目标导向的智能体自主生成。这样一来,原本的架构只能解决有限范围的任务,未来的架构则可以解决无限域的任务。未来的软件生态,不仅是最上层与所有人交互的媒介是Agent,整个产业的发展,无论是底层技术,商业模式,中间组件,甚至是人们的生活习惯和行为都会围绕Agent来改变,这就是Agent-Centric时代的开启。

RPA范式(Robotic Process Automation)与APA范式(Agentic Process Automation)的比较

常见LLM Agent框架或者应用

AutoGPT

https://github.com/Significant-Gravitas/AutoGPT

可以说是LLM Agent的鼻祖了。Auto-GPT是一个实验性的开源应用程序,展示了GPT-4语言模型的能力。这个程序由GPT-4驱动,将LLM“思想”连接在一起,以自主地实现您设置的任何目标。作为GPT-4完全自主运行的最早示例之一,Auto-GPT突破了人工智能的极限,将AI进程推向了新高度 -- 自主人工智能。

AutoGen

https://github.com/microsoft/autogen

微软发布的AutoGen agent是可定制的、可对话的,并能以各种模式运行,这些模式采用 LLM、人类输入和工具的组合。使用 AutoGen,开发人员还可以灵活定义agent交互行为。自然语言和计算机代码都可用于为不同的应用编程灵活的对话模式。AutoGen 可作为一个通用框架,构建具有不同复杂性和 LLM 能力的各种应用。实证研究证明了该框架在许多样本应用中的有效性,应用领域包括数学、编码、问答、运筹学、在线决策、娱乐等。

ChatDev

https://github.com/OpenBMB/ChatDev

清华大学 NLP 实验室联合面壁智能等科研机构研发的一个大模型驱动的全流程自动化软件开发框架。ChatDev (Chat-powered Software Development)。ChatDev 拟作一个由多智能体协作运营的虚拟软件公司,在人类“用户”指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。这一技术为软件开发自动化提供了新的可能性,支持快捷高效且经济实惠的软件制作,未来将有效地将部分人力从传统软件开发的繁重劳动中解放出来。

XAgent

https://github.com/OpenBMB/XAgent

XAgent是面壁智能联合清华大学 NLP 实验室共同研发开源的基于LLM的自主智能体,可以自动解决各种任务。 它被设计为一个通用的智能体,可以应用于各种任务,终极目标是创建一个可以解决任何给定任务的超级智能体。换句话说,打造的是超级无敌的多边形战士,不是单独为某个任务设计的特定智能体。

GPT-engineer

https://github.com/gpt-engineer-org/gpt-engineer

HuggingGPT

HuggingGPT也是一个老牌的AI Agent项目了,主要思路为利用LLM的框架(例如。ChatGPT)来连接机器学习社区中的各种AI模型(例如huggingface)来解决人工智能任务。

网址:https://huggingface.co/spaces/microsoft/HuggingGPT

代码:https://github.com/microsoft/JARVIS

论文:https://arxiv.org/abs/2303.17580

AI Agent的展望与挑战

展望

AI Agent是人工智能成为基础设施的重要推动力。回顾技术发展史,技术的尽头是成为基础设施,比如电力成为像空气一样不易被人们察觉,但是又必不可少的基础设施,还如云计算等。当然这个要经历以下三个阶段:

  • • 创新与发展阶段–新技术被发明并开始应用;

  • • 普及与应用阶段–随着技术成熟,它开始被广泛应用于各个领域,对社会和经济产生深远影响;

  • • 基础设施阶段–当技术变得普及到几乎无处不在,它就转变成了一种基础设施,已经成为人们日常生活中不可或缺的一部分。

几乎所有的人都认同,人工智能会成为未来社会的基础设施。而智能体正在促使人工智能基础设施化。这不仅得益于低成本的Agent软件生产优势,而且因为Agent能够适应不同的任务和环境,并能够学习和优化其性能,使得它可以被应用于广泛的领域,进而成为各个行业和社会活动的基础支撑。

人工智能智能体应用一览图

Agent下一步可能会朝着两个方向同时迭代。

一是与人协助的智能体,通过执行各种任务来协助人类,侧重工具属性;

二是拟人化方向的迭代,能够自主决策,具有长期记忆,具备一定的类人格特征,侧重于类人或超人属性。

挑战

从技术优化迭代和实现上来看,AI Agent的发展也面临一些瓶颈。技术方面,LLM模型仍然不够强大,即使是最强大的GPT4在AI Agent应用时,仍然面临以下一些问题:

  • • 上下文长度有限:上下文容量有限,限制了历史信息、详细说明、API 调用上下文和响应的包含。系统的设计必须适应这种有限的通信带宽,而从过去的错误中学习的自我反思等机制将从长或无限的上下文窗口中受益匪浅。尽管向量存储和检索可以提供对更大知识库的访问,但它们的表示能力不如充分关注那么强大。

  • • 长期规划和任务分解的挑战:长期规划和有效探索解决方案空间仍然具有挑战性。LLM在遇到意外错误时很难调整计划,这使得它们与从试错中学习的人类相比不太稳健。

  • • 自然语言接口的可靠性:当前的Agent系统依赖自然语言作为LLM与外部组件(例如内存和工具)之间的接口。然而,模型输出的可靠性值得怀疑,因为LLM可能会出现格式错误,并且偶尔会表现出叛逆行为(例如拒绝遵循指示)。因此,大部分Agent演示代码都专注于解析模型输出。

其次,太烧钱了,尤其是多智能体。斯坦福的虚拟小镇一个Agent一天需要消耗20美金价格的token数,因为其需要记忆和行动的思考量非常大。这一价格是比很多人类工作者更高的,需要后续Agent框架和LLM推理侧的双重优化。

还有就是现阶段在很多场景,使用AI Agent对比Copilot模式的最终效果,还看不到非常大的提升,或者说能覆盖增加成本的提升。大部分AI Agent技术还都是研究阶段。

最后,这些发展趋势预示着AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。别的不说,对很多人的个人职业生涯的长期影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2774768.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

互联网加竞赛 基于深度学的图像修复 图像补全

1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学的图像修复 图像补全 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-se…

JMeter测试工具(性能篇)

自动化脚本 设置全局变量 断言 接口弱压力测试 模拟半小时之内1000个用户访问服务器资源,要求平均响应时间在3000ms内,且错误率为0 模拟100个用户同时访问服务器资源,要求平均响应时间在3000毫秒内,且错误率为0 高并发 模拟2个…

专业130+总分410+苏州大学837信号系统与数字逻辑考研经验电子信息与通信,真题,大纲,参考书

今年考研总分410,专业837信号系统与数字逻辑130,整体每门相对比较均衡,没有明显的短板,顺利上岸苏大,总结一下自己这大半年的复习经历,希望可以对大家有所帮助,也算是对自己考研做个总结。 专业…

高中学校档案室主要做什么

高中学校档案室主要负责管理、保存和维护学校的各类档案文件。具体工作内容包括: 1. 档案收集:负责收集学校各个部门的档案文件,包括学生档案、教职工档案、教学档案、行政档案等。 2. 档案分类和整理:对收集到的档案文件进行分类…

【Spring源码解读!底层原理进阶】【上】探寻Spring内部:BeanFactory和ApplicationContext实现原理揭秘✨

🎉🎉欢迎光临🎉🎉 🏅我是苏泽,一位对技术充满热情的探索者和分享者。🚀🚀 🌟特别推荐给大家我的最新专栏《Spring 狂野之旅:底层原理高级进阶》 &#x1f680…

诺奖经济学家称AI将取代STEM专业工作!Altman:人类无需工作,我给发钱

最近,2010年诺贝尔经济学奖得主,伦敦政治经济学院(LSE)教授Christopher Pissarides公开表态,在不远的未来,传统意义上的「数理化」学科知识和技能,都将会被AI取代。 这位劳动力市场经济学家警告…

相机图像质量研究(10)常见问题总结:光学结构对成像的影响--光圈

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

《山雨欲来-知道创宇 2023 年度 APT 威胁分析总结报告》

下载链接: https://pan.baidu.com/s/1eaIOyTk12d9mcuqDGzMYYQ?pwdzdcy 提取码: zdcy

C++入门全集(1):初窥门径

一、前言 C是一种计算机高级程序设计语言,它在C语言的基础上进行了进一步的扩充和完善,并增加了许多有用的库,是一种面向对象的程序设计语言。 所以,C是兼容C语言语法的。 我打算把所有C入门需要学习的知识整合成一个全集&…

在c++中最重要的语法:类。第一章,什么是类,如何认识类,怎么使用类?

这一篇,简单介绍类的基本认知,和细节。 在c中,我们很多时间都要和类去打交道。它也是c相较于c新增的一个比较好用的语法。 类的定义如下: class A{private:成员函数或者成员属性public:成员函数或者成员属性protected:成员函数…

【C++】友元、初始化列表、内部类、static修饰成员详解

文章目录 前言1. 构造函数不为人知的那些事1.1 构造函数体赋值1.2 初始化列表1.3 explicit关键字 2. static成员2.1 概念2.2 特性2.3 小总结 3. C11 成员变量初始化新用法4. 友元4.1 友元函数4.2 友元类 5. 内部类5.1概念及特性 总结 前言 提示:这里可以添加本文要…

IntelliJ IDEA 2023.3发布,AI 助手出世,新特性杀麻了!!

目录 关键亮点 对 Java 21 功能的完全支持 调试器中的 Run to Cursor(运行到光标)嵌入选项 带有编辑操作的浮动工具栏 用户体验优化 Default(默认)工具窗口布局选项 默认颜色编码编辑器标签页 适用于 macOS 的新产品图标 Speed Sear…

【JavaScript 漫游】【011】ES5 规范中 Array 对象方法汇总

文章简介 本文为【JavaScript 漫游】专栏的第 011 篇文章,记录的内容包含了 ES5 规范中Array 对象的所有方法。 Array()Array.isArray()valueOf()、toString()push()、pop()shift()、unshift()join()concat()reverse()slice()splice()sort()map()forEach()filter(…

携程网首页案例制作(移动端)

技术选型 方案:采用单独制作移动页面方案 技术:布局采用flex布局 body样式 通常要设置最大宽度,最小宽度,水平居中,字体设置,背景颜色以及相关初始化 body {max-width: 540px;min-width: 320px;margin…

Spring Boot 笔记 002 整合mybatis做数据库读取

概念 MyBatis 是一款优秀的持久层框架,它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBatis 可以通过简单的 XML 或注解来配置和映射原始类型、接口和 Java POJO(Plain Old Java Objec…

MySQL之体系结构

华子目录 MySQL简介MySQL的特性MySQL版本MySQL常见版本 数据库排名网站MySQL结构体系查看最大连接数查询缓存配置情况 一条SQL语句执行流程 MySQL简介 MySQL是一个小型关系数据库管理系统,开发者为瑞典MySQL AB公司。在2008年1月16号被sun公司10亿美金收购。2009年…

RNN(神经网络)

目录 介绍: 数据: 模型: 预测: 介绍: RNN,全称为循环神经网络(Recurrent Neural Network),是一种深度学习模型,它主要用于处理和分析序列数据。与传统…

STM32启动过程浅析

MAP文件浅析 MDK编译过程文件(11种) .o:可重定向对象文件,每个.c、.s文件编译后都生成一个.o文件.axf:可执行对象文件,由.o文件链接生成,仿真的时候需要用到此文件.hex:INTEL Hex格…

[算法前沿]--058- LangChain 构建 LLM 应用详细教程

什么是LLMs? LLM,即大型语言模型,是指经过大量文本数据训练的最先进的语言模型。它利用深度学习技术来理解和生成类似人类的文本,使其成为各种应用程序的强大工具,例如文本完成、语言翻译、情感分析等。LLMs最著名的例子之一是 OpenAI 的 GPT-3,它因其语言生成能力而受到…

HTTP2: springboot启用http2

springboot http2应用条件 使用servlet 4.0jdk 9tomcat 9 springboot 开启h2 创建证书 创建脚本: keytool -genkey -keyalg RSA -alias wisely -keystore keystore.jks -storepass pass1234 -validity 4000 -keysize 2048添加springboot配置 server:port: 808…