【CMU博士论文】结构化推理增强大语言模型(Part 0)

问题 :语言生成和推理领域的快速发展得益于围绕大型语言模型用户友好库的普及。这些解决方案通常依赖于Seq2Seq范式,将所有问题视为文本到文本的转换。尽管这种方法方便,但在实际部署中存在局限性:处理复杂问题时的脆弱性缺乏反馈机制以及内在的黑箱性质阻碍了模型的可解释性

这表明,传统的文本输入-文本输出解决方案可能无法利用对模型利益相关者显而易见的有益结构属性。在模型开发过程中整合结构需要仔细审视问题设置,但通常相对简单的实现可以带来显著的回报——一点结构就可以产生很大作用

重点:本文提出了通过在语言模型的设计和操作整合结构化元素来解决这些局限性的方法。

结构:被定义为数据的系统性、层次性或关系性组织和表示,以及在学习和推理过程中引入结构约束。

  • 训练阶段,提出了训练图辅助问答模型的技术,并发现有助于有效生成序列集的顺序
  • 推理阶段,提出了利用代码作为中间表示整合结构的技术。
  • 推理后阶段,我们介绍了整合记忆的方法,使模型能够利用反馈而无需额外训练

作者提出下一代AI系统将把大型语言模型视为强大的内核,在其上构建灵活的推理程序以增强复杂推理。

随着文本生成和推理的用户友好库的广泛普及,许多任务已成功地在seq2seq框架中实现,这不仅扩展到对话生成和摘要生成等自然适合这些范式的任务,还包括传统上与语言模型不相关的任务,如蛋白质序列预测、图生成、程序合成和结构化常识推理。

尽管通常不建议将任务适配到现有工具 [Paszke et al., 2017, Wolf et al., 2019],但这些库的易用性和可访问性有时会导致忽视使用这些现成解决方案所带来的固有权衡和局限性。

1.1.1 现有大型语言模型设置的局限性

反馈对于根据用户偏好定制模型输出和改善整体用户体验至关重要。然而,目前的Seq2Seq模型并不是为了接收直接反馈而设计的,这使得用户很难影响或指导模型的输出[Kreutzer等人,2018,Jaques等人,2019]。接下来我们将详细阐述这些挑战。

1 提供反馈的能力
提供反馈的能力将实现更具互动性和用户驱动的结果,从而实现更好的定制和改进的整体性能。例如,在对话系统中,在纽约市寻找意大利餐馆的用户可能希望澄清或更正Seq2Seq模型提供的信息。如果模型给出了一个不正确的位置,用户就很难给出反馈并引导模型找到想要的答案。更糟糕的是,如果没有保留反馈的能力,模型将继续重复同样的错误

已经提出了几种方法来解决这个问题,例如从人类反馈中强化学习[Kreutzer等人,2018,Jaques等人,2019],用于序列预测的actor-critic算法[Bahdanau等人,2016],以及监督学习[Stiennon等人,2020,Ouyang等人,2022b]。然而,这些方法通常需要额外的训练或大量的数据,使得它们不太适合少量的学习或数据可用性有限的场景。尽管取得了这些进展,但在开发实用和有效的Seq2Seq模型在少镜头学习背景下的反馈机制方面仍有很大的研究差距。在本文中,我们的目标是研究这一差距,并探索新的方法,可以在不需要重新训练的情况下有效地纳入用户反馈,从而提高Seq2Seq模型在数据可用性有限的现实应用中的性能和适应性。

2 不匹配表示导致的脆性
Seq2Seq模型面临的一个主要挑战是它们在处理明显偏离文本数据的输入或输出时的脆弱性。当应用于非常规任务或领域时,这种限制可能导致性能不佳,这些任务或领域需要与训练期间遇到的表示不同[Lake等人,2017,Ratner等人,2017]。开发能够处理不同和不匹配表示的模型不仅可以提高它们的泛化能力,还可以扩展它们对更广泛任务的适用性

例如,在大量英语文本语料库上训练的Seq2Seq模型可能不适合处理特定于领域的语言的输入或输出,例如数学方程或计算机代码。在处理不匹配表示方面解决这一差距对于创建更通用和健壮的Seq2Seq模型至关重要,这些模型可以适应各种现实世界的场景和任务[Graber等人,2018]。

3 未能利用数据中固有的结构
普通Seq2Seq模型的一个重大限制是,它们倾向于将输入和输出数据视为非结构化序列,往往忽略了可以用来增强模型理解和生成能力的任何底层结构或模式[Bastings等人,2017]。将领域特定的知识、结构或约束合并到模型体系结构或训练过程中,将支持更准确、有效和一致的输出生成,从而在专门的任务或领域中获得更好的性能。

类人文本生成和推理的关键能力

支持下一个令牌预测目标简单的一个常见论点是,它与人类处理和生成语言的方式相似[Heilbron et al., 2022]。然而,人类推理表现出的细微差别是当前模型难以复制的。以下几个例子突出了这些局限性:

  1. 生成多个候选项:人类经常创建和评估多个选项,这是标准LLM输出中不固有的过程。
  2. 迭代生成: 在像写作这样的任务中,人类参与评审和改进的迭代过程,而不是由法学硕士完成的一次性生成。
  3. 语境和世界知识:人类的交流依赖于超越直接文本数据的更广泛的知识和语境信息。
  4. 工具使用: 人们使用各种工具来完成任务。最重要的是,人们意识到什么时候需要一个特定的工具。
  5. 问题重构:人们经常重新表述问题并重新尝试。
  6. 优先处理简单的任务:一个常见的人类解决问题的策略是先处理问题的简单部分。

这些示例有一个共同的主题:需要超越简单的输入/输出关系。法学硕士提供了非凡的能力,但为了解决所有的任务,它们需要用更复杂的推理过程来增强。这种需求反映在少量提示技术的兴起中,其中使用搜索、自我改进和工具使用等策略来增强这些模型。这些技术中的许多都隐含地引入了结构元素,下面将对此进行解释。

1.1.2 注入结构:本文的贡献

某些问题可能提供一种固有的结构,可以用于可解释性或有效性。例如,在解决常识性推理问题时,将结果附加在捕获相关关系和依赖关系的知识图上可能是有用的[Han等人,2020]。解决这一差距并开发将结构信息纳入Seq2Seq模型的方法,有可能显著提高其在广泛领域和任务中的性能和适用性[Zhang等人,2019a,c]。

结构在人工智能领域是一个模棱两可的术语,有多种解释[Newell et al., 1972, Russell, 2010]。为了本文的目的,我们采用了一个广泛的结构视角,不仅包括其在组织训练数据中的使用[Bengio等人,2013,Schmidhuber, 2015],还包括其在整个模型开发和部署生命周期中的作用,从增强训练和推理结果[Vaswani等人,2017,Devlin等人,2019,Lake等人,2017],到提高最终结果有效性的推理后调整[Nye等人,2021b, Dohan等人,2022]。

定义1 (结构)。在结构增强生成与推理的背景下,期限结构是指:
在这里插入图片描述
图1.1:本论文提案概述:本论文的目标是在模型开发和部署管道中集成结构。

a. 以系统、分层或关系的方式组织和表示数据、知识或信息[Pearl等人,2000;Bengio等人,2013;Hovy等人,2013]。这有助于捕捉不同元素之间的潜在关系和依赖关系,使人工智能系统更容易理解、生成和使用自然语言进行推理。例如,组织知识图来表示领域中实体之间的关系。
b. 利用数据问题域中存在的固有结构优化结果[Bahdanau等人,2014,Vaswani等人,2017,Battaglia等人,2018]。这包括使用数据或知识的结构属性来改进推理、决策或生成,以及增强人工智能系统的效率、可解释性或可扩展性。例如,使用解析树的结构来指导生成语法正确的句子。

注意,这个定义超越了关注数据排列的传统结构定义,并在定义中包含了过程。因此,我们对结构的定义既包括数据的结构,也包括过程本身。
在这里插入图片描述
图1.2:本文四个部分的示例:(a)在数据中注入结构进行微调,(b)结构增强建模,©在推理过程中利用结构,以及(d) LLM的推理后增强。

1.2 论文概述

本文探讨了结构在当代语言生成和推理模型中的重要意义。全文共分为四个部分:

第一部分:在数据中注入结构用于调优,涵盖三个章节,探索大型语言模型(llm)在各种任务中的高级应用。

  • 第2章研究了使用llm (NAACL 2021)生成文档的事件级时间图。它提出了使用llm自动生成文档事件级时间图的第一个研究,并证明了该方法的有效性。
  • 第3章介绍了SETAUG,一种有效利用序不变性和基数性的条件集生成新算法(EMNLP 2022)。通过在增强数据上训练序列到序列模型,该方法在多个基准数据集上取得了显著的改进。

第二部分:结构辅助建模 深入研究了结构增强的生成和推理。

  • 第5章重点介绍了文本风格迁移(ACL 2020),并提出了在没有并行数据的情况下有效和可解释的风格迁移技术。两个步骤的过程提高了性能和可解释性。
  • 第6章研究了使用图的结构化情景推理(ACL 2021, EMNLP 2021)。提出了一种分层混合专家模型,该模型可以有效地学习输入噪声图的条件,以提高推理能力。

第4章提出了一种使用llm和程序轨迹数据集(DL4C 2022接受的初步数据集版本)的程序中有针对性的算法优化方法。这项工作正在进行中,旨在改进编程任务的优化过程。

第三部分:在推理过程中利用结构探讨了图生成、结构化常识推理程序辅助语言模型的方法。

  • 第7章介绍了COCOGEN,这是一种使用大型语言模型进行结构化常识推理的新方法(EMNLP 2022)。它将结构化的常识性推理任务视为代码生成任务,允许预先训练的代码LMs作为结构化的常识性推理器执行得更好。
  • 第8章介绍了程序辅助语言模型(PAL)方法,它利用大型语言模型来理解和分解问题,同时将解决步骤外包给运行时(ICML 2023)。这种方法可以提高算术和符号推理任务的性能

第四部分:llm的推理后增强 研究了两章,重点是通过用户交互和迭代改进来增强大型语言模型(llm)。第9章介绍了MEMPROMPT,这是一种将GPT-3与用户反馈记忆相结合的方法,可提高跨不同任务的准确性(EMNLP 2022, NAACL 2022)。通过将GPT-3与不断增长的误解记录和用户反馈相结合,系统可以根据过去的用户反馈为新的查询生成增强的提示。MEMPROMPT的一种变体,称为FB-NET,利用对结构化生成的微调模型输出中的fx错误的反馈,并在naacl2022上被接受。

第10章介绍了SELF-REFINE,这是一个通过生成多方面反馈迭代精炼LLM输出的框架,在各种任务中展示了比直接生成的显著改进。拟议的工作旨在通过整合规划方法来扩展自我完善。

在这里插入图片描述
图1.1 作者的成果

关注微信公众号,获取更多资讯内容:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249363.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

外企跨境传输应该如何做到安全有效的文件管控?

跨境文件传输并非易事,它面临着多重挑战,尤其是数据安全、隐私保护以及法律法规遵守等问题。所以如何做到安全有效的文件管控,却是一个让许多企业头疼的问题。小编今天将说说跨境文件传输面临的主要挑战,并讨论如何选择合适的加密…

02线性表 - 链表

这里是只讲干货不讲废话的炽念,这个系列的文章是为了我自己以后复习数据结构而写,所以可能会用一种我自己能够听懂的方式来描述,不会像书本上那么枯燥和无聊,且全系列的代码均是可运行的代码,关键地方会给出注释^_^ 全…

云计算实训室的核心功能有哪些?

在当今数字化转型浪潮中,云计算技术作为推动行业变革的关键力量,其重要性不言而喻。唯众,作为教育实训解决方案的领先者,深刻洞察到市场对云计算技能人才的迫切需求,精心打造了云计算实训室。这一实训平台不仅集成了先…

c# .net core中间件,生命周期

某些模块和处理程序具有存储在 Web.config 中的配置选项。但是在 ASP.NET Core 中,使用新配置模型取代了 Web.config。 HTTP 模块和处理程序如何工作 官网地址: 将 HTTP 处理程序和模块迁移到 ASP.NET Core 中间件 | Microsoft Learn 处理程序是&#xf…

【iOS】——内存分区

内存管理 程序运行的过程中往往会涉及到创建对象、定义变量、调用函数或方法,而这些行为都会增加程序的内存占用。为了防止内存占用过多影响到程序的正常运行就需要对内存进行管理。 移动端的内存管理机制,主要有三种: 自动垃圾收集(GC)手…

上位机图像处理和嵌入式模块部署(香橙派AI Pro开发板试用)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 和工控机相比较,linux嵌入式开发板使用上面方便很多、也容易很多。很多的第三方库都可以通过yum、apt-get这样的方法直接下载到,不需要自己通过源代码重新进行编译、安装。因为自…

【人工智能】在未来智慧城市的建设及应用分析

作者主页: 知孤云出岫 目录 作者主页:案例分析:人工智能在未来智慧城市的建设及其影响和应用引言一、人工智能在智慧城市中的关键应用领域 案例分析:人工智能在未来智慧城市的建设及其影响和应用 引言 智慧城市是利用信息和通信技术(ICT&am…

FastAPI -- 第三弹(自定义响应、中间件、代理、WebSockets)

路径操作的高级配置 OpenAPI 的 operationId from fastapi import FastAPIapp FastAPI()# 通过 operation_id 参数设置 app.get("/items/", operation_id"some_specific_id_you_define") async def read_items():return [{"item_id": "F…

【MQTT(3)】开发一个客户端,QT-Android安卓手机版本

手机版本更加方便 生成安卓库 参考了这个代码 在编译Mosquitto以支持安卓平台时,主要涉及到使用Android NDK(Native Development Kit)进行交叉编译。环境的准备参考之前的博客【QT开发(17)】2023-QT 5.14.2实现Andr…

【中项】系统集成项目管理工程师-第2章 信息技术发展-2.1信息技术及其发展-2.1.1计算机软硬件与2.1.2计算机网络

前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试,全称为“全国计算机与软件专业技术资格(水平)考试”&…

网络编程-TCP 协议的三次握手和四次挥手做了什么

TCP 协议概述 1. TCP 协议简介 TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议。 TCP 协议提供可靠的通信服务,通过校验和、序列号、确认应答、重传等机制保证数据传输…

vue v-for展示元素分两栏 中间使用分割线

1.效果展示: 2.代码展示: <template><div class"container"><div class"column" v-for"(item, index) in items" :key"index"><div class"item">{{ item }}</div><div v-if"index %…

Linux编辑器——vim的使用

目录 vim的基本概念 命令模式 底行模式 插入模式 注释和取消注释 普通用户进行sudo提权 vim配置问题 vim的基本概念 一般使用的vim有三种模式&#xff1a; 命令模式 底行模式和插入模式&#xff0c;可以进行转换&#xff1b; vim filename 打开vim&#xff0c;进入的…

专题四:设计模式总览

前面三篇我们通过从一些零散的例子&#xff0c;和简单应用来模糊的感受了下设计模式在编程中的智慧&#xff0c;从现在开始正式进入设计模式介绍&#xff0c;本篇将从设计模式的7大原则、设计模式的三大类型、与23种设计模式的进行总结&#xff0c;和描述具体意义。 设计模式体…

基于电鸿(电力鸿蒙)的边缘计算网关,支持定制

1 产品信息 边缘计算网关基于平头哥 TH1520 芯片&#xff0c;支持 OpenHarmony 小型系统&#xff0c;是 连接物联网设备和云平台的重要枢纽&#xff0c;可应用于城市基础设施&#xff0c;智能工厂&#xff0c;智能建筑&#xff0c;营业网点&#xff0c;运营 服务中心相关场…

学习react-环境手脚架页面路由

1. 搭建环境 安装node和npm 在下面网址下载node&#xff0c;并安装 https://nodejs.cn/ #检测是否ok node -v npm -v安装react npm install -g create-react-app2. 创建手脚架&#xff08;TypeScript&#xff09; create-react-app my-app --template typescript cd my-a…

CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection

CrossKD&#xff1a;用于密集目标检测的交叉头知识蒸馏 论文链接&#xff1a;https://arxiv.org/abs/2306.11369v2 项目链接&#xff1a;https://github.com/jbwang1997/CrossKD Abstract 知识蒸馏(Knowledge Distillation, KD)是一种有效的学习紧凑目标检测器的模型压缩技术…

huawei USG6001v1学习---信息安全概念

目录 1.什么是分布式&#xff1f; 2.什么是云计算&#xff1f; 3.APT攻击 4.安全风险能见度不足 5.常见的一些攻击 6.交换机转发原理&#xff1f; 7.各层攻击类型 7.1链路层&#xff1a; 7.2网络层&#xff1a; 7.3传输层&#xff1a; 7.4应用层&#xff1a; 1.什么…

Spring-Boot基础--yaml

目录 Spring-Boot配置文件 注意&#xff1a; YAML简介 YAML基础语法 YAML:数据格式 YAML文件读取配置内容 逐个注入 批量注入 ConfigurationProperties 和value的区别 Spring-Boot配置文件 Spring-Boot中不用编写.xml文件&#xff0c;但是spring-Boot中还是存在.prope…

TCP系列(一)-介绍TCP

服务 TCP和UDP同样使用IP提供的服务&#xff0c;但是TCP提供的是面向连接&#xff0c;可靠的字节流服务 面向连接 使用TCP进行通信双方&#xff0c;必须先建立连接&#xff0c;然后进行数据交换 可靠服务 将应用数据分割成固定大小的报文段每次发出报文&#xff0c;会启动定时…