今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现

大语言模型正以势不可挡的姿态席卷自然语言处理领域。在这个语言模型大显神威的时代,很多任务都转变为了端到端的文本生成任务。那么,在此之前我们苦心孤诣研究了几十年的语义表示,例如 AMR(抽象意义表示),在这个时代里还能派上用场吗?

这篇文章针对这个问题展开了研究,作者们提出了一种基于 AMR 的思维链(chain-of-thought)提示方法 AMRCOT,在5个自然语言处理任务上对比研究了这种方法和直接提示大模型的效果差异。结果发现,总体而言使用 AMR 并不能带来明显的效果提升,甚至会导致性能下降

不过,进一步的分析表明,AMR 在一些具体任务上还是能起到积极作用。文章重点指出,要让 AMR 在大语言模型时代真正发挥价值,下一步的重点应该放在提升模型对 AMR 符号表示的理解,以及如何将 AMR 推理与具体任务输出对应起来。

接下来让我们深入剖析这篇文章的研究细节。这个话题对于思考传统语言学知识在AI时代的价值很有启发。语言学家们孜孜不倦几十年的研究成果,面对大语言模型的崛起,究竟该何去何从?这是一个值得认真对待、深入探讨的问题。期待这篇文章能为我们提供一些有价值的思路。

论文标题:

Analyzing the Role of Semantic Representations in the Era of Large Language Models

论文链接:

https://arxiv.org/pdf/2405.01502

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

AMR or not AMR is a question.

近年来,大语言模型被广泛应用于自然语言处理领域。仅需要使用 prompt engineering,一个通用的大模型就可以实现从文本分类、机器翻译到代码生成等各种任务。曾几何时,这些任务需要精心设计特征、标注海量数据,并且需要针对每个任务单独训练专门的模型。但现在,一个大而全的通用语言模型似乎已经可以包揽全部,用一个模型解决所有问题。

在这样的大背景下,我们不禁要问:之前耗费了几十年心血研究的语义表示 AMR,在这个时代还有存在的必要吗?

AMR 通过将句子转化为以概念为节点、以关系为边的有向无环图,力图刻画句子的本质语义内容,剥离表层的语法形式。这种结构化的语义表示方式,曾被认为是实现自然语言理解的关键。但现在大语言模型仅仅基于海量语料的预训练,就已经展现出了惊人的理解和生成能力。那么,我们是不是已经可以彻底抛弃 AMR 这样的语义表示了呢?

事情真的就这么简单吗?本文的作者们并不这么认为。他们认为,在当前大语言模型的语义理解和推理能力还远非完美的情况下,结构化的语义表示或许可以起到重要的辅助和补充作用。为了验证这一想法,他们设计了一系列实验来探究 AMR 在大语言模型时代究竟还能发挥什么独特的价值。

这其实是一个更普遍问题的缩影:传统的语言学知识,如句法、语义等形式化表示在当前神经网络大模型盛行的时代,是否已经完全丧失了价值?还是说,它们可以与大模型优势互补,实现更好的人工智能应用?这篇文章通过聚焦 AMR 这一典型案例。给出了颇具启发性的思考。

当然,文章的探索仍处于初步阶段,还有很多悬而未决的问题,需要后续研究进一步深入。但无论如何,这项工作为传统语言学知识和前沿语言模型的融合,迈出了宝贵的第一步。期待在这一方向上未来有更多学者跟进,为构建更强大、更可解释的语言AI系统贡献自己的力量。

AMRCOT:思维链中融入 AMR 表示

为了研究 AMR 在大语言模型时代的作用,本文作者们提出了一种叫做 AMRCOT 的新方法,其灵感来自于最近很火的思维链(Chain-of-Thought, CoT)提示方法。

什么是思维链提示呢?简单来说,就是在提示语中不仅给出问题本身,还给出了解决问题的思路和步骤。就像老师在教学生解题一样,不仅告诉学生题目是什么,还手把手教学生怎么一步步去解题。研究发现,这种方式可以显著提高当前大语言模型在一些复杂推理任务上的表现。

AMRCOT 的核心思路就是在思维链的基础上再加入一环,即将原始文本对应的 AMR 表示喂给大模型。这就像在解题思路里,不仅有自然语言描述的解题步骤,还附上了该题目的结构化表示。通过这种方式,作者希望研究 AMR 是否可以给大模型提供一些额外的有用信息,帮助其更好地理解和解决任务。下图表示了基础 prompt 和 AMRCOT prompt 对比。

举个例子,如果我们想判断两个句子是不是语义相似,传统的思维链提示可能是这样的:

  1. 找出两个句子的主语、谓语、宾语;

  2. 判断它们的主语是否指代相同的事物,谓语是否表达相似的行为,宾语是否指代相同的对象;

  3. 如果以上三点都很相似,那么可以判断这两个句子语义相似。

而在 AMRCOT 中,除了以上思维链,我们还会在提示中加入这两个句子对应的 AMR 图。AMR 图以一种结构化的方式表示了句子的核心语义角色。输入的 AMR 图可以使模型更清晰地"看到"两个句子在语义结构上是否一致,比单纯的文本描述更加直观。

当然这只是一个简单的例子。在实际的实验中,AMRCOT 的具体形式要复杂得多。但核心思想就是在提示中融入 AMR 的结构化信息,来探究它对大模型理解和推理的帮助。这种融合语言学知识与前沿语言模型的尝试,可以说是这项工作最大的亮点和创新之处。

那么 AMRCOT 的实际效果如何呢?它能否如作者所愿,为大语言模型注入新的智慧呢?让我们拭目以待后续的实验结果。

揭秘 AMRCOT:五大 NLP 任务验证,结果出人意料!

为了全面评估 AMRCOT 的效果,作者们将其应用于五个代表性的自然语言处理任务:

  1. 语义相似性判断(PAWS):判断两个句子是否表达相同的语义。

  2. 机器翻译(WMT16):将句子从一种语言翻译成另一种语言。

  3. 逻辑谬误检测(Logic):判断一段话是否包含逻辑谬误。

  4. 事件抽取(Pubmed45):从文本中抽取事件。

  5. 文本生成SQL(SPIDER):根据文本描述生成对应的SQL查询语句。

这五个任务涵盖了自然语言理解、生成、推理等多个方面,可以说是对 AMRCOT 的一次全方位测试。同时,为了让实验更贴近实际应用场景,作者选择了直接使用指令微调后的 GPT-3.5 和 GPT-4 等大模型,而非针对特定任务重新训练模型。通过比较使用 AMRCOT 和直接用原始文本提示的效果差异,我们就可以判断出 AMR 在这些任务中的实际贡献有多大。

实验的结果出乎很多人的意料。在五项任务中,使用 AMRCOT 的整体效果并不比直接用原始文本提示的基线方法高多少,性能波动范围仅在-3%到1%之间。其中在 PAWS、WMT、Logic 和 Pubmed45 任务上,加入 AMR 表示后,性能反而还略有下降。只有在 SPIDER 任务上,AMRCOT 带来了0.61%的性能提升。

除此之外作者还验证了 AMR 对不同能力模型的影响,从结果上可以看出 AMR 在大多数任务和大多数模型上都会造成模型性能下降。能力比较差的模型使用 AMR 时性能下降更多,作者分析这可能是因为这些模型理解 AMR 及其特殊符号的能力有限。

乍一看这个结果似乎在说,AMR 这样的语义表示,在当前大语言模型已经如此强大的情况下,已经很难再带来显著的性能提升了。是不是意味着,我们可以彻底告别 AMR,让大模型横行天下了呢?

但作者进一步的分析发现,事情并非如此简单。虽然整体性能提升有限,但细粒度的分析表明在某些特定类型的样本上,AMRCOT 还是能发挥独特的作用。这就像是一支部队的整体战斗力可能和另一支旗鼓相当,但在特定地形和特定兵种上,双方的表现可能有很大差异。

那么,究竟是哪些样本让 AMRCOT 大显身手呢?AMR 和大语言模型的组合,未来还有哪些可能的突破口?让我们继续读下去一探究竟。

原来 AMR 在这些地方能发光发热!

尽管使用 AMRCOT 对五项任务的整体性能提升有限,但当研究人员将目光聚焦到更细粒度的样本层面时,却发现了一些有趣的现象。

在语义相似性判断(PAWS)和机器翻译(WMT)任务中,虽然总体指标略有下降,但仍有36%左右的样本在使用 AMRCOT 发生了变化。这引起了研究人员的兴趣:是什么特点让这些样本从结构化语义表示中获益呢?

通过进一步的实验,作者深入探究了 AMR 在什么情况下能够帮助提升模型性能,而在什么情况下会降低模型性能。

首先,作者通过一个案例研究说明了 AMR 在处理多词表达(Multi-word Expressions, MWE)时的局限性。作者以"swan song"(绝唱)这个 MWE 为例,说明 AMR 无法正确表示其语义,导致在涉及MWE的语义相似性任务中模型性能反而下降。

接下来,作者进行了大规模的文本特征分析,试图找出 AMR 表现出优势和劣势的样本特点。通过计算各种语言学特征与 AMR 效果提升的相关性,作者发现 AMR 在处理包含形容词、复杂词汇和状语从句的语句时更有帮助,而在处理包含命名实体、数字和第三人称代词的语句时效果欠佳。

最后,作者将 AMR 效果提升建模为一个二分类任务,使用各种机器学习模型(如随机森林、XGBoost、BERT等),尝试根据输入文本的特征来预测 AMR 是否有帮助。实验结果表明,基于语言学特征的模型能达到32.67%的F1值,而基于 BERT 等神经网络的模型能将F1值提高到33.83%。不过作者也指出,目前的预测性能还不够理想,未来还需要更多的数据和更精妙的建模方法。

为了进一步验证 AMR 的作用,研究人员还设计了一个有趣的实验:如果我们用 gold AMR (即人工标注的准确 AMR)替换自动解析的 AMR,结果会不会更好?毕竟当前的 AMR 解析器准确率还不够高,解析错误可能会误导模型。出乎意料的是,在命名实体识别任务上,使用自动 AMR 和 gold AMR 的效果相差无几!这提示我们,提升 AMR 解析器性能可能不是当务之急,更重要的是探索如何将AMR的结构化信息与大模型的学习能力更好地结合。

总的来说,这些细粒度的分析让我们看到,尽管 AMRCOT 整体效果平平,但在处理某些富有挑战的语言现象上的确展现出了它的独特价值。未来如果我们能够找到更好的方式,将知识和数据驱动的方法融合,不仅是 AMR,其他的语言学知识或许也能在大语言模型时代重放异彩,让人工智能的语言理解和应用更上一层楼。

大语言模型时代,传统语言学还有立足之地吗?

这项研究基于细致入微的实证分析,为传统语义表示 AMR 在当下大语言模型时代探索出了一条崭新的发展路径。尽管 AMR 在提升大模型整体性能上效果有限,但在处理某些富有挑战的语言现象时,其结构化的语义信息却展现出了独特的价值,这无疑为研究者们如何在传统语言学知识和前沿语言模型之间寻找平衡提供了宝贵的启示。

站在更高的层面来看,这项工作也引发了我们对传统语言学和现代人工智能关系的思考。在人工智能飞速发展的今天,传统语言学知识如何与大数据、大模型相结合,找到自己新的定位和价值?这是一个亟需持续关注、深入研究的重要课题。这篇文章虽然聚焦于 AMR 和大语言模型,但其思考模式具有一定的普适性。它启发我们,传统语言学和现代人工智能或许并非你死我活的关系,而是可以互补共生、相得益彰的。

期待在不久的将来,能看到更多继承这一思路的探索性研究,进一步拓展传统语言学赋能智能时代的路径,为人工智能的理论升级和应用创新,注入源源不断的营养。或许,传统语言学和大语言模型终会殊途同归,共同服务于人类对语言奥秘的探索和应用。或许,这个时代正在到来!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3030156.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

使用GitLab自带的CI/CD功能在K8S集群里部署项目(四)

前置内容: 通过Docker Compose部署GitLab和GitLab Runner(一) 使用GitLab自带的CI/CD功能在本地部署项目(二) 使用GitLab自带的CI/CD功能在远程服务器部署项目(三) 一、K8S集群信息 节点名称…

Capl中的运算符

Capl中的运算符类似于C语言。由于capl中没有指针的概念,所以没有指针取值,取地址等运算符。 Capl中的运算符优先级同C语言一样,同样小括号可以 提升优先级。 1.算数运算符 整数类型之间的数据进行除法运算,结果一定是整数。如果…

【17-Ⅰ】Head First Java 学习笔记

HeadFirst Java 本人有C语言基础,通过阅读Java廖雪峰网站,简单速成了java,但对其中一些入门概念有所疏漏,阅读本书以弥补。 第一章 Java入门 第二章 面向对象 第三章 变量 第四章 方法操作实例变量 第五章 程序实战 第六章 Java…

java中的oop(一)、概念

一、三大主线 (非官方) 成员:属性、方法、构造器、(代码块,内部类); 特征:封装、继承、多态、(抽象)——三大特征; 关键字: this、…

如何使用openEuler 22.03 配置mail.rc给邮箱发送邮件

目录 需求环境总体步骤梳理详细步骤1. 安装mailx软件包(centos默认安装,openEuler不默认安装)2. 检查是否能ping得到smtp服务器3. 在qq邮箱开启smtp设置4. 修改/etc/mail.rc文件5. 测试 可能遇到的问题 需求 希望检查每日的备份和系统运行记…

【Vulhub靶场】Nginx 中间件漏洞复现

【Vulhub靶场】Nginx 中间件漏洞复现 一、Nginx 文件名逻辑漏洞(CVE-2013-4547)1. 影响版本2. 漏洞原理3. 漏洞复现 二、Nginx越界读取缓存漏洞(CVE-2017-7529)1. 漏洞详情2. 影响版本3. 漏洞复现 三、Nginx 配置错误导致漏洞&…

1013: 哈希表(开放定址法处理冲突)

解法: 线性探测是一种解决哈希冲突的方法,当发生哈希冲突时,它会依次往后查找空的槽位,直到找到一个空的槽位或者达到数组的末尾。 下面是处理哈希冲突的线性探测的步骤: 创建一个哈希表,里面包含一定数量的…

Oracle数据库如何插入平方(²)立方(³)字符

第一步:创建数据表,字段一定要是NVARCHAR2类型的 第二步,插入数据用 unistr(1\00b3) 形式的写法 00b3 代表m,00b2代表㎡ SELECT * FROM TESTABC; UPDATE TESTABC set NAME1unistr(1\00b3); UPDATE TESTABC set NAME2unistr(2\00b2…

python从0开始学习(五)

目录 前言 1、顺序结构 2、选择结构 2.1双分支结构 2.2多分枝结构 2.3嵌套使用 2.4多个条件的链接 总结 前言 在上篇文章中,我们学习了python中的运算符,本篇文章继续往下讲解。本篇文章主要讲解程序的组织结构。 1、顺序结构 顺序结构是程序按照…

图片转图标(ICO)的工具软件

目前常用的ICO转换方式大多都是网页在线转换,没网就无法使用了。自己编写了一款小软件,可以将各种格式图片转为ICO图标。 目前支持PNG,BMP,JPG,JPEG,GIF等格式的图片转换成ICO,支持的尺寸有常用的16*16,24*24,32*32&am…

【MySQL基本查询(下)】

文章目录 一、update案例 二、Delete案例注意:delete 全表数据的行为慎用!truncate 三、插入查询结果案例 四、了解一些函数1.count函数2.sum函数3. avg函数4.max函数5. min函数 五、group by子句的使用案例having和where 一、update 该关键字的功能就是…

探索 Joomla! CMS:打造个性化网站的利器

上周我们的Hostease客户咨询建站服务。他想要用Joomla建站。Hostease提供免费安装Joomla CMS服务。这可以让客户搭建网站变得更加简单和高效。下面是针对Joomla建站的一些使用心得。 Joomla CMS是一款开放自由的软件,为用户提供了创建和维护网站的自由度。它经过全…

单调栈:(C++)

在题目的要求中,存在先进后出(即在前面的数据需要遍历到后面的某一数据时才能确定计算值)单调栈在一部分解题场景中避免了暴力解法的高时间复杂度问题,但是在做题过程中视情况而定,有些题目的最优解不一定使用单调栈&a…

多维点分布的均匀性评估方法(NDD和Voronoi 图法)

评估多维点分布的均匀性是统计学和数据科学中的一个重要问题,特别是在模拟、空间分析和样本设计等领域。下面,我将详细介绍2种评估多维点分布均匀性的方法,包括它们的数学原理、实现公式以及各自的优缺点。 1. 最近邻距离法(Neare…

复习了好久的软考中项,现在上半年不考了,该怎么办?

如果有更多学习时间的话,可以考虑报考高级职称,因为高级和中级职称的很多知识点有重叠,只需要再复习一下相关论文就可以了。 从2024年下半年开始,集成考试将采用最新版教材和大纲,与高级职称的新版教材内容相似度很高…

深入浅出JavaScript继承机制:解密原型、原型链与面向对象实战攻略

🔥 个人主页:空白诗 文章目录 🔥 引言🧱 原型基础⛓️ 原型链的形成🔄 修改原型的影响🏁 原型链的尽头为什么null标志着结束?实际意义 🌐 🔄 继承的实现方式1. 原型链继承…

海外仓管理系统:为什么推荐基于云的SaaS模式,而不是本地部署

海外仓管理系统 是 海外仓 企业 使用 最多 的 软件 , 根据 公开 的 行业 数据 显示 , 几乎 8 4 % 的 海外仓 企业 都会 通过 海外仓 管理系统 来 管理 仓储 。 然而,市场上存在很多不同类型的海外仓管理系统可以选择,归结起来有两…

【Web】2023浙江大学生省赛初赛 secObj 题解

目录 step 0 step 1 step 2 step 3 题目本身是不难,简单复健一下 step 0 pom依赖就是spring 反序列化入口在./admin/user/readObj 输入流做了黑名单的过滤,TemplatesImpl不能直接打 可以jackson打SignedObject二次反序列化绕过 具体原理看下面这…

哪里有视频素材可以用?全视频素材都在哪里找?

在这个数字化快速发展的世界中,高清和4K视频素材对于提升视觉故事的品质至关重要。以下是一系列全球知名的视频素材网站,它们提供的高质量素材能够满足您从商业广告到个人项目的所有需求。 1. 蛙学府 以其庞大的创意资源库著称,订阅者可以无…

1.基于python的单细胞数据预处理-归一化

目录 归一化的引入移位对数皮尔森近似残差两个归一化方法的总结 参考: [1] https://github.com/Starlitnightly/single_cell_tutorial [2] https://github.com/theislab/single-cell-best-practices 归一化的引入 在质量控制中,已经从数据集删除了低质…