文献阅读:Transformers are Multi-State RNNs

  • 文献阅读:Transformers are Multi-State RNNs
    • 1. 内容简介
    • 2. 方法介绍
      • 1. 基础回顾
        • 1. RNN
        • 2. Transformer
      • 2. Transformer解构
        • 1. MSRNN
        • 2. Transformer
      • 3. TOVA
        • 1. 现有转换策略
        • 2. TOVA
    • 3. 实验考察 & 结论
      • 1. 实验设计
      • 2. 实验结果
        • 1. LM
        • 2. 长文本理解
        • 3. 文本生成
      • 3. 细节考察
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2401.06104
  • GitHub链接:https://github.com/schwartz-lab-NLP/TOVA

1. 内容简介

这篇文章是今年1月Meta发表的一篇对Transformer的解构工作。

它对Transformer进行了更深入的解析和考察,发现Transformer的self attention机制等价于一个无限状态的MSRNN(multi-state RNN),并在此基础上对MSRNN进行了优化,提出了一个TOVA的MSRNN压缩策略,使之效果超过了其他的MSRNN,并能够与Transformer本身相提并论。而在内存方面,则显著优于经典的Transformer模型。

在这里插入图片描述

下面,我们就来具体看一下文中对于Transformer的具体考察以及文中提出的TOVA方法究竟是怎样的一个设计思路。

2. 方法介绍

1. 基础回顾

在解构Transformer以及引入TOVA之前,文中首先回顾了一下RNN和Transformer本身,这里,为了保持文章在结构上的完整性,我们也简略的回顾一下RNN和Transformer本身。

1. RNN

首先的话,RNN的话是一个迭代的解构,模型本身维护一个隐态 h t h_t ht,然后根据输入 x t x_t xt进行迭代:

x t l + 1 , h t l = f ( x t l , h t − 1 l ) x_t^{l+1}, h_{t}^{l} = f(x_t^l, h_{t-1}^l) xtl+1,htl=f(xtl,ht1l)

2. Transformer

Transformer的话则是self-attention的解构,具体表达式如下:

X l + 1 = F F N ( A t t n ( X l ) ) = F F N ( S o f t m a x ( Q l ⋅ ( K l ) T ) ⋅ V l ) \begin{aligned} X^{l+1} &= \mathop{FFN}(\mathop{Attn}(X^l)) \\ &= \mathop{FFN}(\mathop{Softmax}(Q^l\cdot (K^l)^T) \cdot V^l) \end{aligned} Xl+1=FFN(Attn(Xl))=FFN(Softmax(Ql(Kl)T)Vl)

2. Transformer解构

有了上面的基础,我们来看一下文中是如何说明Transformer的本质就是一个无线state的MSRNN的。

我们将分两部分来说明这个问题:

  1. MSRNN是什么
  2. Transformer怎么对应到一个MSRNN

下面,我们来看一下文中对于这两个问题的回答。

1. MSRNN

首先,我们来看一下MSRNN是什么,本质上来说,MSRNN还是一个RNN,不过RNN当中的隐态是一个向量,而MSRNN则是用一个矩阵来替代向量,直观上理解就是有多个隐态,即multi-state。

用公式表达即为:

x t l + 1 , H t l = f ( x t l , H t − 1 l ) x_t^{l+1}, H_{t}^{l} = f(x_t^l, H_{t-1}^l) xtl+1,Htl=f(xtl,Ht1l)

2. Transformer

然后,我们再来看一下Transformer,如前所述,Transformer的每一个module可以写为:

X l + 1 = F F N ( S o f t m a x ( Q l ⋅ ( K l ) T ) ⋅ V l ) X^{l+1} = \mathop{FFN}(\mathop{Softmax}(Q^l\cdot (K^l)^T) \cdot V^l) Xl+1=FFN(Softmax(Ql(Kl)T)Vl)

我们可以将其重写为:

x t l + 1 = F F N ( S o f t m a x ( q t l ⋅ ( K t l ) T ) ⋅ V t l ) x_{t}^{l+1} = \mathop{FFN}(\mathop{Softmax}(q_t^l\cdot (K_t^l)^T) \cdot V_t^l) xtl+1=FFN(Softmax(qtl(Ktl)T)Vtl)

亦即:

x t l + 1 , ( K t l , V t l ) = f l ( x t l , ( K t l , V t l ) ) x_{t}^{l+1}, (K_t^l, V_t^l) = f^l(x_t^l, (K_t^l, V_t^l)) xtl+1,(Ktl,Vtl)=fl(xtl,(Ktl,Vtl))

因此,从定义式上来看,Transformer确实可以理解为无限维度的MSRNN。

3. TOVA

综上,我们已经可以发现,在形式上而言,Transformer可以视为一个无限state的MSRNN,但是无限state显然在实现层面并不现实,因此,要想要真正将其对应到MSRNN,我们需要一个无限维转换为有限维的转换策略。

文中的话也是首先讨论了一下现有的几个转换的方法,然后在此基础上提出了他们自己的转换方法,即他们所谓的TOVA方法。

下面,我们来具体看一下这两部分的内容。

1. 现有转换策略

首先,我们来看一下当前已有的一些无限维转有限维的策略,文中主要给出了三种方法:

  1. Window
    • 只保留最后k个token
  2. Window + i
    • 保留最后k个token以及头部的i个token
  3. H 2 O H_2O H2O
    • 保留最后k个token,然后动态通过attention score额外多保留i个token
2. TOVA

然后,我们来看一下文中提出的TOVA方法,其全称为Token Omission Via
Attention (TOVA),思路上其实也很直接,就是直接通过attention score选择attention score最高的k个token进行保留,文中给出示意图如下:

在这里插入图片描述

3. 实验考察 & 结论

下面,我们来考察一下文中的实验结果。

我们将分以下几个部分对文中的内容进行一下整理:

  1. 文中的实验设计
  2. 具体的实验结果
  3. TOVA的拆解实验

1. 实验设计

首先,我们来看一下文中的实验设计,主要包括两部分的内容:

  1. 具体采用的实验
  2. 实验中使用的模型

其中,关于文中具体采用的实验的话,主要是长文本上的实验,包括:

  1. LM的ppl考察
  2. 长文本的理解实验
  3. 文本生成任务

而关于文中使用的模型的话,文中主要使用了以下三类模型:

  1. LLama-2-7B
  2. Mistral-7B
  3. Yi-7B

2. 实验结果

下面,我们来看一下文中给出的具体实验结果。

1. LM

首先,关于Language Model的ppl,文中得到结果如下:

在这里插入图片描述

可以看到:

  • 在各类策略下,TOVA能够获得最好的效果表达,且在各个模型下都有一致的结论。
2. 长文本理解

文中关于长文本当中理解任务的实验结果则如下所示:

在这里插入图片描述

可以看到:

  • 无论是在长文本概括任务还是长文本QA任务当中,TOVA的效果都显著优于其他的转换策略。
  • 同样的,在长文本理解任务当中,TOVA同样在不同的模型当中都有一致的有效性表达。
3. 文本生成

最后,文中还在生成任务当中对TOVA的效果进行了一下考察,具体来说的话,就是令TOVA和GPT4分别进行生成,然后交给人来标注对比结果的好坏,得到结果如下:

在这里插入图片描述

可以看到:

  • 随着文本的增长,TOVA的效果逐步追上GPT4,说明TOVA在长文本下确实有效,且效果拔群。

3. 细节考察

然后,除了对于TOVA效果的基础考察,文中还对TOVA进行了细节的拆解,具体来说,主要就是考察了一下几个问题:

  1. TOVA保留的是哪些位置的token
  2. TOVA对于头部的token的留存度
  3. TOVA保留的具体是哪些token

文中得到的具体实验结果如下:

在这里插入图片描述

在这里插入图片描述

可以看到:

  • 在图7当中,每一行代表对应的step当中参与到生成当中的token,可以看到,整体来说,邻近的token会更重要,当这也不是必然的,有时候长程的token也会参与其中,反而是短程的会被过滤掉。
  • 从图8可以看到,前25个token都悲保留了很长的距离,且第一个token尤为关键;
  • 从图9可以看到,一些标点符号类型的token会被更倾向于保留下来。

4. 总结 & 思考

综上,文中对Transformer进行了一下结构上的解构分析,发现其本质上就是一个无限维的MSRNN,且通过一定的压缩策略,可以用一个有限维的MSRNN对其进行逼近。

基于此,文中给出了一个名为TOVA的压缩策略,碾压了当前已有的其他压缩策略,并在长文本当中的效果逼近了GPT4,而在batch size方面可以扩大8倍,即效率上可以比当前的Transformer结构更好。

这个还是非常厉害的,Meta感觉确实还是做了不少基础方面的工作,不过具体TOVA策略下的MSRNN能不能干掉Transformer估计现在也说不好,毕竟文中也没有给什么直接的比较,估计效果上还是有差。

后面再看看吧,看看能不能有什么工作能够最终干掉transformer框架吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2809811.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Window部署Exceptionless

Exceptionless Elasticsearch 版本: Exceptionless:8.1.0 Elasticsearch:7.17.5 JDK:11.0.10 目录 一、Elasticsearch运行 二、 Exceptionless 一、Elasticsearch运行 bin目录下elasticsearch.bat 直接运行 访问 http://lo…

【10】知识图谱实战案例(动手做)

目录 案例1:使用neo4j构建小型金融行业知识图谱 案例2:基于金融知识图谱的问答机器人 案例3:基于金融知识图谱的企业风险挖掘 案例4:使用MRC技术完成事件抽取 案例5:基于法律领域的知识图谱 案例【6】&#xff1a…

电路设计(30)——二进制转十进制电路的Multisim仿真

1.设计要求 输入8位二进制数据,输出三位十进制,将转换后的数据显示在数码管上。 2.电路设计 此时输入为0111_1111,结果为127,正确。 3.芯片介绍 74191芯片是一款4位二进制同步上升/下降计数器,它属于TTL(…

线程普通任务执行流程

(1)先判断是否存在空闲线程,存在直接分配,不存在执行(2); (2)判断工作线程数量小于核心数量,未超出创建核心线程执行线程任务,超出执行&#xff…

k8s笔记26--快速实现prometheus监控harbor

k8s笔记26--快速实现prometheus监控harbor 简介采集指标&配置grafana面板采集指标配置grafana面板 说明 简介 harbor是当前最流行的开源容器镜像仓库项目,被大量IT团队广泛应用于生产、测试环境的项目中。本文基于Harbor、Prometheus、Grafana介绍快速实现监控…

查看ubuntu系统的版本信息(3个方法)

查看发现版本信息 lsb_release -a发行版本:Ubuntu 16.04.6 LTS 查看内核和系统位数信息 uname -a内核信息:Linux prod.aixundian.gpu-0 4.4.0-151-generic系统位数:x86_64 查看内核和编译信息 cat /proc/version内核信息:Lin…

林浩然与杨凌芸的Scala编程历险记:变量与数据类型的魔法对决

林浩然与杨凌芸的Scala编程历险记:变量与数据类型的魔法对决 在Scala世界的梦幻殿堂中,两位英勇的程序员——林浩然和杨凌芸正准备开启一场代码之旅。这次,他们将深入探索Scala王国中的变量奥秘与数据类型丛林。 一、变量声明篇 &#xff0…

【Prometheus】概念和工作原理介绍

目录 一、概述 1.1 prometheus简介 1.2 prometheus特点 1.3 prometheus架构图 1.4 prometheus组件介绍 1、Prometheus Server 2、Client Library 3、pushgateway 4、Exporters 5、Service Discovery 6、Alertmanager 7、grafana 1.5 Prometheus 数据流向 1.6 Pro…

2024国际生物发酵展览会独家解读-力诺天晟科技

参展企业介绍 北京力诺天晟科技有限公司,专业致力于智能仪器仪表制造,工业自动控制系统用传感器、变送器的研发、设计、销售和服务。 公司坐落于首都北京行政副中心-通州区,下设生产子公司位于河北香河经济开发区,厂房面积 300…

恢复软件哪个好用?记好这3个文件恢复宝藏!

“现在市面上的恢复软件太多啦!哪款恢复软件比较好用呢?大家可以给我推荐几个靠谱的恢复软件或者方法吗?感谢!” 在日常使用电脑的过程中,文件丢失或删除是一个常见的问题,而恢复软件成为解决这一问题的得力…

B端系统美观和易用上的缺失,该如何补位?

Hi,我是贝格前端工场的老司机,客户对B端系统的界面和体验要求越来越高,但是很多系统在上线之后有很多缺失,本文就列举缺失现象,给出一些补位策略,欢迎友友们支持关注我。 一、缺失的具体表现 在B端系统中…

matlab滤波器设计

1、内容简介 略 51-可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 matlab滤波器设计-butter、ellip、cheby1、cheby2_哔哩哔哩_bilibili 4、参考论文 略

【项目部署上线】宝塔部署前端Docker部署后端

【项目部署上线】宝塔部署前端&Docker部署后端 文章目录 【项目部署上线】宝塔部署前端&Docker部署后端1.安装依赖1.1 安装mysql1.2 安装Canal1.3 安装redis1.4 安装rabbitmq1.5 安装nacos 2. 部署前端3. 部署后端 1.安装依赖 1.1 安装mysql docker run -d -p 3306:3…

高效!中科院2区SCI,不到两个月录用!审稿人很给力!

【SciencePub学术】 JOURNAL OF ENVIRONMENTAL SCIENCES IF(2022):6.9,JCR1区,中科院2区 数 期刊数据指标 ISSN:1001-0742 IF(2022):6.9 自引率:4.30% 年发文量:300篇左右 国人占比&…

【其他】简易代码项目记录

1. KeypointDetection 1.1. CharPointDetection 识别字符中的俩个关键点。 1.2. Facial-keypoints-detection 用于检测人脸的68个关键点示例。 1.3. Hourglass-facekeypoints 使用基于论文Hourglass 的模型实现人体关键点检测。 1.4. Realtime-Action-Recognition containing:…

2024年2月16日优雅草蜻蜓API大数据服务中心v1.1.1大更新-UI全新大改版采用最新设计ui·增加心率计算器·退休储蓄计算·贷款还款计算器等数接口

2024年2月16日优雅草蜻蜓API大数据服务中心v1.1.1大更新-UI全新大改版采用最新设计ui增加心率计算器退休储蓄计算贷款还款计算器等数接口 更新日志 前言:本次更新中途跨越了很多个版本,其次本次ui大改版-同步实时发布教程《带9.7k预算的实战项目layuiph…

042 继承

代码实现 首先定义Person类(人类) /*** 人的基础特征** author Admin*/ public class Person {/*** 姓名*/String name;/*** 生日*/Date birthday;/*** 手机号码*/String tel;/*** 身份证号码*/String idCode;public Person() {}public Person(String …

计算机底层如何存储数据

文章目录 进制的分类二进制转十进制十进制转二进制二进制转八进制二进制转十六进制八进制十六进制转二进制各进制间的转换 计算机世界中只有二进制,所以计算机中存储和运算的所有数据都要转为二进制。包括数字、字符、图片、声音、视频等。 进制的分类 十进制&#…

如何绕过校园网?

最近可能没有什么好的话题了,会以笔记为主发博客 等我找到一些好的项目再发使用体验或教程吧 原文地址:如何绕过校园网? - Pleasure的博客 下面是正文内容: 前言 这应该是每一个大学生都会遇到的问题,宿舍中的校园…

搭建非maven spring boot项目 并且idea进行打包

1.所需jar包 2.搭建web项目 3 import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; SpringBootApplication public class SpringBootTemplateApplications { public static void main(String\[\] ar…