NesT : 嵌套层次Transformer

        探讨了在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。

        这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好处:(1)NesT收敛速度更快,需要更少的训练数据,以在ImageNet和像CIFAR这样的小数据集上实现良好的泛化;(2)当将我们的关键思想扩展到图像生成时,NesT带来了一个强大的解码器,比以前基于变压器的生成器快8倍;(3)通过设计中的这种嵌套层次结构将特征学习和抽象过程解耦,可以构建一种新的方法(称为GradCAT),用于可视化地解释学习到的模型。


1. 引言

        缺乏归纳偏差,如局部性和平移等方差,是ViT模型数据效率低下的一个解释。Transformer模型以一种可变形的卷积方式学习局部行为:底层局部关注周围像素,顶层倾向于长期依赖。另一方面,高分辨率图像中像素对之间的全局自关注在计算上是昂贵的。减少自注意力范围是提高模型训练计算效率的一种方法。这些类型的见解与具有局部自注意力和层次transformer的最新结构一致,而不是整体的全局自注意力,它们对局部图像补丁进行关注。为了促进补丁间的信息交流,提出了专门的设计,如“光晕操作”和“移位窗口”。这些都是基于修改自注意力机制,并且在复杂的体系结构中经常产生。另一方面,设计目标保持原有的关注,引入聚合功能的设计,提高数据的准确性和效率,同时带来可解释性的好处。

        NesT模型通过堆叠规范Transformer Blocks来单独处理不重叠的图像块。跨块自注意力是通过分层嵌套这些Transformer 并将它们与建议的聚合函数连接来实现的。图1说明了整个体系结构和生成它的简单伪代码。

(左)嵌套变压器层次结构的NesT示意图;(右)生成架构的简单伪代码。每个节点t1处理一个图像块。在层次之间进行块聚合(这里的num hierarchy= 3),实现图像(feature map)平面上的跨块通信。

        将分层嵌套的 Transformer 与所提出的块聚合函数集成可以优于以前复杂的(局部)自注意力变体,从而大大简化了体系结构并提高了数据效率。

        NesT通过显著简化的架构设计实现了令人印象深刻的ImageNet分类精度。与流行的卷积架构相比,NesT在小数据集上实现了匹配的精度。当将这一思想从分类扩展到图像生成时,NesT可以被重新用于强大的解码器,该解码器可以获得比卷积架构更好的性能,同时具有相当的速度。

        提出了一种名为GradCAT的新方法,通过遍历其树状结构来解释NesT的推理过程。这提供了一种新的视觉可解释性,解释了聚合局部变形器如何选择性地处理来自语义图像补丁的局部视觉线索。

2. 相关工作

        基于Vision Transformer 的模型面临的一个挑战是数据效率。虽然原始的ViT在预训练时使用数亿张图像时性能优于卷积网络,但这种数据需求并不总是实际可行的。数据高效的ViT(DeiT)(Touvron et al 2021a,b)试图通过引入来自卷积网络的 教师蒸馏 来解决这个问题。尽管这种方法很有前景,但它增加了监督训练的复杂性,并且在数据高效基准测试(Hassani et al 2021; Chen et al 2021)上的现有报告性能仍然显著低于卷积网络。

        由于ViT已显示出在图像分类以外的视觉任务上的改进,之前的工作研究了其在生成建模、视频理解、分割和检测、可解释性等方面的适用性。

3. 提出的方法

3.1 主要架构

        总体设计是堆叠规范 transformer 层,对每个图像块独立进行局部自注意力,然后分层嵌套。通过在每两个层次之间提出的块聚合来实现空间相邻块之间处理信息的耦合。

        整体层次结构可由两个关键超参数确定:补丁大小S × S和块层次数T_d。每个层次结构中的所有块共享一组参数。


        首先,给定一个形状为H × W × 3的图像作为输入,其中H是高度,W是宽度,3代表RGB三个颜色通道。该模型将图像分割成大小为S × S的图像块(或称为“patches”)。每个这样的图像块都被线性投影(即,通过一个线性层转换)到一个R^d 维的嵌入向量中,其中R^d 表示 d 维实数空间。

        接下来,所有的这些嵌入向量被组织成块(blocks),并展平以生成一个输入张量X,其形状为 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3226207.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【Spring Boot 教程:从入门到精通】掌握 Spring Boot 开发技巧与窍门(一)-java语法(1)

一些Java基本语法的基本介绍,语法更新结束会紧跟项目实战,后续会持续在该专栏进行更新!!! 目录 前言 一、基本概念 1.JDK、JRE、JVM的关系: 2.JDK版本选择 3.Java代码的编译运行流程 4.JSE、JEE、J…

SolidWorks滚花螺栓制作-cnblog

目标 规划基准图形 确定尺寸,单位mm 我 对固定好的图形进行旋转 倒角 设置螺纹 注意改变深度为15mm 收尾位置补全 滚花 建立基准面 制作多边形 添加穿透 扫描切除 圆周阵列 成品完成

[AI 快手 LivePortrait] 引领高效肖像动画新时代

快手推出了 LivePortrait,具有拼接和重定向控制的高效肖像动画。 快速开始 下载代码,准备环境 git clone https://github.com/KwaiVGI/LivePortrait cd LivePortrait# create env using conda conda create -n LivePortrait python3.9.18 conda activ…

Data-Juicer:阿里巴巴荣誉出品的大模型数据清洗框架

Diffusion Models专栏文章汇总:入门与实战 前言:如何优雅地进行大规模数据清洗是一门艺术,特别对于大模型,数据的质量是决定模型成功最关键的因素之一。阿里巴巴最近开源了一项专门针对大语言模型和视频生成大模型的数据清洗框架,值得关注! 目录 主要特点 数据处理 分…

移动校园(9):uniapp照片上传,以及从nodejs服务器获取照片

后端: 安装中间件multer,刚好对应前端提交数据 npm install --save multer Multer详解(Node.js中间件)-CSDN博客 一直这样 又看了二个小时,搜遍全网,改了又改,各种测试,终于让我发现了问题&a…

什么是数据同步服务RSYNC?

大家好呀!这里是码农后端。今天来介绍一下数据同步服务RSYNC,作为Linux/Unix系统中远程或本地复制同步(复制)文件和目录最常用的命令,相比于scp命令,其具有增量备份、数据同步时保持文件的原有属性等优点。…

制作电子名片的小程序系统源码 快速生成电子名片

在当今数字化时代,传统的纸质名片已逐渐被智能电子名片所取代。电子名片小程序作为一种基于微信生态的创新名片交换方式,凭借其便捷性、高效性和环保性,成为了众多商务人士的首选。小编分享一个制作电子名片的小程序系统源码,无忧…

GitHub 站点打不开

遇到的问题 您是否遇到过GitHub网站打不开的情况,正如下图所示: 解决方案 以下是一些常见的解决方案: 1. 检查网络连接 确保你的设备已连接到互联网。尝试访问其他网站,确保不是你的网络问题。 C:\Vinca>ping github.…

Groovy vs Kotlin 在Gradle配置文件中的差异与选择

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

ArkUI开发学习随机——B站视频简介页面,美团购买界面

案例一:B站视频简介页面 代码: build() {Column(){Column(){Stack(){Image($r("app.media.genimpact")).width(200).height(125).borderRadius({topLeft:5,topRight:5})Row(){Image($r("app.media.bz_play")).height(24).fillColor…

【独家揭秘】视频号矩阵系统火爆上线,一键式多平台管理,你的内容营销神器!

在信息爆炸的时代,内容创作者们面临着前所未有的挑战与机遇。如何让自己的内容在众多平台中脱颖而出,快速传播并吸引大量观众,成为了每个创作者关注的焦点。近日,一款名为“迅狐视频号矩阵系统”的神器震撼来袭,它以其…

全面解析BPMN、CMMN、DMN与XML

欢迎来到我的博客,代码的世界里,每一行都是一个故事 🎏:你只管努力,剩下的交给时间 🏠 :小破站 全面解析BPMN、CMMN、DMN与XML 前言BPMN(业务流程模型与标记法)定义与用途…

【Python】已解决:SyntaxError invalid syntax

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:SyntaxError invalid syntax 一、分析问题背景 在Python编程中,SyntaxError: invalid syntax是一个常见的错误,它通常表示代码中存在语法…

GLM4大模型微调入门实战-命名实体识别(NER)任务

[GLM4]是清华智谱团队最近开源的大语言模型。 以GLM4作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。 显存要求相对较高,需要40GB左右。 知识点1&…

【Python】已解决:ModuleNotFoundError: No module named ‘pip‘(重新安装pip的两种方式)

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例 四、重新安装pip的两种方式方式一:使用get-pip.py脚本方式二:使用ensurepip模块五、注意事项 已解决:ModuleNotFoundError: No module named ‘pip’(重新安装pip的…

30. 01背包问题 二维,01背包问题 一维,416.分割等和子集

背包问题分类: 1、确定dp数组以及下标的含义对于背包问题,有一种写法, 是使用二维数组,即dp[i][j] 表示从下标为[0-i]的物品里任意取,放进容量为j的背包,价值总和最大是多少。2、确定递推公式,…

护佑未来!引领儿童安全新时代的AI大模型

引领儿童安全新时代的AI大模型 一. 前言1.1 AI在儿童安全方面的潜在作用1.2 实时监控与预警1.3 个性化安全教育与引导1.4 家长监护与安全意识提升 二. AI大模型的优势2.1. 保护儿童隐私和安全的重要性2.2. AI大模型如何应用于儿童安全领域2.1 儿童内容过滤2.2.1 儿童行为监测 2…

Redis实战—秒杀优化(Redis消息队列)

回顾 我们回顾一下前文下单的流程,当用户发起请求,此时会请求nginx,nginx会访问到tomcat,而tomcat中的程序,会进行串行操作,分成如下几个步骤。 1、查询优惠卷 2、判断秒杀库存是否足够 …

简要描述C++ Memory Order

现代CPU基本都是多核CPU,基本都具备多线程能力。而涉及到多线程一定会涉及到多线程共享资源数据竞争的问题。如果对竞争资源不加以保护或者针对多线程访问的管理就会出现不同线程读取数据不一致或者更加严重的问题。C标准库提供了互斥锁(std::mutex&…

利用外部知识增强的LEMMA模型:提升多模态虚假信息检测的LVLM方法

LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation https://arxiv.org/abs/2402.11943https://arxiv.org/abs/2402.11943 1.概述 多模态虚假信息通过综合文字、图像和视频等多元化形式,在社交平台上的传播过程中,相…