论文阅读——Rein

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

一、引言

是一个对Domain Generalized Semantic Segmentation (DGSS)任务的视觉大模型的微调方法,即Rein。

Rein 专为 DGSS 任务量身定制,采用更少的可训练参数来利用更强大的 VFM 来实现卓越的泛化。 Rein 的核心由一组随机初始化的tokens组成,每个token都直接链接到不同的实例。这些tokens通过 VFM 特征的点积运算,生成类似注意力的相似性图。该图使 Rein 能够针对图像中的每个实例执行精确的细化,从而显着增强 DGSS 背景下的 VFM。此外,为了减少可训练参数的数量,我们在不同层的 MLP 之间采用共享权重,并通过将两个低秩矩阵相乘来设计可学习的令牌。

主要贡献:

我们首先在领域广义语义分割(DGSS)的背景下评估各种视觉基础模型(VFM)。我们在 DGSS 框架中进行的广泛实验凸显了 VFM 令人印象深刻的泛化能力。研究结果证实,VFM 可以作为更强大的支柱,从而在该领域建立了重要的基准。

我们提出了一种强大的微调方法,即“Rein”,以参数有效地利用VFM。 Rein 的核心由一组可学习的令牌组成,每个token都直接链接到不同的实例。通过深思熟虑的设计,这种链接使 Rein 能够在每个骨干层内的实例级别细化特征图。因此,Rein 增强了 VFM 在 DGSS 任务中的能力,用更少的可训练参数实现这一目标,同时保留预先训练的知识。

跨各种DGSS 设置的综合实验表明,Rein 采用更少的可训练参数来有效利用更强的VFM 来实现卓越的通用性。该性能大幅超越现有的 DGSS 方法。值得注意的是,Rein 旨在与现有的普通视觉 Transformer 平滑集成,提高其泛化能力并使训练更加高效。

二、相关工作:

DGSS:领域广义语义分割。领域广义语义分割(DGSS)专注于增强模型的通用性。该领域通常涉及在一组源域数据上训练模型,以增强其在不同的和不可见的目标域数据集上的性能。已经提出了各种方法来解决DGSS中的这个问题,代表性的方法包括将学习到的特征分成域不变和域特定的组件,或者采用元特征学习训练更强大的模型。 DGSS 中的标准场景是从一个城市场景数据集推广到另一个城市场景数据集,例如,从合成 GTAV 数据集推广到现实世界的城市景观。

参数高效的微调:

在 NLP 领域,参数高效微调(PEFT)通过冻结基础模型的大部分参数并微调少数参数,取得了显着的成功。已经引入了各种策略,例如 BitFit,它仅调整模型的偏差项,或仅调整这些项的子集;Prompt-tuning,它学习软提示来调节冻结的语言模型以执行特定的下游任务;Adapter-tuning,在每个 Transformer 层中包含额外的轻量级模块;值得注意的是,LoRA,它将可训练的秩分解矩阵注入到 Transformer 架构的每一层中,产生了显着的影响。 PEFT 方法也在计算机视觉领域获得关注,例如 Visual Prompt Tuning,它将提示预先添加到 Transformer 层的输入序列中以进行微调,以及 AdaptFormer,它将 Transformer 编码器中的 MLP 块替换为包含两个子分支的 AdaptMLP。然而,这些方法主要针对分类任务进行调整,其中每张图像仅包含一个要识别的目标。我们的努力是针对分割任务量身定制的,为图像中的每个实例在对象级别细化特征图,从而实现卓越的性能。

三、方法

在主干内的各层之间嵌入一种名为“Rein”的机制。 Rein 主动细化特征图并将其从每一层转发到后续一层。这种方法使我们能够更有效地利用 VFM 的强大功能,就像使用缰绳控制马一样。

Core of Rein

Rein有一组可学习的tokens,Ti是随机初始化的,m表示Ti的序列长度。

计算每个token Ti 和VLM特征fi的相似度:

对齐:

Details of Rein

Layer-shared MLP weights.

Low-rank token sequence.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2869427.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Segment Routing IPv6简介

定义 SRv6(Segment Routing IPv6,基于IPv6转发平面的段路由)是基于源路由理念而设计的在网络上转发IPv6数据包的一种协议。SRv6通过在IPv6报文中插入一个路由扩展头SRH(Segment Routing Header),在SRH中压…

Tomcat Session 集群 ---------会话保持

一、 负载均衡、反向代理 环境搭建: nginx服务器192.168.246.7 tomcat 1服务器192.168.246.8 tomcat 2服务器192.168.246.9 7-1 nginx服务器搭建 [rootzzcentos1 ~]#systemctl stop firewalld [rootzzcentos1 ~]#setenforce 0 [rootzzcentos1 ~]#yum install …

计算机网络——物理层(编码与调制)

计算机网络——编码与调制 基带信号和宽带信号编码与调制数字数据编码为数字信号非归零编码归零编码反向不归零编码曼彻斯特编码差分曼彻斯特编码4B/5B编码 数字数据调制为模拟信号模拟数据编码为数字信号模拟数据调制为模拟信号 我们之前讲了物理层的一些基础知识和两个准则&a…

4.MongoDB中16个常用CURD

基本的CURD 作为一个非专业的DBA,我们只需要会一些基本的curd就行,专业的内容还是需要专业的人去干的。CRUD 也就是增删改查,这是数据库最基本的功能,查询还支持全文检索,GEO 地理位置查询等。 01创建库 无需单独创…

以题为例浅谈文件包含

什么叫做文件包含 文件包含函数加载的参数没有经过过滤或严格定义,可以被用户控制, 包含其他恶意文件,导致了执行非预期代码。 文件包含漏洞(File Inclusion Vulnerability)是一种常见的网络安全漏洞,它允…

Linux中 vim 编辑器的使用

文章目录 前言一、vim编辑器模式二、简单的插入、保存和退出三、 命令模式下常用命令即其作用1. 命令模式 思维导图 前言 首先,了解一下 什么是vim 编辑器?在不同的系统中,文本的管理也会不同;windos系统就不多说了&#xff0c…

unity内存优化之AB包篇(微信小游戏)

1.搭建资源服务器使用(HFS软件(https://www.pianshen.com/article/54621708008/)) using System.Collections; using System.Collections.Generic; using UnityEngine;using System;public class Singleton<T> where T : class, new() {private static readonly Lazy<…

idea将非UTF-8的properties修改为UTF-8编码的文件

需求背景 由于项目初始化时&#xff0c;properties文件的编码格式为ASCII编码格式&#xff0c;此时用idea打开该文件会默认展示UTF-8的编码内容&#xff0c;其中汉字可以正常展示&#xff0c;但是使用notepad打开却依旧时ASCII编码格式 idea配置 打开idea-setting-editor-f…

力扣112、113、101--树

112. 路径总和 题目描述&#xff1a; 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。 判断该树中是否存在 根节点到叶子节点 的路径&#xff0c;这条路径上所有节点值相加等于目标和 targetSum 。 如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c…

hcia复习总结7

1&#xff0c;AR2发送2.0网段的信息给AR1&#xff0c;如果&#xff0c;AR1本身并不存在该网段的路由 信息&#xff0c;则将直接 刷新 到本地的路由表中。 Destination/Mask Proto Pre Cost Flags NextHop Interface 2.2.2.0/24 RIP 100…

多媒体会议系统的优势与核心组成

随着科技的发展&#xff0c;多媒体会议系统已经成为现代商务沟通的重要工具。这种集成了多种通信和信息技术的系统&#xff0c;旨在提高会议的效率和参与度&#xff0c;具有诸多优势。本文将对多媒体会议系统进行详细的介绍和分析&#xff0c;并探讨其对现代商务沟通的影响。 …

切面条-蓝桥杯?-Lua 中文代码解题第1题

切面条-蓝桥杯&#xff1f;-Lua 中文代码解题第1题 一根高筋拉面&#xff0c;中间切一刀&#xff0c;可以得到2根面条。 如果先对折1次&#xff0c;中间切一刀&#xff0c;可以得到3根面条。 如果连续对折2次&#xff0c;中间切一刀&#xff0c;可以得到5根面条。 那么&#xf…

【代码随想录】【回溯算法】补day24:组合问题以及组合的优化

回溯算法&#xff1a;递归函数里面嵌套着for循环 给定两个整数 n 和 k&#xff0c;返回 1 … n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4], ] 包含组合问题和组合问题的剪枝优化 class solution:def combine(se…

python入门(二)

python的安装很方便&#xff0c;我们这里就不再进行讲解&#xff0c;大家可以自己去搜索视频。下面分享一下Python的入门知识点。 执行命令的方式 在安装好python后&#xff0c;有两种方式可以执行命令&#xff1a; 命令行程序文件&#xff0c;后缀名为.py 对于命令行&…

VMware Worksation 问题

几个晚上在虚拟机装了好多东西&#xff0c;配置mysql&#xff0c;配置docker、Git工具等等&#xff0c;可能废寝忘食导致太困强制关了虚拟机&#xff0c;结果第二天晚上回来发现打不开&#xff0c;心态直接崩了。 问题&#xff1a; 疯狂百度告知要删除后缀为.lck的文件夹及文件…

深度学习-解读GoogleNet深度学习网络

深度学习-解读GoogleNet深度学习网络 深度学习中&#xff0c;经典网络引领一波又一波的技术革命&#xff0c;从LetNet到当前最火的GPT所用的Transformer&#xff0c;它们把AI技术不断推向高潮。2012年AlexNet大放异彩&#xff0c;它把深度学习技术引领第一个高峰&#xff0c;打…

【GitHub】使用git链接下载很慢?试试服务器配置SSH,起飞

参考文献 保姆级教学&#xff0c;教你用配置SSH拉取github代码 CentOS ssh -T gitgithub.comgit config --global user.name "learnore" git config --global user.email "15200831505163.com"cd /root/.ssh vim id_rsa.pubGitHub Settings 结果 下载速…

部署一个本地的ChatGPT(Ollama)

一 下载Ollama Ollama下载地址&#xff1a;https://ollama.com/download 下载完后 二 安装运行 双击下载好的OllamaSetup.exe开发 安装Ollama: 安装完成后&#xff0c;多了一个Ollama的菜单如下图 &#xff1a; Ollama安装好默认是配置开机运行&#xff0c;如果没有运行可以在…

Java安全 CC链2分析

Java安全 CC链2分析 cc链2介绍前置知识环境配置类加载机制 触发流程cc链2POCcc链2分析 cc链2介绍 CC2链适用于Apache common collection 4.0版本&#xff0c;由于该版本对AnnotationInvocationHandler类的readObject方法进行了修复&#xff0c;导致cc链1无法使用&#xff0c;故…

中文编程入门(Lua5.4.6中文版)第四章 Lua 流程控制

Lua 编程语言中的流程控制就像推塔游戏战场上的智谋队长&#xff0c;挥舞着策略之剑&#xff0c;根据战场局势&#xff08;条件语句&#xff09;的演变&#xff0c;精准地指挥团队成员执行或猛攻或防守的操作。在这场代码与逻辑的对战中&#xff0c;当判定条件亮起 “true” 的…