375FPS! 谷歌提出MaskConver“重校正用于全景分割的纯卷积模型

https://arxiv.org/2312.06052

近年来,基于Transformer的模型由于其强大的建模能力以及对语义类和实例类的统一表示为全局二值掩码,在全景分割中占据主导地位。
在本文中,我们回顾了纯粹的卷积模型,并提出了一种新的结构MaskConver,它通过预测物体和物体的中心来完全统一物体和物体的表示。在这种程度上,它创建了一个轻量级类嵌入模块,当多个中心共存于同一位置时,可以打破这种联系。

此外,我们的研究表明,解码器的设计对于确保模型具有足够的上下文以进行准确的检测和分割至关重要。我们介绍了一个功能强大的ConvNeXt-UNET解码器,它缩小了卷积和基于Transfoormer模型之间的性能差距。

  • 使用ResNet50主干,我们的MaskConver在COCO-Val集上实现了53.6%的PQ,比基于卷积的现代模型全光FCN以及基于变压器的模型(如Mask2Former(+1.7%PQ)和KMAX-DeepLab(+0.6%PQ))高出9.3%。
  • 采用MobileNet主干的MaskConver达到了37.2%的PQ,在相同的FLOPS/延迟限制下,比Panopov-DeepLab提高了+6.4%。
  • 进一步优化的MaskConver版本在移动设备上实时运行时,PQ达到29.7%。

本文方案

骨干网是典型的卷积神经网络,如ResNet和MobileNet。提出了一种新的像素解码器ConvNeXt-UNET来生成图像特征,并在其上附加预测头。我们提出了三个预测头:

  • (1)中心热图头,预测物体和物体的中心点热图;
  • (2)中心嵌入头,预测中心点的嵌入;
  • (3)掩模特征头,产生掩模特征。掩码嵌入生成器通过将top-K置信度预测中心(它们的语义类和坐标)和中心嵌入作为输入来生成掩码嵌入。

最后,通过将掩码特征与掩码嵌入相乘来获得一组二进制掩码。我们将首先解释我们的设计动机,然后在以下小节中详细说明提出的模块。

Pixel Decoder: ConvNeXt-UNet

为了弥补基于变压器的方法之间的差距,我们首先设计了一种新的像素解码器ConvNeXt-UNET,如图3所示,由现代的ConvNeXt块[53]组成,以类似于UNET[59]的方式部署来生成图像特征。值得注意的是,ConvNeXt-UNET在主干的最高级别L5(步幅32)放置了更多的ConvNeXt块。由于大型内核设计,在L5级堆叠更多的ConvNeXt块可以有效地捕获远程上下文信息和高级语义。

具体地,解码器体系结构由两个超参数定义:重复次数N=[N5,N4,N3]和信道大小D=[D5,D4,D3],从而确定从高级L5(步长32)到低级L3(步长8)的UNT结构。例如,设置N5=18和D5=384意味着在级别L5部署具有384个通道的18个ConvNeXt块。此外,我们经验上发现在ConvNeXt块(称为ConvNeXt-SE)中增加另一个压缩和激发[30]层是有效的,如图4所示,这以额外的边缘参数和可以忽略的Flop为代价提高了模型的容量。

Prediction Heads

在所提出的像素解码器生成的图像特征的基础上,我们构建了中心热图、类嵌入和掩码特征的三个预测头。

  • Light Structure of Head.不同于现有方法通常在预测头部采用3×3卷积,并对低层特征(即步长8甚至步长4)引入繁重的计算,MaskConver遵循ConvNeXt[53]的设计原则,采用大核尺寸为7×7的深度卷积
  • Center Heatmap Head.扩展了目标检测方法,提出了对物体和物体使用中心点表示的方法。实验发现,遮罩中心比包围盒中心具有更好的表示能力。中心热图头部产生形状为H i×W i×C类的特征图,其中H i和W i是特征金字塔中第i级特征图的高度和宽度,C类是语义类的数目。我们将把top-K个最有信心的预测中心点(它们的预测语义类和坐标)提供给MASK Embedding生成器。
  • Center Embedding Head。 中心嵌入头生成形状为H i×W i×C embd的中心点嵌入,其中C embd是嵌入的通道大小。其输出被馈送到掩码嵌入生成器,以收集前K个最有信心的预测中心点的K个中心嵌入(基于它们的坐标)。
  • Mask Feature Head. 扩展了目标检测方法[67,90],提出了对物体和物体使用中心点表示的方法。实验发现,遮罩中心比包围盒中心具有更好的表示能力。中心热图头部产生形状为H i×W i×C类的特征图,其中H i和W i是特征金字塔中第i级特征图的高度和宽度[47],C类是语义类的数目。我们将把top-K个最有信心的预测中心点(它们的预测语义类和坐标)提供给MASK Em-bedding生成器。
  • Mask Feature Head.掩码特征头组合了从L5到L3的解码器特征以创建掩码特征。这是通过将所有解码器特征的大小调整到相同的大小(步长4)并将它们相加,然后馈送到光预测头来完成的。得到的遮罩特征具有形状H/4×W/4×C embd,其中H和W分别是输入图像的高度和宽度。遮罩特征,与遮罩嵌入相乘(来自遮罩嵌入生成器,详细信息请参见第节)。3.3),生成最终输出:一组K个二进制掩码。

Mask Embedding Generator

我们还建议使用类嵌入:它学习将每个语义类嵌入到一个大小为Cembd的向量中。类嵌入用于调整(通过加法和MLP)中心嵌入,缓解不同语义类的实例引起的中心冲突。

具体来说,我们设计了一个“类嵌入查找表”模块,用于存储学习到的语义类的嵌入。对于前K个中心,我们推断它们最可能的语义类,并从模块中获得它们对应的类嵌入。然后,我们将得到的类嵌入和中心嵌入相加,并将它们传递给MLP模块(两个完全连通的层)以生成最终的掩码嵌入。我们注意到,利用类嵌入对于预测掩码嵌入的质量至关重要。它确保每个实例都有唯一的嵌入向量,避免了实例中心碰撞的问题。

本文实验

在表1,我们将所提出的MaskConv算法与其他方法在三个方面进行了比较:基于卷积的、基于变换的和高效的模型。

  • 基于卷积的模型。在基于卷积的模型类别中,MaskConv在性能(PQ)和速度(FPS)方面始终优于所有其他基于卷积的方法。特别是,与最先进的全景FCN[45]相比,MaskConv的PQ要好+9.3%,运行速度快2.13倍
  • 基于Transformer的模型。与基于变压器的模型相比,当使用类似的触发器/参数时,MaskConv获得更好的PQ。特别是,MaskConv比Mask2Former[11]高出1.7%,同时在V100 GPU上也更快。MaskConv也比KMAX-DeepLab[83]好+0.6%,FLOP数量略高。这些结果表明,通过设计更好的像素解码器、预测头和掩码嵌入生成器,MaskConv可以成功地弥合基于变换和卷积的模型之间的差距
  • 高效的模型。对于高效的模型,我们比较了MaskConv和Panoptic-DeepLab。我们使用具有相同MobileNet-MH主干和输入大小640×640的Panoptic-DeepLab来进行公平比较。我们的模型具有640个输入图像,与Panoptic-DeepLab相比,PQ提高了+6.4%,同时在V100 GPU上的速度也快了1.42倍。此外,如果我们将输入大小更改为256×256,我们的MaskConv-256的PQ与PanOpoic-DeepLab相似(29.7%对30.8%),而运行速度快5.07倍。我们的MaskConv-256在Pixel 6 GPU上实时运行,速度为33 FPS

小结

在这项工作中,我们提出了MaskConv,回顾了用于全景分割的纯卷积。MaskConv通过统一thing和stuff建模,简化了基于卷积的全景模型。具体地说,MaskConv使用中心来表示物体和填充区域,并使用灯光类嵌入模块来预测存在于相同位置的多个实例的唯一嵌入向量。MaskConv还采用了ConvNeXt-UNET像素解码器,为预测头提供了远程上下文和高级语义。凭借简化的架构和ConvNeXt-UNET,MaskConver缩小了与基于CoCo数据集的基于变压器的模型之间的差距。最后,MaskConver在移动领域表现出色,这要归功于卷积的简单和高效

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2810288.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Orange3数据预处理(转置组件)

选项 "Remove redundant instance" 是在转置时进行数据去重的选项。当勾选此选项时,如果在原始数据中存在多个相同的记录(即每个特征列中的数据完全一样),则在转置操作中只保留其中唯一的一个记录,并从转置后…

【MySQL面试复习】什么是覆盖索引?/MySQL超大分页怎么处理?

系列文章目录 在MySQL中,如何定位慢查询? 发现了某个SQL语句执行很慢,如何进行分析? 了解过索引吗?(索引的底层原理)/B 树和B树的区别是什么? 什么是聚簇索引(聚集索引)和非聚簇索引…

C++ 实现Socket交互式服务端

在 Windows 操作系统中,原生提供了强大的网络编程支持,允许开发者使用 Socket API 进行网络通信,通过 Socket API,开发者可以创建、连接、发送和接收数据,实现网络通信。本文将深入探讨如何通过调用原生网络 API 实现同…

点云数据处理常用外部库(C++/Windows)的项目配置

一、点云数据处理常用外部库(C版本)的下载安装与项目配置 (一)PCL 基于VS2019编程平台的PCL外部库下载安装及项目配置已有大量博客,本文不再赘述。具体下载安装及项目配置流程可参考外部库编译配置参考资料/*1*/ 。需…

OPENSSL-PKCS7入门知识介绍

1 PKCS7数据结构说明 p7包括6种数据内容:数据(data),签名数据(sign),数字信封数据(enveloped),签名数字信封数据(signed_and_enveloped),摘要数据&#xff08…

ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘无密码如何解决

1.修改my.cnf配置文件 (1)找到my.cnf位置,在[mysqld]下面添加skip-grant-tables cd / vim /etc/my.cnf (2)添加完成后保存,并重启mysql服务 按下esc 输入:wq 执行 servcie mysqld restart 2.进入mysql数据…

300分钟吃透分布式缓存-14讲:大数据时代,MC如何应对新的常见问题?

大数据时代 Memcached 经典问题 随着互联网的快速发展和普及,人类进入了大数据时代。在大数据时代,移动设备全面融入了人们的工作和生活,各种数据以前所未有的 速度被生产、挖掘和消费。移动互联网系统也不断演进和发展,存储、计…

Matlab论文插图绘制模板第138期—极坐标直方图

在之前的文章中,分享了Matlab一系列极坐标下的插图绘制模板: 本期再来分享一下极坐标直方图的绘制模板。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。有需要的朋友可以…

MySQL多实例与Mycat分布式读写分离的架构实践

文章目录 1.Mycat读写分离分布式架构规划2.在两台服务器中搭建八个MySQL实例2.1.安装MySQL软件2.2.创建每个MySQL实例的数据目录并初始化2.3.准备每个实例的配置文件2.4.准备每个实例的启动脚本2.6启动每台机器的MySQL多实例2.7.为每个MySQL实例设置密码2.8.查看每个MySQL实例的…

项目启动∣新一代亿元级国民零食品牌「比比赞」携手企企通,合力打造企业级数字化采购与供应链管理平台

为进一步提升企业的核心供应链一体化协同管理,助力企业效益提升,近日,泉州市丰泽区尚客食品有限公司(以下简称“比比赞”)与企企通携手,成功召开SRM项目启动会。 会议期间,双方对项目背景、项目…

Oracle内存计算应用模式

前言 内存计算是利用内存来加速数据访问和应用的性能,并降低应用开发复杂度的技术。近十年来,随着软硬件技术的发展和用户需求的成熟,内存计算技术已经得到了广泛地应用。 Oracle在内存计算领域具有非常重要的地位,这主要得益于…

开了抖店该怎么玩?不知道运营流程的,今天一文带你了解!

大家好,我是电商小布。 在电商的快速发展下,越来越多的新手小伙伴开始加入其中。 抖音小店作为当前的低成本创业项目,吸引到了很多的新手朋友加入其中。 但是开店后怎么玩,如何做好运营操作呢? 今天,小…

WampServer环境下载安装并结合内网穿透实现远程访问管理界面

文章目录 前言1.WampServer下载安装2.WampServer启动3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3.4 创建公网地址 4.固定公网地址访问 前言 Wamp 是一个 Windows系统下的 Apache PHP Mysql 集成安装环境,是一组常用来…

AI论文速读 | 【综述】(LLM4TS)大语言模型用于时间序列

题目:Large Language Models for Time Series: A Survey 作者:Xiyuan Zhang , Ranak Roy Chowdhury , Rajesh K. Gupta and Jingbo Shang 机构:加州大学圣地亚哥分校(UCSD) 网址:https://arxiv.org/abs/…

CleanMyMac2024一款备受赞誉的mac电脑垃圾清理软件

在数字世界中,我们的Mac不仅仅是一台电脑,更是我们工作、娱乐和生活的得力助手。然而,随着时间的推移,系统垃圾、无用文件和缓存不断堆积,让Mac变得迟钝,甚至威胁到我们的数据安全。此刻,您需要…

《Docker 简易速速上手小册》第6章 Docker 网络与安全(2024 最新版)

文章目录 6.1 Docker 网络概念6.1.1 重点基础知识6.1.2 重点案例:基于 Flask 的微服务6.1.3 拓展案例 1:容器间的直接通信6.1.4 拓展案例 2:跨主机容器通信 6.2 配置与管理网络6.2.1 重点基础知识6.2.2 重点案例:配置 Flask 应用的…

vite搭配vue2创建工程

一、安装vite npm init vite2.8.0 vite默认支持的是vue3, 这里选择框架和版本vanilla, 方便以后自己安装vue2. 二、修改package.json 默认生成的pacakage.json文件 {"name": "vite-project","private": true,"v…

开源项目---集成系信息管理平台

文章目录 概要整体架构流程内置的功能介绍系统演示小结 概要 提示:开源信息管理平台 主要是进行的是对于大部分的管理信息平台的综合,以及进行相关的开源项目的改造和升级,添加新的功能的同时,也是为了更好的让大家一起学习&#…

优优嗨聚集团:法律咨询服务,守护您生活的每一份权益

在当今社会,随着法治意识的日益增强,法律咨询服务的重要性愈发凸显。无论是个人还是企业,面对纷繁复杂的法律环境,专业的法律咨询服务成为了不可或缺的护航者。 一、法律咨询服务:个人权益的守护者 在日常生活中&…

手机和windows的便签怎么共享账号使用

在忙碌的生活中,我经常需要在手机和电脑之间同步记事信息。可是,每次当我在手机上记下一些重要事项后,想要在电脑上查看或继续编辑时,总是遇到各种麻烦。因为手机和电脑上的便签软件各不相同,无法实现账号共享和内容同…