目标检测算法YOLOv7简介

      YOLOv7由Chien-Yao Wang等人于2022年提出,论文名为:《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors》,论文见:https://arxiv.org/pdf/2207.02696 ,项目网页:https://github.com/WongKinYiu/yolov7 。

      以下内容主要来自论文:

      1.Introduction

      近年来,实时目标检测器仍在针对不同的边缘设备(edge device)进行开发。例如,MCUNet和NanoDet的发展重点是生产低功耗单芯片并提高边缘CPU的推理速度。至于YOLOX和YOLOR等方法,它们专注于提高各种GPU的推理速度。最近,实时目标检测器的发展主要集中在高效架构的设计上。至于可以在CPU上使用的实时目标检测器,其设计大多基于MobileNet、ShuffleNet或GhostNet。另一种主流的实时目标检测器是针对GPU开发的,它们大多使用ResNet、DarkNet或DLA,然后使用CSPNet策略来优化架构。本文提出的方法的发展方向与当前主流的实时目标检测器不同。除了架构优化之外,我们提出的方法还将重点关注训练过程的优化。我们的重点将是一些优化的模块和优化方法,这些模块和优化方法可以加强训练成本以提高目标检测的准确性,但不会增加推理成本。我们将所提出的模块和优化方法称为可训练的免费赠品(bag-of-freebies)。

      最近,模型重新参数化(re-parameterization)和动态标签分配(label assignment)已成为网络训练和目标检测中的重要主题。主要是在上述新概念提出之后,目标检测器的训练演化出了许多新的问题。在本文中,我们将介绍我们发现的一些新问题,并设计有效的方法来解决这些问题。对于模型重参数化,我们利用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略,并提出了规划(planned)的重参数化模型。此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练会产生新的问题。即:"如何为不同分支的输出分配动态目标?" 针对这个问题,我们提出了一种新的标签分配方法,称为从粗到细引导标签分配(coarse-to-fine lead guided label assignment)。

      本文的贡献总结如下:(1)我们设计了几种可训练的bag-of-freebies方法,使得实时目标检测可以在不增加推理成本的情况下大大提高检测精度;(2)对于目标检测方法的演变,我们发现了两个新问题,即重新参数化模块如何替换原始模块,以及动态标签分配策略如何处理对不同输出层的分配。此外,我们还提出了解决这些问题所带来的困难的方法;(3)我们为实时目标检测器提出了"扩展"和"复合缩放"("extend" and "compound scaling")方法,可以有效地利用参数和计算;(4)我们提出的方法可以有效减少最先进(state-of-the-art)的实时目标检测器约40%的参数和50%的计算量,并且具有更快的推理速度和更高的检测精度。

      2.Related work

      (1).Real-time object detectors:目前最先进的实时目标检测器主要基于YOLO和FCOS。能够成为最先进的实时目标检测器通常需要以下特性:1)更快、更强的网络架构;2)更有效的特征整合方法;3)更准确的检测方法;4)更鲁棒的损失函数;5)更高效的标签分配方法;6)更高效的训练方法。在本文中,我们不打算探索需要额外数据或大型模型的自监督学习或知识蒸馏方法。相反,我们将针对与上述4)、5)和6)相关的最先进方法衍生的问题,设计新的可训练的bag-of-freebies方法。

      (2).Model re-parameterization:模型重新参数化技术在推理阶段将多个计算模块合并为一个。模型重参数化技术可以看作是一种集成(ensemble)技术,我们可以将其分为两类,即模块级集成和模型级集成。模型级重新参数化以获得最终推理模型有两种常见做法。一种是用不同的训练数据训练多个相同的模型,然后对多个训练好的模型的权重进行平均。另一种是对不同迭代次数的模型权重进行加权平均。模块级重参数化是最近比较热门的研究问题。此类方法在训练时将一个模块拆分为多个相同或不同的模块分支,并在推理时将多个分支模块集成为完全等效的模块。然而,并非所有提出的重新参数化模块都可以完美地应用于不同的架构。考虑到这一点,我们开发了新的重参数化模块,并针对各种架构设计了相关的应用策略。

      (3).Model scaling:模型缩放是一种放大或缩小已设计模型并使其适合不同计算设备的方法。模型缩放方法通常使用不同的缩放因子,如分辨率(输入图像的大小)、深度(层数)、宽度(通道数)、阶段(特征金字塔数),从而很好的权衡了网络参数量、计算量、推理速度和准确性。网络架构搜索(Network architecture search, NAS)是常用的模型缩放方法之一。NAS可以自动从搜索空间中搜索合适的缩放因子,而无需定义过于复杂的规则。NAS的缺点是需要非常昂贵的计算才能完成模型缩放因子的搜索。通过查阅文献,我们发现几乎所有模型缩放方法都独立分析单个缩放因子,甚至复合缩放类别中的方法也独立优化缩放因子。其原因是大多数流行的NAS架构处理的缩放因子相关性不是很强。我们观察到,所有基于级联(concatenation-based)的模型(例如DenseNet或VoVNet)在缩放此类模型的深度时都会改变某些层的输入宽度。由于所提出的架构是基于级联的,我们必须为此模型设计一种新的复合缩放方法。

      3.Architecture

      (1).Extended efficient layer aggregation networks:在大多数关于设计高效架构的文献中,主要考虑的只是参数数量、计算量和计算密度。如下图所示:(b)中CSPVoVNet的设计是VoVNet的一种变体。除了考虑上述基本设计问题外,CSPVoVNet的架构还分析了梯度路径,以使不同层的权重能够学习更多样的特征。上述梯度分析方法使推理更快、更准确。(c)中的ELAN考虑了以下设计策略--"如何设计高效的网络?"。他们得出了一个结论:通过控制最短最长梯度路径,更深的网络可以有效地学习和收敛。本文在ELAN的基础上提出了Extend-ELAN(E-ELAN),其主要架构如图(d)所示。

      无论梯度路径长度和大规模(large-scale)ELAN中计算块的堆叠数量如何,它都达到了稳定状态。如果无限地堆叠更多的计算块,这种稳定状态可能会被破坏,参数利用率就会下降。所提出的E-ELAN利用expand、shuffle、merge基数(cardinality)来实现在不破坏原有梯度路径的情况下不断增强网络的学习能力。在架构方面,E-ELAN仅改变了计算块的架构,而过渡层(transition layer)的架构完全不变。我们的策略是使用组卷积来扩展计算块的通道和基数。我们将对计算层的所有计算块应用相同的组参数和通道乘数(channel multiplier)。然后,每个计算块计算出的特征图将根据设定的组参数g被洗牌(shuffled)成g组,然后将它们连接在一起。此时,每组特征图中的通道数将与原始架构中的通道数相同。 最后,我们添加g组特征图来执行合并基数。除了保持原有的ELAN设计架构外,E-ELAN还可以引导不同组的计算模块学习更多样的特征。

      (2).Model scaling for concatenation-based models:模型缩放的主要目的是调整模型的一些属性,生成不同尺度的模型,以满足不同推理速度的需求。例如,EfficientNet的缩放模型考虑了宽度、深度和分辨率。至于scaled-YOLOv4,其缩放模型是调整stages的数量。上述方法主要应用于PlainNet或ResNet等架构中。 当这些架构执行放大或缩小时,每一层的入度和出度(in-degree and out-degree)都不会改变,因此我们可以独立分析每个缩放因子对参数量和计算量的影响。然而,如果将这些方法应用于基于串联的架构,我们会发现当对深度进行放大或缩小时,紧接在基于串联的计算块之后的翻译层(translation layer)的入度会减小或增加,如下图(a)和(b)所示。

      从上述现象可以推断,对于基于级联的模型,我们不能单独分析不同的缩放因子,而必须一起考虑。以深度放大为例,这样的动作会导致过渡层的输入通道和输出通道之间的比例发生变化,这可能会导致模型的硬件使用率下降。因此,我们必须为基于级联的模型提出相应的复合模型缩放方法。当我们缩放计算块的深度因子(depth factor)时,我们还必须计算该块的输出通道的变化。然后,我们对过渡层进行相同变化量的宽度因子缩放,结果如下图(c)所示。我们提出的复合缩放方法可以保持模型在初始设计时具有的属性并保持最佳结构。

      4.Trainable bag-of-freebies

      (1).Planned re-parameterized convolution:虽然RepConv在VGG上取得了优异的性能,但是当我们直接将其应用到ResNet和DenseNet等架构上时,其精度会明显降低。我们使用梯度流传播路径(gradient flow propagation path)来分析重参数化卷积应如何与不同网络结合。我们还相应地设计了计划重新参数化卷积(planned re-parameterized convolution)。

      RepConv实际上在一个卷积层中结合了3*3卷积、1*1卷积和恒等连接(identity connection)。在分析了RepConv和不同架构的组合和相应性能后,我们发现RepConv中的恒等连接破坏了ResNet中的残差和DenseNet中的级联,这为不同的特征图提供了更多多样性的梯度。由于上述原因,我们使用无恒等连接的RepConv(RepConvN)来设计计划重参数化卷积的架构。在我们的想法中,当带有残差或级联的卷积层被重新参数化卷积替换时,不应该有恒等连接。下图显示了我们设计的"planned re-parameterized convolution"在PlainNet和ResNet中使用的示例。

      (2).Coarse for auxiliary and fine for lead loss:深度监督(deep supervision)是一种常用于训练深度网络的技术。其主要思想是在网络的中间层添加额外的辅助头(auxiliary head),并以辅助(assistant)损失为指导的浅层网络(shallow network)权重。即使对于ResNet和DenseNet这样通常收敛良好的架构,深度监督仍然可以显着提高模型在许多任务上的性能。如下图所示:(a)和(b)分别显示了"无"和"有"深度监督的目标检测器架构。在本文中,我们将负责最终输出的头称为引导头(lead head),用于辅助训练的头称为辅助头(auxiliary head)。

      接下来我们要讨论标签分配的问题。过去,在深度网络的训练中,标签分配通常直接参考ground truth,并根据给定的规则生成硬标签(hard label)。然而,近年来,如果我们以目标检测为例,研究人员经常利用网络预测输出的质量和分布,然后与ground truth一起考虑使用一些计算和优化方法来生成可靠的软标签(soft label)。在本文中,我们将这种将网络预测结果与ground truth一起考虑然后分配软标签的机制称为"标签分配器(label assigner)"。

      无论auxiliary head or lead head的情况,都需要针对目标进行深度监督训练。在开发软标签分配器相关技术的过程中,我们无意中发现了一个新的衍生问题,即"如何为auxiliary head and lead head分配软标签?"据我们所知,相关文献迄今尚未对此问题进行探讨。目前最流行的方法的结果如下图(c)所示,即将auxiliary head and lead head分开,然后使用各自的预测结果和ground truth来执行标签分配。本文提出的方法是一种新的标签分配方法,通过lead head预测来指导auxiliary head and lead head。换句话说,我们使用lead head预测作为指导来生成从粗到细的分层标签(coarse-to-fine hierarchical labels),这些标签分别用于auxiliary head and lead head学习。所提出的两种深度监督标签分配策略分别如下图(d)和(e)所示。

      1).Lead head guided label assigner:主要根据lead head的预测结果和ground truth进行计算,并通过优化过程生成软标签。这套软标签将作为auxiliary head and lead head的目标训练模型。这样做的原因是因为lead head具有比较强的学习能力,因此它生成的软标签应该更能代表源数据和目标数据之间的分布和相关性。此外,我们可以将这种学习视为一种广义的残差学习。通过让较浅的(shallower) auxiliary head直接学习lead head已学到的信息,lead head将更能够专注于学习尚未学习的剩余信息。

      2).Coarse-to-fine lead head guided label assigner:还使用lead head的预测结果和ground truth来生成软标签。然而,在这个过程中,我们生成了两组不同的软标签,即粗标签和细标签(coarse label and fine label),其中细标签与lead head引导标签分配器生成的软标签相同,而粗标签是通过允许更多网格来生成的,通过放宽正样本分配过程的约束,将其视为正目标。原因是auxiliary head的学习能力不如lead head,为了避免丢失需要学习的信息,我们将重点优化优化目标检测任务中auxiliary head的召回。对于lead head的输出,我们可以从高召回率的结果中筛选出高精度的结果作为最终的输出。然而,我们必须注意,如果粗标签的附加权重(additional weight)接近细标签的附加权重,则可能在最终预测中产生不好的先验框。因此,为了使那些额外的粗正网格(coarse positive grids)的影响更小,我们在解码器中进行了限制,使得额外的粗正网格不能完美地产生软标签。上述机制使得细标签和粗标签的重要性在学习过程中动态调整,使得细标签的可优化上限始终高于粗标签。

      (3).Other trainable bag-of-freebies:在本节中,我们将列出一些可训练的bag-of-freebies。这些赠品(freebies)是我们在训练中使用的一些技巧,但最初的概念并不是我们提出的。包括:

      1).Batch normalization in conv-bn-activation topology:这部分主要将批量归一化层直接连接到卷积层。这样做的目的是在推理阶段将批量归一化的均值和方差整合到卷积层的偏差和权重(bias and weight)中。

      2).Implicit knowledge in YOLOR  combined with convolution feature map in addition and multiplication manner:YOLOR中的隐式知识可以通过推理阶段的预计算简化为向量。该向量可以与前一个或后一个卷积层的偏差和权重相结合。

      3).EMA model:EMA是mean teacher使用的一种技术,在我们的系统中我们纯粹使用EMA模型作为最终的推理模型。

      GitHub:https://github.com/fengbingchun/NN_Test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3031123.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

激光雷达:盲人世界的导航灯塔

在科技日新月异的今天,一项名为“蝙蝠避障”的创新成果,正悄然改变着盲人朋友的日常生活,特别是在出行这一领域,它的应用如同一束光,照亮了前行的道路。本文将深入探讨激光雷达技术对盲人的帮助,揭示这项高…

【JavaWeb】网上蛋糕商城后台-商品管理

概念 本文讲解和实现网上蛋糕商城的后台管理系统中的商品管理功能。 商品列表 点击后台管理系统的head.jsp头部的“商品管理”功能选项,向服务器发送请求/admin/goods_list 因此需要在servlet包中创建AdminGoodsListServlet类,用于获取商品信息列表 …

【赠书活动第4期】《Rust编程与项目实战》

赠书活动 《Rust编程与项目实战》免费赠书 3 本, 收到赠书之后,写一篇 本书某一节内容 的学习博客文章。 可在本帖评论中表示参加,即可获得赠书,先到先得。学习心得博客链接,后面有空发上来。 赠书截止日期为送出3…

elementui的table行展开,左侧的icon有的需要有的不需要

百度了一些方法,都不好用,最后还是纯css解决,以下是效果: 代码实现: :deep(.el-table__row:nth-child(1) .el-table__expand-icon){ display: none; }

《解锁高效合同管理系统:优化业务流程,提升管理效率》

随着企业规模的扩大和业务复杂性的增加,合同管理变得愈发重要。合同是企业与客户、供应商、合作伙伴之间的法律约束和商业承诺,而有效的合同管理系统则成为企业提高运营效率、降低风险的关键工具。本文将探讨合同管理系统的重要性以及如何利用合同管理系…

win10 miniconda始终无法在指定的位置创建虚拟环境,原来是管理员权限问题

当我想用conda创建虚拟环境时 envs_dirs: F:\miniconda3\envsC:\Users\fengx.conda\envsC:\Users\fengx\AppData\Local\conda\conda\envs 创建的虚拟环境始终在C:\Users\fengx.conda\envs\xxxx这个位置下, 我已经明显指定了位置是在F:\miniconda3\envs下&#xff…

MyBatis——模拟MyBatis框架

一、dom4j 解析 XML 文件 在 dom4j 中,DOMReader 和 SAXReader 是两种不同的 XML 解析器。 它们的主要区别在于解析 XML 的方式和所提供的功能: DOMReader: DOMReader 使用 DOM(Document Object Model)模型来表示整个…

org.hsqldb.jdbcDriver 类,导致 ClassNotFoundException 异常如何解决?

确保JDBC驱动包存在:检查系统是否已经安装了HSQLDB JDBC驱动。如果没有安装或驱动没有正确放置在类路径中,需要下载并添加它。你可以从 HSQLDB官网 下载JDBC驱动包。 添加JDBC驱动到类路径:将下载的HSQLDB JDBC驱动(通常是一个JA…

基于STM32F401RET6智能锁项目(使用库函数点灯、按键)

点灯硬件原理图 1、首先,我们查看一下原理图,找到相对应的GPIO口 LED_R低电平导通,LED4亮,所以LED_R的GPIO口需要配置一个低电平才能亮; LED_G低电平导通,LED3亮,所以LED_R的GPIO口需要配置一…

解决常见的Android问题

常见问题: 1、查杀: 查杀一般分为两个方向一种是内存不足的查杀,一种的是因为温度限频查杀,统称为内存查杀,两个问题的分析思路不同 1、内存不足查杀: 主要是因为当用户出现后台运行多个APP或者是相机等…

AE 电源 DC 80 kW PulsarAccessory User ManualMay 20055703041-C说明数

AE 电源DC 80 kW Pulsar Accessory User ManualMay20055703041C说明

Android 12.0 TvSettings系统设置wifi连接密码框点击Enter键失去焦点

1.前言 在12.0的系统box产品开发中,在TvSettings中,在wifi连接的时候,在用遥控器输入wifi密码框的时候,会发现在按遥控器Enter键的时候, 发现EditText焦点失去了,导致输入法消失了,为了解决这个问题就需要拦截Enter键保证正常输入wifi密码,接下来就来实现这个功能 如图…

Ansible的安装与配置

Ansible的安装与配置 1. 安装ansible # ansible是epel源提供的,所以必须安装epel: [rootRocky9 ~]# yum -y install epel-release Last metadata expiration check: 0:01:53 ago on Tue 26 Dec 2023 10:05:34 PM CST. Dependencies resolved. Package …

iPhone苹果手机下载安装Skype苹果applestore怎么切换账号?

iPhone苹果手机下载安装Skype需要切换到可下载Skype应用的地区苹果账号,才能搜索找到并下载Skype到苹果手机。请按下面的教程切换苹果账号下载安装Skype到苹果手机。 *注:如果您没有可下载Skype应用的苹果账号,请打开「词令」关键词口令直达…

社交媒体数据恢复:飞书

飞书数据恢复过程包括以下几个步骤: 确认数据丢失:首先要确认数据是否真的丢失,有时候可能只是被隐藏或者误操作删除了。 检查回收站:飞书中删除的文件会默认保存在回收站中,用户可以通过进入回收站找到被删除的文件&…

简单的神经网络

一、softmax的基本概念 我们之前学过sigmoid、relu、tanh等等激活函数,今天我们来看一下softmax。 先简单回顾一些其他激活函数: Sigmoid激活函数:Sigmoid函数(也称为Logistic函数)是一种常见的激活函数&#xff0c…

【回溯算法】【Python实现】符号三角形问题

文章目录 [toc]问题描述回溯法时间复杂性Python实现 问题描述 下图是由 14 14 14个“ ”和 14 14 14个“ − - −”组成的符号三角形, 2 2 2个同号下面都是” “, 2 2 2个异号下面都是“ − - −” 在一般情况下,符号三角形的第一行有 n…

机器学习-L1正则/L2正则

机器学习-L1正则/L2正则 目录 1.L1正则 2.L2正则 3.结合 1.L1正则 L1正则是一种用来约束模型参数的技术,常用于机器学习和统计建模中,特别是在处理特征选择问题时非常有用。 想象一下,你在装备行囊准备去旅行,但你的行囊有一…

第五十八节 Java设计模式 - 适配器模式

Java设计模式 - 适配器模式 我们在现实生活中使用适配器很多。例如,我们使用存储卡适配器连接存储卡和计算机,因为计算机仅支持一种类型的存储卡,并且我们的卡与计算机不兼容。 适配器是两个不兼容实体之间的转换器。适配器模式是一种结构模…

Ubuntu搭建VsCode C++ 开发环境

Ubuntu搭建VsCode C 开发环境 安装VS Code 使用命令来安装VS Code:他会下载vscode的最新版本。 sudo snap install --classic code如果不使用命令 的方式 在官网下载vscode安装包( 后缀为 .deb的包 )之后(可以选择版本 &#x…