现有方法的不足之处
- 高内在相似性:伪装物体与背景之间的高内在相似性使得检测变得困难,现有方法难以准确区分二者。
- 多样化的规模和模糊的外观:伪装物体在规模和外观上多样化,且可能严重遮挡,导致现有方法难以处理。
- 不一致的架构设计:现有的图像和视频伪装物体检测方法在架构设计和特征处理流程上存在不一致,难以同时处理静态和动态数据。
- 缺乏运动感知:许多图像模型缺乏对视频领域的运动信息感知,而视频模型在处理静态图像时需要额外补偿,增加了计算开销。
拟解决的问题
- 准确定位伪装物体:在不明显的外观和多种尺度条件下,如何准确定位伪装物体?
- 统一框架设计:如何设计一个兼容图像和视频特征处理的统一框架?
- 背景干扰抑制:如何抑制背景中的明显干扰,更加可靠地推断出伪装物体?
动机
人类在观察模糊图像或视频时,会采用放大和缩小的策略来更好地识别细节和差异。受此启发,论文提出了一种模拟这种“放大和缩小”策略的统一协同金字塔网络,以更好地捕捉伪装物体的细节和线索。
创新点
- 多头尺度集成单元(MHSIU):该单元通过多头空间交互机制筛选和聚合不同尺度的信息,增强了模型挖掘细微空间注意模式的能力。
- 丰富粒度感知单元(RGPU):通过组内迭代和通道间调制进行信息交互和特征细化,加强了特征表示。
- 差异感知自适应路由机制:该机制利用帧间差异信息实现视频特定的特征传播,统一了图像和视频COD任务的处理流程。
- 不确定性感知损失(UAL):设计了一种不确定性感知损失来辅助二值交叉熵损失,提高了模型对模糊区域的区分能力。
贡献
- 提出ZoomNeXt:一个通过特征筛选和聚合来统一处理图像和视频COD任务的框架,能够在复杂场景中可靠地捕捉伪装物体。
- 设计关键模块MHSIU和RGPU:通过多尺度特征提取和增强,实现了对伪装物体的准确检测。
- 差异感知的自适应路由机制:无缝结合图像和视频特征管道,增强了模型的可扩展性和灵活性。
- 不确定性感知优化策略:显著抑制了背景中的干扰和不确定性,提高了检测性能。
- 性能显著优于现有方法:在多个图像和视频COD基准测试上显著超过了现有的30种最先进方法。
这些创新点和贡献帮助ZoomNeXt在复杂的伪装物体检测任务中取得了显著的性能提升,提供了一个统一而高效的解决方案。
摘要
论文的摘要部分总结了文章的研究背景、方法、贡献以及实验结果,具体如下:
研究背景
伪装物体检测(COD)试图分割那些在视觉上与背景环境融为一体的物体。这在现实场景中是极其复杂和困难的任务。伪装物体与背景之间的高度相似性、物体尺度的多样性、模糊的外观以及严重的遮挡等因素增加了检测的难度。
提出的方法
为了应对这些挑战,本文提出了一种有效的统一协作金字塔网络,名为ZoomNeXt。这种网络模仿人类在观察模糊图像和视频时的行为,即放大和缩小的策略。具体来说,本文的方法采用了放大策略,通过多头尺度集成和丰富的粒度感知单元来学习具有区分性的混合尺度语义。这些单元被设计用来充分探索候选物体与背景环境之间难以察觉的线索。
- 多头集成单元:通过多头集成提供更多样的视觉模式。
- 路由机制:在时空场景中有效传播帧间差异,并且在处理静态表示时能够自适应地停用并输出全零结果。
这些机制为实现静态和动态COD的统一架构奠定了坚实的基础。
损失函数
考虑到由于难以区分的纹理带来的不确定性和模糊性,本文构建了一种简单而有效的正则化方法,即不确定性感知损失(uncertainty awareness loss),以鼓励在候选区域内进行更高置信度的预测。
实验结果
本文提出的框架在图像和视频COD基准测试中均一致地优于现有的最新方法,表现出高度的任务友好性。
关键词
- 图像伪装物体检测
- 视频伪装物体检测
- 图像和视频统一架构
总结
摘要简洁地介绍了研究背景、方法的创新之处、主要技术细节、以及实验结果。ZoomNeXt通过模拟人类观察行为,采用多尺度特征集成和不确定性感知损失,在伪装物体检测任务上取得了显著的性能提升。
相关工作
论文的"Related Work"部分总结了与伪装物体检测(COD)相关的研究背景和进展,主要包括以下几个方面:
2.1 伪装物体检测(COD)
伪装物体检测作为一个独立任务在计算机视觉领域的研究有着悠久的历史,最早的研究可以追溯到生物学领域。这种自然界中的行为可以被视为自然选择和适应的结果,实际上在艺术、流行文化和设计等人类生活的其他部分也有着深远的影响。在计算机视觉领域,伪装物体检测通常与基于人类视觉注意机制的显著性分析相关联。
不同于现有的显著性物体检测(SOD)任务,COD任务更加关注难以检测的物体(主要是由于物体体积过小、遮挡、隐藏或自我伪装)。由于目标物体属性的不同,这两个任务的目标也不同。COD任务的难度和复杂性远远超过了SOD任务,因为伪装物体与环境的高度相似性。现有的许多方法探索了在预测过程中引入辅助任务(如分类、边缘检测和物体梯度估计)以提高伪装物体检测的准确性。
2.2 条件计算
条件计算指的是一系列精心构建的算法,其中每个输入样本实际上只使用了一部分特征处理节点。近年来,这种方法在解决深度学习模型训练和推理的时间和计算成本问题上显示出了巨大的潜力。典型的例子是基于稀疏选择的专家混合技术(MoE),其在语言建模、机器翻译、多任务学习、图像分类和视觉语言模型等各种任务中展现了巨大潜力。现有的方法主要依赖MoE和门控策略来实现特征流节点的动态路由。
2.3 尺度空间整合
尺度空间理论旨在促进图像结构的最佳理解,是解决自然界中尺度变化的一个极为有效且理论上合理的框架。近年来,图像金字塔和特征金字塔的概念被广泛应用于计算机视觉领域。然而,常用的倒金字塔特征提取结构往往导致特征表示丢失过多的纹理和外观细节,这对强调区域和边缘完整性的密集预测任务是不利的。
为了提高特征表示的精确性,一些最新的基于CNN的COD方法和SOD方法探索了层间特征结合策略以增强特征表示,这些方法在对象的准确定位和分割方面带来了积极的影响。然而,现有方法忽略了由于数据本身结构信息的模糊性所导致的性能瓶颈,这使得单一尺度难以完全感知这些信息。
总结
总体而言,本文的方法模拟了人类观察混乱场景时放大和缩小的策略,从多个尺度同步考虑对象和背景之间的关系,从而全面感知伪装物体和混乱场景。这种方法在静态和动态场景下都能准确且稳健地分割伪装物体。
方法
作者使用Triplet Feature Encoder提取并获得 4 个stages 各自的三种不同尺度 0.5,1.0,1.5的特征之后,传入给 scale merging subnetwork(相当于是neck部分),进行特征融合,其中使用了MHSIU模块应用注意力进行特征选择并融合,然后融合之后的特征图送入decoder,decoder使用RGPU模块进行特征增强
3.1 总体架构
本节详细描述了ZoomNeXt的总体架构。本文通过模仿人类在观察混乱场景时的放大和缩小策略,提出了ZoomNeXt模型,旨在通过多尺度特征集成和丰富的粒度感知单元实现高效的伪装物体检测。
前提条件
给定输入静态图像 (I \in \mathbb{R}^{3 \times H \times W}) 和输入视频片段 ({I_t \in \mathbb{R}^{3 \times H \times W}}{t=1}^T),其中3表示颜色通道的数量,(H) 和 (W) 分别表示高度和宽度。网络将生成灰度图 (P) 或包含值在0到1之间的片段 ({P_t}{t=1}^T),这些值反映了每个位置可能属于伪装物体的概率。
放大策略
总体架构如图2所示。受到人类在观察混乱场景时放大和缩小策略的启发,作者认为不同的缩放尺度通常包含特定的信息。汇集不同尺度上的差异化信息有助于从混乱的场景中探索不明显但有价值的线索,从而促进伪装物体检测。为实现这一点,作者定制了一个基于单尺度输入的图像金字塔,通过重新缩放输入来模拟放大和缩小的操作。
特征处理
利用共享的三元特征编码器在不同尺度上提取特征,并将这些特征馈送到尺度合并子网络。为了整合这些包含丰富尺度特定信息的特征,作者设计了一系列基于注意力过滤机制的多头尺度集成单元(MHSIUs)。这样,这些辅助尺度就被集成到主尺度中,即放大和缩小操作的信息汇集。这将极大地增强模型提取关键和有信息量的语义线索的能力,以捕捉难以检测的伪装物体。之后,构建了丰富粒度感知单元(RGPUs)以自顶向下的方式逐渐整合多层次特征,从而增强混合尺度特征表示。该过程进一步增加了感受野范围,并在模块内实现了特征表示的多样化。所捕获的细粒度和混合尺度线索促进模型在混乱场景中准确分割伪装物体。
损失改进
为了克服数据固有复杂性引起的预测不确定性,设计了不确定性感知损失(UAL)来辅助BCE损失,使模型能够区分这些不确定区域并生成准确可靠的预测。
具体实现
- 特征编码器:使用共享的三元特征编码器提取不同尺度的特征。
- 尺度合并子网络:通过MHSIUs过滤和整合尺度特定信息。
- 丰富粒度感知单元(RGPUs):逐层整合特征,增强特征表示。
- 不确定性感知损失(UAL):辅助BCE损失,提高预测的置信度。
结论
ZoomNeXt模型通过模仿人类观察行为的放大和缩小策略,利用多尺度特征集成和丰富的粒度感知单元,在伪装物体检测任务上表现出色。这种统一的架构既适用于静态图像,又适用于动态视频片段,在复杂场景中实现了准确和可靠的伪装物体检测。
3.2 三元特征编码器
在本节中,论文详细介绍了ZoomNeXt的三元特征编码器模块,该模块用于提取和处理不同尺度的特征。
特征提取
三元特征编码器由特征提取网络和通道压缩网络组成。特征提取网络由常用的ResNet、EfficientNet或PVTv2去除了分类头的部分构成,通道压缩网络则用于进一步优化计算并获取更紧凑的特征表示。为了在效率和效果之间取得平衡,主尺度和两个辅助尺度分别设定为1.0×、1.5×和0.5×。通过这些结构,生成了对应于三个输入尺度的三组64通道特征图,即 { f i k } i = 1 5 \{ f_i^k \}_{i=1}^5 {fik}i=15,其中 k ∈ { 0.5 , 1.0 , 1.5 } k \in \{0.5, 1.0, 1.5\} k∈{0.5,1.0,1.5}。
处理步骤
-
输入和缩放:图像输入被缩放到不同的尺度,以模拟人类观察时的放大和缩小行为。三个特征图分别对应主尺度(1.0×)、放大尺度(1.5×)和缩小尺度(0.5×)。
-
特征编码:利用共享的三元特征编码器提取不同尺度下的特征,并生成三组64通道的特征图。特征提取网络可以是去除分类头的ResNet、EfficientNet或PVTv2模型,通道压缩网络进一步优化计算。
-
特征融合:这些特征图将被连续输入到多头尺度合并子网络和层次差分传播解码器进行后续处理。
通过这种设计,模型可以在不同尺度下提取和融合特征,从而捕捉到更多细粒度和混合尺度的语义线索,提升伪装物体检测的准确性和鲁棒性。
详细步骤
- 特征提取网络:使用ResNet、EfficientNet或PVTv2模型提取图像的深度特征。
- 通道压缩网络:进一步优化计算,获取紧凑的特征表示。
- 三组特征图:生成对应三个输入尺度的特征图,即 { f i k } i = 1 5 \{ f_i^k \}_{i=1}^5 {fik}i=15,其中 k ∈ { 0.5 , 1.0 , 1.5 } k \in \{0.5, 1.0, 1.5\} k∈{0.5,1.0,1.5}。
结论
三元特征编码器模块通过多尺度特征提取和压缩,在不同的尺度下生成丰富的特征表示。这些特征表示被后续的多头尺度合并子网络和层次差分传播解码器使用,以提高伪装物体检测的精度和鲁棒性。通过这种多尺度特征处理方法,ZoomNeXt模型能够更好地捕捉伪装物体与背景之间的细微差异,实现高效的伪装物体检测。
3.3 尺度合并子网络
本节详细描述了ZoomNeXt的尺度合并子网络模块,该模块用于融合和处理不同尺度的特征,以增强模型在复杂场景中识别伪装物体的能力。
多头尺度集成单元(MHSIU)
为了筛选和融合尺度特定信息,作者设计了基于注意力机制的多头尺度集成单元(MHSIU)。通过这种单元的过滤和聚合,不同尺度的特征表达得以自适应地被强化。
尺度对齐
在进行尺度融合之前,特征 f i 1.5 f_i^{1.5} fi1.5 和 f i 0.5 f_i^{0.5} fi0.5 首先被调整到与主尺度特征 f i 1.0 f_i^{1.0} fi1.0 一致的分辨率。具体来说,对于 f i 1.5 f_i^{1.5} fi1.5,通过“最大池化 + 平均池化”结构进行下采样,以保留高分辨率特征中的有效和多样化响应。而对于 f i 0.5 f_i^{0.5} fi0.5,则通过双线性插值直接进行上采样。然后,这些特征被输入到后续的变换层。
多头空间交互
不同于单一模式依赖的空间注意形式,作者在这里对特征图的M组进行并行独立变换,这种设计借鉴了Transformer中的多头机制。这个设计有助于扩展模型挖掘多个细粒度空间注意模式的能力,并多样化特征空间的表示。具体来说,通过一系列卷积层计算得到若干三通道特征图。在每个注意力组中的级联softmax激活层之后,生成对应每个尺度的注意力图 A m k A_m^k Amk,并作为最终融合的权重。
数学表达式
以下是多头尺度集成单元的具体处理步骤和数学表达式:
-
尺度对齐:将 f i 1.5 f_i^{1.5} fi1.5 和 f i 0.5 f_i^{0.5} fi0.5 调整到与主尺度 f i 1.0 f_i^{1.0} fi1.0 一致的分辨率。
F i = [ U ( f i 0.5 ) , f i 1.0 , D ( f i 1.5 ) ] F_i = [U(f_i^{0.5}), f_i^{1.0}, D(f_i^{1.5})] Fi=[U(fi0.5),fi1.0,D(fi1.5)]
其中, U U U 表示双线性插值, D D D 表示“最大池化 + 平均池化”操作。 -
多头空间交互:进行并行独立变换,生成多个三通道特征图并计算注意力图。
F i ^ = { trans ( F i , ϕ m ) } m \hat{F_i} = \{ \text{trans}(F_i, \phi_m) \}_m Fi^={trans(Fi,ϕm)}m
A i = { softmax ( F i , m ^ ) } m A_i = \{ \text{softmax}(\hat{F_i, m}) \}_m Ai={softmax(Fi,m^)}m
其中, trans ( F i , ϕ m ) \text{trans}(F_i, \phi_m) trans(Fi,ϕm) 是线性变换层, A i A_i Ai 是注意力图。 -
特征融合:通过注意力图加权融合不同尺度的特征。
F i ~ = { A i 1 ⊗ F i 1 + A i 2 ⊗ F i 2 + A i 3 ⊗ F i 3 } m \tilde{F_i} = \{ A_i^1 \otimes F_i^1 + A_i^2 \otimes F_i^2 + A_i^3 \otimes F_i^3 \}_m Fi~={Ai1⊗Fi1+Ai2⊗Fi2+Ai3⊗Fi3}m
其中, ⊗ \otimes ⊗ 表示元素乘操作。 -
生成最终特征:将不同组中的增强特征沿通道维度拼接,并输入解码器进行进一步处理。
f i M H S I U = { A i 1 ⊗ F i 1 + A i 2 ⊗ F i 2 + A i 3 ⊗ F i 3 } m f_i^{MHSIU} = \{ A_i^1 \otimes F_i^1 + A_i^2 \otimes F_i^2 + A_i^3 \otimes F_i^3 \}_m fiMHSIU={Ai1⊗Fi1+Ai2⊗Fi2+Ai3⊗Fi3}m
通过这种设计,自适应地选择性聚合尺度特定信息,以探索不同尺度下的细微但关键的语义线索,从而提升特征表示。
总结
尺度合并子网络通过多头尺度集成单元(MHSIU)实现不同尺度特征的过滤和融合。这种设计借鉴了Transformer中的多头机制,能够自适应地选择和聚合不同尺度的信息,强化模型在复杂场景中捕捉伪装物体的能力。通过这种方法,ZoomNeXt能够更加准确和鲁棒地进行伪装物体检测。
3.4 层次差分传播解码器
本节详细描述了ZoomNeXt的层次差分传播解码器模块,该模块用于整合和增强多尺度特征,以实现更精确的伪装物体检测。
丰富粒度感知单元(RGPU)
为了进一步增强特征表示,作者设计了丰富粒度感知单元(RGPU),该单元通过组间迭代和通道间调制实现特征的交互和细化。
输入
RGPU的输入 f i ^ \hat{f_i} fi^ 包括来自MHSIU的多尺度融合特征 f i M H S I U f_i^{MHSIU} fiMHSIU 和来自下一级RGPU的特征 f i R G P U f_i^{RGPU} fiRGPU。具体形式为:
f i ^ = f i M H S I U + U ( f i + 1 R G P U ) \hat{f_i} = f_i^{MHSIU} + U(f_{i+1}^{RGPU}) fi^=fiMHSIU+U(fi+1RGPU)
组间迭代
首先通过1×1卷积扩展特征图的通道数,然后沿通道维度将特征图分为G组 { g j } j = 1 G \{g_j\}_{j=1}^G {gj}j=1G。特征组间的交互按迭代方式进行:
- 第1组:特征 g 1 g_1 g1 通过卷积块后分为三部分 { g 1 ′ , g 2 ′ , g 3 ′ } \{g_1', g_2', g_3'\} {g1′,g2′,g3′}。其中, g 1 ′ g_1' g1′ 用于与下一组进行信息交换, g 2 ′ g_2' g2′ 和 g 3 ′ g_3' g3′ 用于通道间调制。
- 中间组:对于每个中间组 g j g_j gj,将其与前一组的 g 1 ′ g_1' g1′ 级联后通过卷积块,再分为三部分。依次类推。
- 最后一组:仅包含 g 2 ′ g_2' g2′ 和 g 3 ′ g_3' g3′,没有 g 1 ′ g_1' g1′。
这些特征组的迭代混合策略相当于一个综合多路径金字塔结构,通过部分参数共享来增强特征表达。
通道间调制
组间迭代生成的特征 { g 2 ′ , g 3 ′ } \{g_2', g_3'\} {g2′,g3′} 经过拼接后,通过小型卷积网络生成特征调制向量 ω \omega ω,用于加权另一个拼接特征:
f i ˉ = ω ⋅ [ { g 3 ′ } ] \bar{f_i} = \omega \cdot [\{g_3'\}] fiˉ=ω⋅[{g3′}]
差分感知条件计算
视频中帧间差异能够直接反映伪装物体的运动线索,作者设计了差分感知自适应路由机制,以实现视频特定的帧间信息传播,并无缝统一图像和视频COD任务:
- 对组间迭代和通道间调制后的特征进行时移操作。
- 计算相邻帧间的差异表示:
X = shift ( f i ˉ ) − f i ˉ X = \text{shift}(\bar{f_i}) - \bar{f_i} X=shift(fiˉ)−fiˉ - 对差异特征进行自注意力操作,增强目标物体的运动线索:
Z = X W V softmax ( ( X W K ) ⊤ X W Q H W ) Z = X W_V \text{softmax} \left( \frac{(X W_K)^\top X W_Q}{\sqrt{HW}} \right) Z=XWVsoftmax(HW(XWK)⊤XWQ) - 通过T个3×3卷积层在视频片段内部实现信息的完全连接扩散,将结果添加到原始特征 f i ˉ \bar{f_i} fiˉ中。
对于静态图像,此流程不生效,输出全零张量,从而保持原始静态信息流。
输出
RGPU的输出由堆叠的激活、归一化和卷积层得到,定义为:
f i R G P U = fuse ( f i ^ + f i ˉ ) f_i^{RGPU} = \text{fuse}(\hat{f_i} + \bar{f_i}) fiRGPU=fuse(fi^+fiˉ)
基于级联的RGPUs和若干堆叠的卷积层,生成单通道的logits图,通过sigmoid函数生成高亮伪装物体的置信度图 P P P 或图组 { P t } \{P_t\} {Pt}。
总结
层次差分传播解码器通过丰富粒度感知单元(RGPU)实现特征组间和通道间的交互和细化。通过差分感知条件计算机制,模型能够在视频场景中捕捉帧间运动线索,实现图像和视频COD任务的统一。这种设计增强了特征表示的多样性和细粒度,提升了伪装物体检测的准确性和鲁棒性。
3.5 损失函数
本节详细描述了ZoomNeXt在训练过程中使用的损失函数,以提高伪装物体检测的准确性和鲁棒性。
二值交叉熵损失 (Binary Cross Entropy Loss, BCE)
BCE损失函数广泛应用于各种二值图像分割任务中,其数学形式为:
l i , j BCE = − g i , j log p i , j − ( 1 − g i , j ) log ( 1 − p i , j ) l_{i,j}^{\text{BCE}} = -g_{i,j} \log p_{i,j} - (1 - g_{i,j}) \log (1 - p_{i,j}) li,jBCE=−gi,jlogpi,j−(1−gi,j)log(1−pi,j)
其中, g i , j g_{i,j} gi,j 是位置 ( i , j ) (i, j) (i,j) 处的真实值,取值为 0 或 1,而 p i , j p_{i,j} pi,j 是对应位置的预测值,取值范围在 0 到 1 之间。
由于COD数据的复杂性,仅使用BCE训练时,模型会在预测中产生严重的模糊性和不确定性,无法准确捕捉伪装物体,从而降低了检测的可靠性。
不确定性感知损失 (Uncertainty Awareness Loss, UAL)
为了在决策中强化模型的“信心”,并增加对模糊预测的惩罚,作者设计了一种强约束作为BCE的辅助,即不确定性感知损失 (UAL)。在伪装物体的最终概率图中,像素值范围为 [0, 1],其中 0 表示像素属于背景,1 表示像素属于伪装物体。因此,预测值越接近 0.5,关于该像素属性的确定性越低。为了优化这一点,一种直接的方法是将模糊性作为这些困难样本的辅助损失。
首先需要定义像素 x x x 的模糊度度量,在 x = 0.5 x = 0.5 x=0.5 时达到最大值,在 x = 0 x = 0 x=0 或 x = 1 x = 1 x=1 时达到最小值。作为损失函数,该函数应当是平滑且连续的,并且只有有限个不可微点。为简洁起见,作者经验性地考虑了以下两种形式:
- 基于幂函数:
Φ α pow ( x ) = 1 − ∣ 2 x − 1 ∣ α \Phi_{\alpha}^{\text{pow}}(x) = 1 - |2x - 1|^{\alpha} Φαpow(x)=1−∣2x−1∣α - 基于指数函数:
Φ α exp ( x ) = e − ( α ( x − 0.5 ) ) 2 \Phi_{\alpha}^{\text{exp}}(x) = e^{-(\alpha(x - 0.5))^2} Φαexp(x)=e−(α(x−0.5))2
此外,受加权BCE损失形式的启发,还尝试使用 (\alpha = 1 + \Phi_2^{\text{pow}}(x)) 作为BCE损失的权重,以增加困难像素的损失。经过大量实验,作者最终采用以下形式的UAL:
l i , j UAL = 1 − Δ i , j = 1 − ∣ 2 p i , j − 1 ∣ 2 l_{i,j}^{\text{UAL}} = 1 - \Delta_{i,j} = 1 - |2p_{i,j} - 1|^2 li,jUAL=1−Δi,j=1−∣2pi,j−1∣2
其中,(\Delta) 表示预测的确定性。
总损失函数
最终的总损失函数可以表示为:
L = L BCE + λ L UAL L = L_{\text{BCE}} + \lambda L_{\text{UAL}} L=LBCE+λLUAL
其中,(\lambda) 是平衡系数。作者设计了三种 (\lambda) 的调整策略,即固定常数值、递增线性策略和递增余弦策略。实验结果表明,递增策略,尤其是“余弦”策略,确实实现了更好的性能,因此默认使用余弦策略。
总结
ZoomNeXt在训练过程中采用了二值交叉熵损失 (BCE) 和不确定性感知损失 (UAL) 的组合,以提高模型在伪装物体检测中的准确性和可靠性。BCE损失用于处理常规的二值分类问题,而UAL则针对复杂数据中的模糊预测进行额外的约束,通过强化模型在决策中的“信心”来减少预测的不确定性。最终的损失函数通过调整平衡系数 (\lambda) 达到最佳效果,使得ZoomNeXt在静态图像和视频COD任务中均表现出色。
4. 实验
实验结果对比
消融实验结果
4.1.3 实现细节
本节详细描述了ZoomNeXt在实现过程中的一些关键技术细节。
数据预处理
- 图像和视频处理:所有图像和视频帧均调整到相同的分辨率,以确保一致的输入大小。
- 数据增强:使用常见的数据增强技术,如随机裁剪、水平翻转和颜色抖动,以提高模型的泛化能力。
模型训练
- 初始化:使用预训练的ResNet、EfficientNet或PVTv2模型作为特征提取器的初始化权重,以加速训练过程和提高模型性能。
- 优化器:采用Adam优化器进行模型训练,初始学习率为0.0001,使用余弦退火策略逐渐降低学习率。
- 批量大小:图像批量大小设为16,视频批量大小设为4,以适应不同的数据类型。
- 损失函数:训练过程中使用二值交叉熵损失(BCE)和不确定性感知损失(UAL)的组合,总损失函数为 L = L BCE + λ L UAL L = L_{\text{BCE}} + \lambda L_{\text{UAL}} L=LBCE+λLUAL,其中 (\lambda) 采用递增余弦策略进行调整。
模型架构
- 特征提取:使用共享的三元特征编码器从输入图像或视频帧中提取多尺度特征。
- 尺度合并:通过多头尺度集成单元(MHSIU)对不同尺度的特征进行融合和过滤,增强特征表示。
- 解码:使用层次差分传播解码器,通过丰富粒度感知单元(RGPU)进行特征的细化和增强,生成最终的伪装物体检测结果。
训练细节
- 训练时长:模型在一个8核CPU和两个NVIDIA V100 GPU上训练大约需要24小时,以保证足够的训练轮数和模型收敛。
- 早停策略:在验证集上监控模型性能,采用早停策略防止过拟合。
实验设置
- 数据集划分:按照标准的数据集划分方法,将数据集分为训练集、验证集和测试集,以确保模型评估的公平性和一致性。
- 评价指标:使用常见的评价指标,如F-measure、MAE和IoU,评估模型在伪装物体检测任务中的性能。
总结
实现细节部分描述了ZoomNeXt在数据预处理、模型训练、模型架构和训练细节等方面的关键技术细节。通过这些细节的优化,ZoomNeXt能够在伪装物体检测任务中实现高效、准确和鲁棒的性能。
4.3 消融研究 (Ablation Studies)
本节详细描述了ZoomNeXt在不同模块和损失函数配置下的性能,以验证各个组件对模型整体性能的影响。
4.3.1 模型组件的影响
作者进行了不同配置的实验来评估每个组件的有效性,包括多头尺度集成单元(MHSIU)、丰富粒度感知单元(RGPU)和不确定性感知损失(UAL)。具体实验如下:
- 基线模型:只使用基本的特征提取网络和简单的解码器。
- 添加MHSIU:在基线模型上添加多头尺度集成单元,以验证其对特征融合和增强的效果。
- 添加RGPU:在基线模型上添加丰富粒度感知单元,评估其在细化特征表示上的贡献。
- 添加UAL:在基线模型上添加不确定性感知损失,测试其在处理预测不确定性上的作用。
- 完整模型:包含所有组件(MHSIU、RGPU、UAL)的完整模型。
通过对比这些不同配置的实验结果,作者发现每个组件都对提升模型性能有显著贡献,且完整模型在所有评价指标上均表现最佳。
4.3.2 多头尺度集成单元的影响 (MHSIU)
为了进一步验证MHSIU的有效性,作者对不同头数的MHSIU进行了实验,分别设置为1头、2头、4头和8头。实验结果显示,随着头数的增加,模型性能逐渐提升,但在头数达到4时性能增益趋于平缓。这表明4头的MHSIU在性能和计算复杂度之间取得了良好的平衡。
4.3.3 丰富粒度感知单元的影响 (RGPU)
类似地,作者对RGPU的不同配置进行了实验,评估其对模型性能的影响。通过调整RGPU中特征组的数量和交互策略,实验结果显示增加特征组的数量和优化交互策略均能显著提升模型性能,验证了RGPU在细化特征表示上的有效性。
4.3.4 不确定性感知损失的影响 (UAL)
为了验证不确定性感知损失(UAL)的有效性,作者对不同形式的UAL进行了实验,包括基于幂函数和指数函数的不同形式,以及不同的平衡系数 λ \lambda λ 设置。实验结果表明,使用幂函数形式的UAL效果最佳,且采用递增余弦策略调整 λ \lambda λ 能进一步提升模型性能。
4.3.5 总损失函数的调整策略
作者设计了三种 λ \lambda λ 的调整策略,即固定常数值、递增线性策略和递增余弦策略。通过实验对比不同策略的效果,结果显示递增余弦策略能显著提升模型在处理不确定性上的性能,因此被默认采用。
总结
消融研究通过逐步添加和调整模型的各个组件,验证了多头尺度集成单元(MHSIU)、丰富粒度感知单元(RGPU)和不确定性感知损失(UAL)对模型整体性能的显著提升作用。实验结果表明,这些组件在特征融合、特征细化和处理预测不确定性上均起到了关键作用,完整模型在所有评价指标上表现最佳。这些研究结果为模型设计提供了重要的验证和支持。
4.3.4 混合尺度输入方案 (Mixed-scale Input Scheme)
在本节中,作者探讨了混合尺度输入方案在伪装物体检测中的影响。具体来说,他们研究了不同的输入尺度组合对模型性能的影响。
实验设置
为了评估混合尺度输入方案的效果,作者设计了几组实验,每组实验都使用不同的输入尺度组合进行训练和测试。具体的输入尺度组合包括:
- 单一尺度输入:仅使用原始输入尺度(1.0×)。
- 双尺度输入:使用原始输入尺度(1.0×)和放大尺度(1.5×)或缩小尺度(0.5×)。
- 三尺度输入:同时使用原始输入尺度(1.0×)、放大尺度(1.5×)和缩小尺度(0.5×)。
实验结果
实验结果如表8所示,通过对比不同输入尺度组合在各个评价指标上的表现,作者发现:
- 单一尺度输入:仅使用原始输入尺度(1.0×)时,模型的性能较为一般。
- 双尺度输入:使用双尺度输入(1.0×和1.5×或0.5×)时,模型性能有所提升。这表明添加一个额外的尺度有助于模型捕捉到更多的细节信息。
- 三尺度输入:同时使用三种尺度输入(1.0×、1.5×和0.5×)时,模型性能进一步提升,达到了最佳效果。这表明不同尺度的输入可以互补,从而提供更丰富的特征信息,提升模型的检测能力。
结论
通过混合尺度输入方案的实验,作者得出以下结论:
- 多尺度输入有助于提升模型性能:与单一尺度输入相比,多尺度输入能够提供更丰富的特征信息,从而提升模型在伪装物体检测任务中的表现。
- 三尺度输入效果最佳:同时使用原始尺度、放大尺度和缩小尺度的输入方案能够在各个评价指标上均表现出色,表明这种混合尺度输入方案最为有效。
总结
混合尺度输入方案通过结合不同尺度的输入特征,显著提升了模型在伪装物体检测任务中的性能。实验结果表明,与单一尺度输入相比,多尺度输入能够提供更丰富的特征信息,尤其是三尺度输入方案效果最佳。这些发现进一步验证了作者提出的ZoomNeXt模型在处理复杂场景中的有效性,并为多尺度特征融合提供了理论支持。