【YOLO v5 v7 v8 小目标改进】ODConv：在卷积核所有维度（数量、空间、输入、输出）上应用注意力机制来优化传统动态卷积

ODConv：在卷积核所有维度（数量、空间、输入、输出）上应用注意力机制来优化传统的动态卷积

提出背景
传统动态卷积
全维动态卷积
效果

小目标涨点
YOLO v5 魔改
YOLO v7 魔改
YOLO v8 魔改

论文：https://openreview.net/pdf?id=DmpCfq6Mg39

代码：https://github.com/OSVAI/ODConv

在过去的十年里，我们见证了深度卷积神经网络（CNN）在许多计算机视觉应用中的巨大成功。

构建深度CNN的最常见方法是堆叠多个卷积层以及其他基本层，并预先定义特征连接拓扑。

通过手工工程和自动搜索对CNN架构设计的巨大进步，许多流行的分类骨架已经被提出。

最近的工作表明，将注意力机制融入卷积块可以进一步提高现代CNN的性能。

问题1：提高CNN性能

问题2：动态卷积的设计限制

子解法1：多维度注意力机制（ODConv）
- 之所以使用ODConv，是因为现有的动态卷积方法只关注卷积核数量的一个维度，而忽略了卷积核空间的其他三个维度（空间大小、输入通道数和输出通道数），限制了捕获丰富上下文线索的能力。
子解法2：减少模型大小
- 之所以使用这个子解法，是因为传统的动态卷积在替换常规卷积时会增加n倍的卷积参数，导致模型大小大幅增加。通过动态卷积分解方法，可以获得更紧凑且竞争力的模型。

在这里插入图片描述
上图是 DyConv（a 传统的动态卷积）和ODConv（b 本文的全维动态卷积）的结构图比较。

在DyConv中，使用全局平均池化（GAP）、全连接层（FC）和Sigmoid激活函数来计算单个注意力标量 $αw_i$ ，这个标量用于加权卷积核 $W_i$ 。

相比之下，ODConv采用了更复杂的多维度注意力机制来计算四种类型的注意力（ $αs_i, αc_i, αf_i, 和 αw_i$ ），这些注意力分别对应于卷积核空间的不同维度。

四个不同的注意力通过四个分支生成，并通过Sigmoid或Softmax函数进行归一化。

这些注意力分别沿着卷积核空间的空间维度、输入通道维度、输出通道维度和卷积核数量维度被计算出来，并且以并行的方式应用于卷积核。

ODConv通过在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力，这些注意力相互补充，逐步应用它们可以显著增强CNN的基本卷积操作的特征提取能力。

让我们以ODConv在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力为例，举一个具体的应用场景来说明这种方法的有效性。

ODConv解法：

子特征1：空间尺寸注意力。ODConv学习不同空间尺寸的卷积核的重要性，从而能够更好地捕捉图像的局部和全局特征。之所以使用空间尺寸注意力，是因为不同大小的特征图对于捕获图像中的不同尺度信息至关重要。
子特征2：输入通道注意力。通过调整对不同输入通道的关注程度，ODConv可以更有效地整合来自不同特征通道的信息。之所以使用输入通道注意力，是因为不同的特征通道可能包含不同的信息，对最终的识别任务有不同的贡献。
子特征3：输出通道注意力。ODConv通过学习对输出通道的不同关注，优化了特征的表示。之所以使用输出通道注意力，是为了强化模型的能力，以区分和识别图像数据集中的细粒度类别。
子特征4：卷积核数量注意力。通过动态调整不同卷积核的权重，ODConv能够根据输入图像的特征自适应地选择最适合的卷积核组合。之所以使用卷积核数量注意力，是因为它允许模型根据输入特征的复杂度动态调整其表示能力，从而在保持效率的同时提高准确性。

在这里插入图片描述
(a) αs_i：空间维度注意力，它将不同的权重分配给卷积核的每个空间位置。