YOLOv9改进策略：block优化 | MobileViTAttention自注意力，更小、更轻、精度更高，性能优于MobileNetV3等

💡💡💡本文改进内容：现有博客都是将MobileViT作为backbone引入YOLO，因此存在的问题点是训练显存要求巨大，因此本文引入自注意力(ViTs)：MobileViTAttention，从而实现高效涨点

💡💡💡第一次基于轻量级CNN网络性能的轻量级ViT工作，性能SOTA!。性能优于MobileNetV3、CrossviT等网络。

改进结构图如下：

《YOLOv9魔术师专栏》将从以下各个方向进行创新：

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【SPPELAN & RepNCSPELAN4优化】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者通过添加WX: AI_CV_0624，入群沟通，提供改进结构图等一系列定制化服务。

订阅者可以申请发票，便于报销

YOLOv9魔术师专栏

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、轻量级网络设计、24年最新顶会改进思路、原创自研paper级创新等

🚀🚀🚀 本项目持续更新 | 更新完结保底≥80+ ，冲刺100+ 🚀🚀🚀

🍉🍉🍉 联系WX: AI_CV_0624 欢迎交流！🍉🍉🍉

⭐⭐⭐专栏涨价趋势 99 ->199->259->299，越早订阅越划算⭐⭐⭐

💡💡💡 2024年计算机视觉顶会创新点适用于Yolov5、Yolov7、Yolov8等各个Yolo系列，专栏文章提供每一步步骤和源码，轻松带你上手魔改网络！！！

💡💡💡重点：通过本专栏的阅读，后续你也可以设计魔改网络，在网络不同位置（Backbone、head、detect、loss等）进行魔改，实现创新！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLOv9原理介绍

论文： 2402.13616.pdf (arxiv.org)

代码：GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information摘要： 如今的深度学习方法重点关注如何设计最合适的目标函数，从而使得模型的预测结果能够最接近真实情况。同时，必须设计一个适当的架构，可以帮助获取足够的信息进行预测。然而，现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，大量信息将会丢失。因此，YOLOv9 深入研究了数据通过深度网络传输时数据丢失的重要问题，即信息瓶颈和可逆函数。作者提出了可编程梯度信息（programmable gradient information，PGI）的概念，来应对深度网络实现多个目标所需要的各种变化。PGI 可以为目标任务计算目标函数提供完整的输入信息，从而获得可靠的梯度信息来更新网络权值。此外，研究者基于梯度路径规划设计了一种新的轻量级网络架构，即通用高效层聚合网络（Generalized Efficient Layer Aggregation Network，GELAN）。该架构证实了 PGI 可以在轻量级模型上取得优异的结果。研究者在基于 MS COCO 数据集的目标检测任务上验证所提出的 GELAN 和 PGI。结果表明，与其他 SOTA 方法相比，GELAN 仅使用传统卷积算子即可实现更好的参数利用率。对于 PGI 而言，它的适用性很强，可用于从轻型到大型的各种模型。我们可以用它来获取完整的信息，从而使从头开始训练的模型能够比使用大型数据集预训练的 SOTA 模型获得更好的结果。对比结果如图1所示。

YOLOv9框架图

1.1 YOLOv9框架介绍

YOLOv9各个模型介绍

2. MobileViT介绍

论文：https://arxiv.org/abs/2110.02178

现有博客都是将MobileViT作为backbone引入Yolov5，因此存在的问题点是训练显存要求巨大，本文引入自注意力的Vision Transformer(ViTs)：MobileViTAttention

MobileViT是一种基于Transformers的轻量级模型，它可以用于图像分类任务。相比于传统的卷积神经网络，MobileViT使用了轻量级的注意力机制来提取特征，从而在保证较高精度的同时，具有更快的推理速度和更小的模型体积。它在移动设备上的应用具有很大的潜力。

自从2020年 ViT 网络被提出并取得和传统 CNN 网络差别不大的性能表现之后，越来越多的研究者开始探究 Transformer 架构在计算机视觉领域的巨大潜力，将 Transformer 架构引入各类视觉任务中并取得了不错的成就。但是，Transformer 网络在实际落地运用中相较于传统的 CNN 网络还是存在着诸多问题。Transformer 模型拥有着比 CNN 多得多的参数个数，同时它的推理速度更慢，所需要的训练样本量也更多。

实验结果表明，在不同的任务和数据集上，MobileViT显著优于基于CNN和ViT的网络。在ImageNet-1k数据集上，MobileViT在大约600万个参数的情况下达到了78.4%的Top-1准确率，对于相同数量的参数，比MobileNetv3和DeiT的准确率分别高出3.2%和6.2%。

MobileViT 主要是为了解决 ViT 网络的缺陷而设计提出的，将 CNN 的优点融入到 Transformer 的结构中以解决 Transformer 网络存在的训练困难、迁移困难、调整困难的缺点，加快网络的推理和收敛速度，使得网络更加稳定高效。

3.MobileViTAttention加入到YOLOv9

3.1新建py文件，路径为models/block/MobileViTBlock.py

3.2修改yolo.py

1)首先进行引用

from models.block.MobileViTBlock import MobileViTAttention

2）修改def parse_model(d, ch): # model_dict, input_channels(3)

在源码基础上加入MobileViTAttention

        if m in {Conv, AConv, ConvTranspose, Bottleneck, SPP, SPPF, DWConv, BottleneckCSP, nn.ConvTranspose2d, DWConvTranspose2d, SPPCSPC, ADown,RepNCSPELAN4, SPPELAN,MobileViTAttention}:c1, c2 = ch[f], args[0]if c2 != no:  # if not outputc2 = make_divisible(c2 * gw, 8)args = [c1, c2, *args[1:]]if m in {BottleneckCSP, SPPCSPC}:args.insert(2, n)  # number of repeatsn = 1

3.3 yolov9-c-MobileViTAttention.yaml

3.4报错解决

einops.EinopsError:  Error while processing rearrange-reduction pattern "b d (h ph) (w pw) -> b (ph pw) (h w) d".Input tensor shape: torch.Size([32, 96, 21, 21]). Additional info: {'ph': 2, 'pw': 2}.Shape mismatch, can't divide axis of length 21 in chunks of 2

修改train_dual.py如下代码

    # Process 0if RANK in {-1, 0}:val_loader = create_dataloader(val_path,imgsz,batch_size // WORLD_SIZE * 2,gs,single_cls,hyp=hyp,cache=None if noval else opt.cache,rect=True,rank=-1,workers=workers * 2,pad=0.5,prefix=colorstr('val: '))[0]

rect=True,

修改为rect=False,

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/2906852.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！