DETR算法解读——Transformer在目标检测任务的首次应用

论文:End-to-End Object Detection with Transformers
作者:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
机构:Facebook AI
链接:https://arxiv.org/abs/2005.12872
代码:https://github.com/facebookresearch/detr


文章目录

  • 1、算法概述
  • 2、动机
  • 3、DETR细节
    • 3.1 Object detection set prediction loss
    • 3.2 DETR architecture
      • 3.2.1 Backbone
      • 3.2.2 Transformer
  • 4、实验
    • 4.1 COCO2017
    • 4.2 消融实验
  • 5、创新点和不足


1、算法概述

这篇论文中,作者将目标检测任务视为目标集(object set)预测问题。与之前的目标检测算法不同,它不需要NMS后处理及anchor生成这些集成了先验知识的操作。作者提出的检测框架主要由transformer结构组成(transformer论文超详细解读),作者为其命名DETR(DEtection TRansformer),它是一种基于集合的全局损失,通过双匹配策略(bipartite matching)强制进行唯一预测。给定一组固定的学习对象查询,DETR对对象和全局图像上下文的关系进行推理,从而直接并行输出最终的预测集。DETR在概念上很简单,且展示了优秀的准确性和运行时性能,在COCO目标检测数据集上表现与高度优化的Faster R-CNN相当;且DETR可以很容易地推广到全景分割任务。


2、动机

目标检测的目的是需要预测一个集合,集合中每个元素代表每个感兴趣目标的bounding box及类别标签。但是之前的目标检测算法是以一种间接的方式解决了这个集合预测任务,即通过在大量候选框、锚框设计或窗口中心上定义代理回归和分类问题。它们的性能受后期处理步骤、锚框集的设计以及将目标框分配给锚框的启发式算法的影响。

为了简化检测算法流程,作者提出了一种直接集预测方法来绕过代理任务。这种端到端思想已经在复杂的结构化预测任务(如机器翻译或语音识别)中取得了重大进展,但尚未在目标检测中取得进展,本文旨在弥补这一差距。


3、DETR细节

作者通过将目标检测视为直接集预测问题来简化训练流程。整个检测框架采用基于transformer的编码器-解码器架构,这是一种常用的序列预测结构。transformer的自注意力机制显式地对序列中元素之间的所有成对交互进行建模,使这些体系结构特别适合于集合预测的特定约束,例如删除重复的预测。

作者所提的DETR检测算法一次可以预测所有对象,并使用一组损失函数进行端到端训练,该函数在预测对象和真实对象之间执行双匹配。整体检测流程如下图所示:
在这里插入图片描述

可以看到,图像首先经过CNN网络提取到一系列特征图,特征图再经过transformer得到目标框预测集合,可见DETR是CNN与transformer的结合利用。

对于检测中的直接集预测,有两个要素是必不可少的:一是集合预测的损失问题,它强制在预测值和实际值之间进行唯一匹配,二是如何设计整个网络结构,这个结构需预测一组对象并对它们之间的关系进行建模。

3.1 Object detection set prediction loss

DETR首先会被设置固定数量为N的预测结果,这个N怎么确定呢?,它需要被设置为明显大于图像中典型对象的数量,假如对于COCO数据集中,图像标注了最多60个目标对象,N设置明显大于60即可。训练的主要困难之一是根据真实标注框对预测对象(类别、位置、大小)进行评分。我们的损失在预测对象和真实对象之间产生最优的双匹配,然后优化对象特定的bounding box损失。

把y看成是ground truth集合,大小为N,真实的ground truth标注框肯定小于N的,不足的用ø(代表no object)补齐;y ̂={y ̂i }ⅈ=1N代表N个预测结果,将两个大小为N集合进行一一对应匹配,即将预测结果集合y ̂与ground truth集合y进行匹配,寻找代价最小的N个元素σ∈бN的排列,公式可表示为:
在这里插入图片描述
两者的匹配算法采用匈牙利算法。匹配损失既考虑了类别预测与考虑了预测框与ground truth框的相似度。对于ground truth集合中的每个元素yi=(ci,bi),ci代表真实类别标签(有可能是ø),bi∈[0,1]4代表归一化后真实标注框向量(框中心点坐标,高宽)。

在第一步匈牙利匹配的基础上,第二步是计算损失函数。在前一步中匹配的所有对的匈牙利损失,作者对损失的定义类似于普通目标检测器的损失,即类预测的负对数似然和bounding box损失的线性组合:
在这里插入图片描述
因为大部分可能都是背景,那么背景类的权重就除以10。相当于前景(目标)和背景做一个data balance。

  • Bounding box loss
    上面公式中的后一部分Lbox(.)代表预测框的分数,不像之前大多数的检测算法,他们有一个预测基准(anchor),作者提的DETR是直接预测的。虽然这种方法简化了实现,但它带来了损失相对尺度的问题。即使相对误差相似,最常用的L1损失对于小尺度目标和大尺度目标也会有不同的尺度问题。为了缓解这个问题,作者使用L1损失和广义IoU损失的线性组合,因为Liou损失是尺度不变的。所以作者定义的Lbox(.)公式为:
    在这里插入图片描述

3.2 DETR architecture

DETR检测算法的整体框架如下图所示:
在这里插入图片描述
它包含三个主要组件:一个CNN的backbone用于提取图像特征,一个encoder-decoder组成的transformer和一个前馈神经网络(FFN)用于做最后的预测。

3.2.1 Backbone

Backbone用于提取图像特征,对于输入图像ximg∈R3xH0xW0,经过CNN结构的backbone处理将得到分辨率较小的特征图f∈RCxHxW,通常情况下,C=2048,H,W=H0/32,W0/32。

3.2.2 Transformer

DETR中transformer的内部结构如下,与2017年提出的transformer一样,只是输入不同,这里进入transformer的是图像块拼接成的“序列”。
在这里插入图片描述

  • Transformer encoder
    首先在进入transformer encoder之前,需将backbone提取到的特征图f由C通道用1x1卷积降维到d维HxW大小的特征图z0,由于transformer encoder是对序列做处理,所以需要对d维的HxW大小的特征图进行压缩,得到dxHW的二维特征图。每个encoder由多头自注意力模块(multi-head self-attention module)和前馈神经网络模块(FFN)组成。由于目标检测与位置信息紧密关联,作者也在encoder中加入了位置信息。

  • Transformer decoder
    解码器遵循原版transformer的标准架构,与原版transformer的不同之处在于,作者的模型在每个解码器层并行解码N个对象,而原版transformer使用自回归模型,每次预测一个元素的输出序列。由于解码器也是排列不变的,因此N个输入嵌入必须不同才能产生不同的结果。N个对象查询由解码器转换为输出嵌入。然后通过前馈网络(FFN)将它们独立解码为框坐标和类标签,从而产生N个最终预测。

  • Prediction feed-forward networks (FFNs)
    最后的预测由一个具有ReLU激活函数和隐藏维数为d的3层感知器和一个线性投影层来计算得到,FFN预测包括归一化后的box坐标(中心点坐标,高宽) 及通过softmax层映射后的类别概率。因为DETR预测一个固定大小的N个边界框集合,而且N通常比图像中感兴趣的对象的实际数量大得多,所以使用一个额外的特殊类label_∅来表示在一个框内没有检测到对象。该类的作用类似于“background”类。


4、实验

4.1 COCO2017

作者在VOC2007上与Faster R-CNN的测试结果如下:
在这里插入图片描述
可以看出,DETR在AP上达到了Faster R-CNN的性能,缺陷就是在小目标上还是不及Faster R-CNN,大目标上有巨大优势,这也印证了结合transformer结构的优势,transformer能关注到全局信息,对大目标检测有极大帮助。

4.2 消融实验

  • Number of encoder layers
    作者通过改变编码器层数来评估全局图像级自注意力机制的重要性,若没有编码器层,整体AP下降3.9%,而大目标的APL下降幅度更大,有6.0%,如下表所示。
    在这里插入图片描述
    作者推测,通过使用全局场景推理,编码器对解纠缠目标很重要。在下图中,作者可视化了训练模型的最后一个编码器层的注意图,集中在图像中的几个点上。编码器似乎已经分离了实例,这可能简化了解码器的对象提取和定位。
    在这里插入图片描述

  • Number of decoder layers
    作者通过增加decoder layer的数量,得到AP的评估结果,并且还讨论了NMS是否对最终的AP有影响的实验,如下图所示:
    在这里插入图片描述
    最终结果表明,随着decoder layer的增加,AP值有显著的提升,而增加NMS只对只有一层decoder layer时有帮助,后面随着decoder layer的数量增加,对AP的提升帮助不大,所以DETR可以完全丢弃NMS后处理。
    最后,作者还可视化了解码器的关注点,如下图所示,将每个预测对象的注意图涂成不同的颜色。作者观察到,解码器的注意力是相当局部的,这意味着解码器主要关注的是物体的四肢,比如头或腿。所以作者推测,在编码器通过全局关注分离实例之后,解码器只需要关注端点以提取类和对象的边界。
    在这里插入图片描述

  • Importance of FFN
    作者试图完全删除它,只把注意力放在transformer layer上。通过将网络参数数量从41.3M减少到28.7M,但是性能下降了2.3%AP,因此作者得出FFN对于取得良好效果很重要。

  • Importance of positional encodings
    在作者所提的模型中有两种位置编码:空间位置编码和输出位置编码(object queries)。作者实验了固定编码和学习编码的各种组合,得到下表的实验结果:
    在这里插入图片描述

  • Loss ablations
    作者实验了各种损失的组合,结果如下:
    在这里插入图片描述
    可以看出类别损失、L1损失和GIoU损失三个同时使用才能达到最佳。


5、创新点和不足

创新点:
1、首次在目标检测任务中引入transformer,以集合预测的思想做目标检测,并且提供了encoder和decoder的可视化和可解释性。

不足:
1、相比于Faster R-CNN,训练需要迭代次数非常多;
2、从和Faster R-CNN的比较结果来看,小目标检测能力还不行;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3247548.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【STL详解 —— map和set的使用】

STL详解 —— map和set的使用 关联式容器键值对setset的介绍set的使用set的模板参数列表set的构造set的迭代器set的容量set的修改操作 mapmap的介绍map的使用map的模板参数列表map的构造map的迭代器map的容量与元素访问map中元素的修改 multisetmultimap 关联式容器 在初阶阶段…

Camera Raw:首选项

Camera Raw 首选项 Preferences提供了丰富的配置选项,通过合理设置,可以显著提升图像处理的效率和效果。根据个人需求调整这些选项,有助于创建理想的工作环境和输出质量。 ◆ ◆ ◆ 打开 Camera Raw 首选项 方法一:在 Adobe Bri…

纯硬件一键开关机电路的工作原理

这是一个一键开关机电路: 当按一下按键然后松开,MOS管导通,VOUT等于电源电压; 当再次按一下按键然后松开,MOS管关闭,VOUT等于0; 下面来分析一下这个电路的工作原理。上电后,输入电压通过R1和R2给电容充电,最…

微软GraphRAG +本地模型+Gradio 简单测试笔记

安装 pip install graphragmkdir -p ./ragtest/input#将文档拷贝至 ./ragtest/input/ 下python -m graphrag.index --init --root ./ragtest修改settings.yaml encoding_model: cl100k_base skip_workflows: [] llm:api_key: ${GRAPHRAG_API_KEY}type: openai_chat # or azu…

项目管理进阶之RACI矩阵

前言 项目管理进阶系列续新篇。 RACI?这个是什么矩阵,有什么用途? 在项目管理过程中,如Team规模超5以上时,则有必要采用科学的管理方式,满足工作需要。否则可能事倍功半。 Q:什么是RACI矩阵 …

分享 .NET EF6 查询并返回树形结构数据的 2 个思路和具体实现方法

前言 树形结构是一种很常见的数据结构,类似于现实生活中的树的结构,具有根节点、父子关系和层级结构。 所谓根节点,就是整个树的起始节点。 节点则是树中的元素,每个节点可以有零个或多个子节点,节点按照层级排列&a…

STM32 IAP 需要关注的一些事

1、首先要知道STM32的程序是如何分布在FLASH中的。 2、升级的时候涉及到两个程序,一个是bootloader,一个是user程序,这两个程序的功能分别的什么作用的? 3、编译的固件是怎么分布的?通过那个配置文件去指导编译器去排布…

内网对抗-隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案

知识点: 1、隧道技术篇-网络层-ICMP协议-判断&封装&建立&穿透 2、隧道技术篇-传输层-DNS协议-判断&封装&建立&穿透 3、隧道技术篇-表示层-SMB协议-判断&封装&建立&穿透0、不是有互联网才叫出网 1、C2常见上线采用的协议 2、常…

IDEA 调试 Ja-Netfilter

首先本地需要有两款IDEA 可以是相同版本,也可以是不同版本。反正要有两个,一个用来调试代码,一个启动。 移除原有ja-netfiler 打开你的ja-netfiler的vmoptions目录,修改其中的idea.vmoptions文件。移除最后一行-javaagent ...参…

基于R语言BIOMOD2 及机器学习方法的物种分布模拟

BIOMOD2是一个R软件包,用于构建和评估物种分布模型(SDMs)。它集成了多种统计和机器学习方法,如GLM、GAM、SVM等,允许用户预测和分析物种在不同环境条件下的地理分布。通过这种方式,BIOMOD帮助研究者评估气候…

数据结构(Java):力扣 二叉树面试OJ题(二)【进阶】

目录 💎 1、题一:二叉树的层序遍历 🌟 1.1 思路1(递归求解) 🌟 1.1.1 思路1代码 🔆 1.2 思路2(队列求解) 🔆 1.2.1 思路2代码 💎 2、题二&…

基于Java中的SSM框架实现求职招聘网站系统项目【项目源码】

基于Java中的SSM框架实现线求职招聘网站系统演示 研究方法 本文的研究方法主要有: (1)调查法 调查法就是在系统的构思阶段,设计者对系统的功能和系统的现状有些不了解,需要去实地的去和本系统相关的区域进行调查&am…

制造运营管理系统(MOM系统),企业实现先进制造的关键一步

随着全球制造业的快速发展,企业对于生产效率和成本控制的要求日益增高。在这个背景下,制造运营管理系统(MOM系统)成为了企业提升竞争力的关键工具。盘古信息作为业内领先的智能制造解决方案提供商,其MOM系统更是以其卓…

django学习入门系列之第四点《BootStrap依赖》

文章目录 往期回顾 BootStrap依赖于JavaScript的类库,JQuery下载 下载JQuery,在界面上应用JQuery 在页面上应用BootStrap和avaScript的类库【JQuery是avaScript的类库】 JQuery的官网: jQuery 如果要应用JQuery 则要在body里面导入文件…

华为HCIP Datacom H12-821 卷42

42.填空题 如图所示,MSTP网络中SW1为总根,请将以下交换机与IST域根和主桥配对。 参考答案:主桥1468 既是IST域根又是主桥468 既不是又不是就是25 解析: 主桥1468 既是IST域根又是主桥468 既不是又不是就是25 43.填空题 网络有…

【漏洞复现】泛微OA E-Cology getdata.jsp SQL注入漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

Spring Boot集成kudu快速入门Demo

1.什么是kudu 在Kudu出现前,由于传统存储系统的局限性,对于数据的快速输入和分析还没有一个完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现数据快速输入。随着快速输入和分析场景越来越多&a…

【VScode】安装【ESP-IDF】插件及相关工具链

一、ESP-IDF简介 二、VScode安装ESP-IDF插件 三、安装ESP-IDF、ESP-IDF-Tools以及相关工具链 四、测试例程&编译烧录 一、ESP-IDF简介 二、VScode安装ESP-IDF插件 【VScode】安装配置、插件及远程SSH连接 【VSCode】自定义配置 打开VScode,在插件管理搜索esp…

视频共享融合赋能平台LntonCVS视频监控业务平台技术方案详细介绍

LntonCVS国标视频综合管理平台是一款智慧物联应用平台,核心技术基于视频流媒体,采用分布式和负载均衡技术开发,提供广泛兼容、安全可靠、开放共享的视频综合服务。该平台功能丰富,包括视频直播、录像、回放、检索、云存储、告警上…

水利行业的智慧革命:深度剖析智慧水利解决方案,看其如何以科技力量提升水资源管理效率,保障水生态安全

目录 一、智慧水利的概念与内涵 二、智慧水利解决方案的核心要素 1. 感知层:全面监测,精准感知 2. 网络层:互联互通,信息共享 3. 平台层:数据分析,智能决策 4. 应用层:精准施策&#xff0…