Re-labeling ImageNet(CVPR 2021, Naver)

paper:Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels

official implementation:GitHub - naver-ai/relabel_imagenet

背景

ImageNet 数据集是现代计算机视觉领域的重要基准,广泛用于图像分类模型的训练和评估。然而,ImageNet 存在标签噪声问题,许多图像实际上包含多个类别,但原始数据集中只提供单标签注释。这种单标签的设置在训练和评估过程中都会引入噪声,影响模型性能。

出发点

本文的出发点是解决 ImageNet 数据集中标签噪声的问题,特别是图像中包含多个类别但只有单标签注释的情况。研究人员提出重新标注 ImageNet 训练集,以多标签和定位标签的方式提供更准确的监督信号。

创新点和解决的问题

本文的创新点如下

  • 重新标注策略ReLabel:使用强大的图像分类器重新标注 ImageNet 训练集,生成多标签和定位标签。
  • LabelPooling 训练框架:提出了一种新的训练框架,利用定位多标签来提高模型训练的准确性和鲁棒性。

解决了如下问题

  • 标签噪声:解决 ImageNet 数据集中标签噪声的问题,使得每个图像的注释更准确。
  • 随机裁剪问题:在使用随机裁剪数据增强时,单标签可能导致裁剪区域与原始标签不匹配,引入错误的监督信号。

方法介绍

本文提出了一种新的重新标注的策略 ReLabel,从而在ImageNet训练集上获得像素级的ground truth标签。Label maps有两个特点:1)多类别标签 2)定位标签。Label maps是从一个machine annotator得到的,它是一个在额外的数据上训练的强大的图像分类器。此外作者还提出一种新的训练框架 LabelPooling 来使用这种定位多类别标签训练分类模型。

ReLabel

ReLabel的具体过程如图A1所示,在传统的分类模型中,最后一个stage的输出特征图通过全局平均池化和一个全连接层得到输出的shape为1x1xC,其中C是类别数,然后经过softmax并取argmax得到最终预测结果。而本文提出的ReLabel去掉了全局平均池化,直接用一个1x1卷积得到输出label map的shape为HxWxC,这样就得到了一个全卷积网络(这里和热力图CAM有点像,关于CAM的介绍见CAM: Class Activation Mapping(CVPR 2016)速读),这里的1x1卷积和全连接层是完全相同的。这样就得到了像素级的预测。

这里ReLabel的网络我们称之为machine annotator,它是一个在额外数据集上(例如JFT-300M、InstagramNet-1B)训练的性能强大的分类模型,这个过程可以离线进行并且是一次性的,我们将对ImageNet得到的所有label maps保存到本地,然后在训练时直接加载就可以使用,而不用像蒸馏那样,每个训练样本都需要在teacher model中forward一次得到预测结果。

以EfficientNet-L2作为machine annotator为例,它的输入分辨率为475x475,最终得到的label map维度为 \(L\in \mathbb{R}^{15\times 15\times 1000}\),对于包含 \(1.28\times 10^6\) 张图片的ImageNet来说保存所有label maps大概需要1TB的存储空间。但幸运的是对于每张图片像素级的预测除了top-k类别外其余的几乎都为0,因此为了节省存储空间我们可以只保存前几位的预测结果比如top-5,这样只需要大概10GB的存储空间。

LabelPooling

在得到了密集多标签预测结果后,我们就要用它来训练目标网络,为此作者提出了一种新的训练方法LabelPooling,它在训练过程中考虑到了局部的ground truth。在原始的ImageNet中一张图片只有单个标签,但图片中经常包含多个物体,而random crop是训练分类模型经常使用的一种增强方法,当crop部分包含其它目标或只包含部分ground truth时,用原始的标签训练网络会带来巨大的噪声干扰,如下图所示。

LabelPooling则考虑到了标签的位置性,图3展示了LabelPooling和传统ImageNet监督训练的区别,具体来说因为pre-computed label map是像素级的ground truth,在训练时根据random crop的坐标通过RoIAign从label map中可以得到localized ground truth,然后经过global average pooling和softmax就得到了最终的localized multi-class标签。

 

整个过程的伪代码如下所示

 

本文方法和传统的ImageNet监督训练以及知识蒸馏的区别如表1所示

 

实验结果

在各个ImageNet数据集上的结果如下表所示,可以看到ReLabel在各个数据集上都取得了最好的结果,并且优于Label smoothing和Label cleaning。

ReLabel包含两个特点,多标签和位置性,作者通过消融实验分析了这两者对性能的影响,如表2所示,可以看到去掉两者精度分别下降了0.5%和0.4%,当两者都去掉时就是原始的整图单标签分类只不过标签是模型预测得到的,精度下降了1.4%,因此两者都对精度的提升都不可或缺。

 

作者又研究了ReLabel训练的模型作为backbone在下游任务的表现,如下所示,表明用像ReLabel这样更清晰的监督对模型进行预训练,可以获得更好的特征表示,并提高目标检测和实例分割性能。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3248256.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

中国社科大与英国斯特灵大学合作办学双证创新与领导力管理学博士

中国社科大与英国斯特灵大学合作办学双证创新与领导力管理学博士,2024级火热报名申请中,不想脱产的,不想发表论文的,不想长时间出国的,想短期获取博士学位的,想留服认证的,把握短暂机会啦&#…

网络故障处理及分析工具:Wireshark和Tcpdump集成

Wireshark 是一款免费的开源数据包嗅探器和网络协议分析器,已成为网络故障排除、分析和安全(双向)中不可或缺的工具。 本文深入探讨了充分利用 Wireshark 的功能、用途和实用技巧。 无论您是开发人员、安全专家,还是只是对网络操…

前端面试题(JS篇五)

一、同步与异步的区别 同步指的是当一个进程在执行某一个请求的时候,如果这个请求需要等待一段时间才能返回,那么这个进程会一直等待下去,直到这个消息返回之后才会继续执行。 指的是当一个进程在执行某一个请求的时候,如果这个请…

PSINS工具箱函数介绍——r2d

介绍工具箱里面r2d这个小函数的作用。 程序源码 function deg r2d(rad) % Convert angle unit from radian to degree % % Prototype: deg r2d(rad) % Input: rad - angle in radian(s) % Output: deg - angle in degree(s) % % See also r2dm, r2dms, d2r, dm2r, dms2r% …

电阻有哪些参数呢

电阻是电路中最常见的元件之一,它在控制电流、分压和保护电路等方面发挥着重要作用。了解电阻的主要参数对于选择和使用电阻至关重要。本文将详细介绍电阻的主要参数,包括电阻值、功率额定值、温度系数、容差、噪声、频率特性、体积和封装等。 1. 电阻值…

C语言中常见库函数(2)——内存函数

文章目录 1. memcpy使用和模拟实现2. memmove使用和模拟实现3. memset函数的使用4. memcmp函数的使用 1. memcpy使用和模拟实现 void * memcpy ( void * destination, const void * source, size_t num );函数memcpy从source的位置开始向后复制num个字节的数据到destination指…

MQ - RabbitMQ - 消息的可靠性 --学习笔记

消息的可靠性 RabbitMQ 提供了一系列的特性和机制来确保消息的可靠性,即确保消息不丢失、按需到达目的地。要实现在 RabbitMQ 中消息的可靠性,可通过以下几个方面进行操作: 一、发送者的可靠性 1、生产者重试机制 什么是生产者重试机制&a…

【Java开发实训】day05——数组常见算法

目录 一、数组翻转 1.1示例代码 1.2适用场景 二、冒泡排序 2.1示例代码 2.2适用场景 三、二分查找 3.1示例代码 3.2适用场景 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo…

node解析Excel中的考试题并实现在线做题功能

1、背景 最近公司安排业务技能考试,下发excel文件的题库,在excel里查看并不是很方便,就想着像学习驾考题目一样,一边看一边做,做完之后可以查看正确答案。 2、开始分析需求 题目格式如下图 需求比较简单,…

【ROS2】高级:解锁 Fast DDS 中间件的潜力 [社区贡献]

目标:本教程将展示如何在 ROS 2 中使用 Fast DDS 的扩展配置功能。 教程级别:高级 时间:20 分钟 目录 背景 先决条件在同一个节点中混合同步和异步发布 创建具有发布者的节点创建包含配置文件的 XML 文件执行发布者节点创建一个包含订阅者的节…

视频号直播回放视频下载教程

前言: 随着视频号的不断普及,现在用户在视频号中观看直播和回放的人数逐渐的增多,但是很多时候视频号中的直播和直播回放是无法直接下载的,今天我就教大家如何下载视频号中的直播回放 在这里下载回放需要软件 地瓜网络技术视频…

解锁Vue警报的迷雾:攻克“TypeError: Cannot read property ‘getAttribute’ of null”的奥秘

在Vue.js的广阔天地里,开发者们常常会遇到各式各样的挑战与“小惊喜”。[Vue warn]: Error in mounted hook: “TypeError: Cannot read property ‘getAttribute’ of null”这一错误,就像是一位不速之客,冷不防地在你的代码世界中留下一串令…

51单片机STC89C52RC——18.1 HC-SR04超声波测距

目的/效果 独立按键K1按下后开始测距,LCD显示距离(mm) 一,STC单片机模块 二,HC-SR04 超声波测距 2.1 HC-SR04 简介 HC-SR04超声波测距模块提供2cm~400cm的测距功能,精度达3mm。 2.2 时序 以上时序图表明…

【GPT-4多态大模型研究】

1.概述 GPT-4是OpenAI最新的系统,能够产生更安全和更有用的回应。它是一个大型的多模态模型(接受图像和文本输入,输出文本),在各种专业和学术的基准测试中展现了人类水平的表现。例如,它在模拟的律师资格考…

Android 12系统源码_存储(二)StorageManagerService服务

前言 在 Android 系统中,StorageManagerService是一个用于获取存储设备信息和管理存储设备的服务。它提供了一系列方法,可以获取当前挂载的存储设备信息,以及对存储设备进行挂载和卸载操作。 一、Storage存储模块介绍 1.1、StorageManager…

Android 10.0 Launcher3拖拽图标进入hotseat自适应布局功能实现一

1.前言 在10.0的系统rom定制化开发中,在对于launcher3的一些开发定制中,在对hotseat的一些开发中,需要实现动态hotseat居中 的功能,就是在拖拽图标进入和拖出hotseat,都可以保持hotseat居中的功能,接下来分…

阿里云短信PHP集成api类

无需安装sdk扩展包&#xff0c;直接引入类即可使用 V3版本请求体&签名机制:自研请求体和签名机制 - 阿里云SDK - 阿里云 模版内容&#xff1a; <?phpnamespace common\components;use common\constant\UserConst; use common\models\bee\SmsReferer; use common\mode…

C++从入门到起飞之——类的定义/实例化 全方位剖析!

个人主页&#xff1a;秋风起&#xff0c;再归来~ C从入门到起飞 个人格言&#xff1a;悟已往之不谏&#xff0c;知来者犹可追 克心守己&#xff0c;律己则安&#xff01; 目录 1.类的定义 1.1、类定义格式 1.2、访问限定符 1.3、类域 2.实例化 2.…

备忘录删除了怎么恢复 备忘录误删恢复办法

备忘录作为我们日常生活中的得力助手&#xff0c;帮助我们记录重要事项和灵感&#xff0c;然而&#xff0c;使用中偶尔会出现误删的情况。若不能及时找回误删的内容&#xff0c;可能会造成重要信息的丢失&#xff0c;给我们的工作和生活带来不必要的麻烦。 如果你也担心备忘录…

tinymce富文本支持word内容同时粘贴文字图片上传 vue2

效果图 先放文件 文件自取tinymce: tinymce富文本简单配置及word内容粘贴图片上传 封装tinymce 文件自取&#xff1a;tinymce: tinymce富文本简单配置及word内容粘贴图片上传 页面引用组件 <TinymceSimplify refTinymceSimplify v-model"knowledgeBlockItem.content…