IJCAI 2024:吉林大学、中国科学院计算技术研究所和自动化研究所等揭示数据增强在开放场景下的“两面性”

吉林大学人工智能学院研究员高一星、中国科学院计算技术研究所副研究员唐帆、中国科学院自动化研究所研究员董未名等在人工智能领域的CCF-A类顶级国际会议IJCAI上发表的工作,揭示并分析基于样本混合的数据增强方法在开放场景下存在的问题,提出了基于非对称蒸馏框架的解决方法。

论文链接:http://arxiv.org/abs/2404.19527

一、研究背景

数据增强在神经网络的训练中扮演着十分重要的作用,根据操作方式的不同,我们可以将其分为基于单个样本的数据增强(Single-Sample-based Augmentation, SSA)和基于多个样本的数据增强(Multiple-Sample-based Augmentation, MSA)。由于MSA通过线性组合训练集中的多个样本产生新数据,可以使数据集中的样本更加多样化,往往也能给模型性能带来更多收益。然而,一些研究指出了这种增强方式会牺牲模型对某些特定类的识别精度或造成模型混淆相似类的特征。

与传统的闭集识别问题不同,开集识别任务(Open-set Recognition, OSR)在要求模型准确分类训练集中所有类别的同时,要求模型能够识别训练集之外的类别。由于未知类数据在训练过程中是不可见的,所以该任务更依靠模型识别到每个已知类独有的特征,因而对上述提到的特征混淆问题也会更敏感。在图1中,我们揭示了MSA在给模型闭集分类能力带来巨大提升的同时牺牲了模型的开集性能。
在这里插入图片描述

图1 数据增强的“两面性”。在带来模型闭集性能提升的同时,MSA会损害模型鉴别未知类别的能力。

通过进一步实验研究数据增强方法和开集识别任务之间的相互作用,我们观察到:(1)在开集识别任务上,由于MSA会混淆相似类的特征,其性能要比SSA差;(2)知识蒸馏(Knowledge Distillation, KD)可以提升模型的开集性能,但MSA同样会损害知识蒸馏带来的开机性能提升。通过深入分析MSA对模型行为的影响,我们发现MSA会降低模型对样本特征和最终输出的整体激活程度。由于现有方法大多通过对模型的输出设置阈值来识别开集样本,模型激活程度的降低直接导致了其更难分辨未知类样本。知识蒸馏虽然一定程度上可以缓解该问题,但由于MSA样本本身的不确定性,直接蒸馏这些样本仍然会出现上述问题。

基于上述观察,我们创新性地提出了非对称蒸馏框架以解决MSA带来闭集性能提升的同时造成模型开集能力退化的问题,达到“双赢”的效果。具体来说,经典的对称蒸馏框架将MSA样本同时输入教师模型和学生模型中,在此基础上,我们将额外的原始样本输入教师模型,通过增加原始样本与混合样本之间的互信息约束使得学生模型更关注混合样本中每个类独有的特征,从而扩大教师模型对学生模型的影响。与此同时,教师模型对一些混合样本会产生错误预测(如对于第i类和第j类的混合样本,教师模型预测其为第k类),这些被错误预测的样本往往不包含该类独特的特征,我们重新赋予这些样本一个不确定度较高的标签,使学生模型降低对这些类无关特征的激活水平,学习更具有分辨性的特征。

二、研究内容

2.1 揭示数据增强的“两面性”

我们用不同的SSA、MSA方法训练ResNet、VGG、MobileNetV2等模型以验证图1得到的结论。除此之外,参考以往的工作,我们研究了知识蒸馏对MSA的影响。实验结果表明:(1)MSA相对SSA能给模型闭集识别准确率带来更多收益,但会造成模型开集能力的显著下降;(2)知识蒸馏可以同时提升模型的开集和闭集识别性能,然而,在MSA加入蒸馏时,模型的闭集识别准确率会进一步提高,而蒸馏对模型开集性能的提升会被破坏。

2.2 MSA影响开集识别任务中模型的判别指标

OSR任务中,模型通过对测试样本输出的logits设置阈值以鉴别未知类样本。因此,模型对已知类和未知类激活水平的差异会直接影响模型鉴别未知类的能力。

在这里插入图片描述

图2 MNIST数据集上不同训练方式下类间差异对比。

Choi等人提出MSA会造成模型混淆具有相似语义的类别,在图2的两幅热力图中,我们展示了在MNIST数据集上的可视化结果。图中‘k’和‘uk’分别表示已知类和未知类,下划线后的数字表示其具体类别。由于MSA会影响模型的整体激活水平,所以由MSA(CutMix)训练得到的模型热力图整体颜色更暗。对比两幅热力图,在图中所示的类别中,相似类(数字‘2’和数字‘3’,数字‘2’和数字‘5’)的差异前后变化更明显,而不相似类(数字‘4’和数字‘5’,数字‘4’和数字‘8’)的差异前后变化不大。相似类之间的这种混淆使得模型更容易将与这些类有相似特征的未知类识别为已知类,从而造成开集能力的退化。
在这里插入图片描述

图3 不同训练方式下模型激活程度对比。

考虑到开集识别任务中模型主要依靠对最终输出的logits设置阈值来筛选未知类,在图3中,我们对比了不同训练方式下模型特征(图3左)以及模型对已知类和未知类输出的最终logits(图3右)的整体水平。如图所示,MSA造成了模型特征激活水平的下降,也缩小了已知类和未知类之间logits的差距,使模型更难分辨两者。知识蒸馏可以增大已知类和未知类之间激活水平的差距,从而提升模型的开集性能。然而,MSA在加入蒸馏过程之后,会破坏蒸馏的提升作用。

在这里插入图片描述

图4 教师模型对不同混合比例的混合样本做出的错误预测和过度自信预测的统计结果。

由于一些混合样本可能产生模糊的语义信息,导致即使性能强大的教师模型也容易做出错误预测。在图4中,我们统计了教师模型对不同混合比例下的样本做出过度自信预测(预测概率大于95%)和错误预测的比例,结果显示,即使在两个样本均匀混合的条件下,教师模型也会对20%以上的样本做出过度自信的预测,且被错误预测的混合样本的比例也不容忽视。

三、非对称蒸馏框架
在这里插入图片描述

图5 非对称蒸馏框架结构图。

3.1 交叉互信息损失

如图5所示,在传统的对称蒸馏框架中,使用第i和j类的混合样本训练时,教师模型和学生模型同时输入混合样本,利用蒸馏损失函数进行训练。在此基础上,我们提出非对称蒸馏框架,教师模型除输入混合样本外,还会接受额外的原样本作为输入。对于混合样本,我们通过最大化教师和学生输出的特征中的互信息使模型在混合样本中更关注每个类独有的特征。例如,在学习第i类独有特征时,对于学生模型产生的混合样本的特征,我们最大化其与教师模型特征中包含的第i类特征的互信息,此目标可以表达为最大化以下互信息项:
在这里插入图片描述

基于此目标,我们通过优化互信息损失函数:
在这里插入图片描述

可以使学生模型更专注于混合样本中分别包含的第i和第j类独特的特征,从而减少类间混淆现象的产生。由于此目标较难直接优化,我们发现了教师模型对第i和第j类原样本输出的特征中分别包含了我们期望从混合样本中得到的每个类的独有特征,因此我们将上式重新组织为:
在这里插入图片描述

超参数为第i和j类的的混合比例。

3.2 双热标签平滑

除此之外,我们使用松弛的样本筛选策略过滤出教师模型错误预测的混合样本。具体来说,若教师模型将第i类和第j类的混合样本预测为第k类时,我们将其视为错误样本,这些错误样本往往不包含第i和j类具有分辨性的特征。我们使用重标签方法,在这些混合样本原有的双热标签的基础上加以平滑,利用这些样本学习到更多的不确定性,并降低模型对这些样本中包含的类无关特征的激活程度和预测置信度。

经过以上讨论,最终模型的训练损失为蒸馏损失、交叉互信息损失和重标签损失三部分:
在这里插入图片描述

在我们的实验中,两个权重超参数均为1。

四、对比分析

在标准的开集分类基准数据集、语义偏移基准数据集(Semantic Shift Benchmark, SSB)、大规模基准数据集ImageNet-21k等数据集上的实验表明,我们提出的非对称蒸馏框架解决了混合样本带来模型开集性能下降的问题。我们的方法在模型的闭集识别准确率和开集识别性能上都超越了现有方法。
在这里插入图片描述

表1在大规模数据集ImageNet-21k不同困难程度的分划上的实验结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015142.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

vue实现点击选中以下内容按钮选中按钮位置以下的所有数据项

1、预期效果 该需求的由来,是公司的产品为了实现如飞书这款应用中,IM聊天界面多选消息时一个快捷选择消息的操作功能。 2、实现思路 1. 使选择按钮悬浮在列表试图上方; 2. 在鼠标按下按钮时在其样式添加 pointer-events: none 使鼠标点击…

揭秘马斯克的日常:凌晨3点睡,每天苦恼开哪辆车,曾一度每周工作120小时 | 最新快讯

作为特斯拉和 SpaceX 的首席执行官,同时也是社交媒体平台X(前身为推特)的拥有者,埃隆马斯克以其在科技和商业领域的杰出成就而闻名。他的成功与其独特而苛刻的日常生活习惯密切相关。 上班前必须先洗澡 通勤时苦恼开哪辆特斯拉 据…

某大型文旅集团车辆维修公司薪酬绩效改革项目纪实 图片附件

---如何通过绩效薪酬改革,帮助公司降本增效 文旅行业“旺丁不旺财”?学会这样激励人才!“五一”假期出游继续呈现火爆态势,但也出现了一些“旺丁不旺财”“增收不增利”的现象。文旅行业最重要的还是人力因素,靠人去做…

GPS与精致农业 无人机应用 农业遥感 农业类

全球定位系统是美国国防部主要为满足军事部门对海上、陆地和空中设施进行高精度导航和定位的要求而建立的。GPS系统最基本的特点是以“多星、高轨、高频、测量-测距”为体制,以高精度的原子钟为核心。GPS作为新一代卫星导航与定位系统,不仅具有全球性、全…

AF594-标记羊抗鼠免疫球蛋白(H+L),山羊抗小鼠IgG全长抗体已被交叉吸附在抗人IgG和人血清上,然后再偶联以小化交叉反应性

试剂介绍: AF594-标记羊抗鼠免疫球蛋白(HL)是荧光标记二抗,我们的山羊抗小鼠IgG全长抗体已被交叉吸附在抗人IgG和人血清上,然后再偶联以小化交叉反应性。 这种AF594标记的山羊抗小鼠IgG缀合物通过交叉吸附的山羊抗小鼠IgG全抗体与AF594 NHS酯…

python-scrapy框架示例

参考:https://blog.csdn.net/qq_44907926/article/details/119531324 创建项目步骤: 1.目标网站:www.itcast.cn 2.安装虚拟环境 pip install virtualenv3.创建虚拟环境 virtualenv --always-copy --system-site-packages venv4.激活虚拟环境 venv\sc…

便捷的驾驶证识别API,简化工作流程

随着社会的发展和人们生活水平的提高,机动车的数量也越来越多。为了确保交通安全和减少违法行为,每个驾驶机动车的人都需要携带驾驶证。然而,识别驾驶证上的信息却是一个繁琐的过程。为了简化这个工作流程,提高工作效率&#xff0…

信创基础软件之数据库

一、数据库概述 数据库是一种用于存储和管理拥有固定格式和结构数据的仓库型数据管理系统。其主要用于业务数据的存储和业务逻辑运算,具体负责保障数据的安全性、完整性、多用户对数据的并发使用以及发生故障后的系统恢复。 二、数据库的体系架构 数据库内核:对数…

这份攻防图谱,哪个搞安全的见了会不想要?(附下载)

近年来,随着我国信息化建设不断推进,信息技术广泛应用,信息网络快速普及。信息网络在促进经济发展、社会进步、科技创新的同时,也带来十分突出的信息安全问题。 现今的网络攻击手段逐步多样化、攻击方式也更加隐蔽难以发现。对于…

信息安全-古典密码学简介

目录 C. D. Shannon: 一、置换密码 二、单表代替密码 ① 加法密码 ② 乘法密码 ③密钥词组代替密码 三、多表代替密码 代数密码 四、古典密码的穷举分析 1、单表代替密码分析 五、古典密码的统计分析 1、密钥词组单表代替密码的统计分析 2、英语的统计规…

WebSocket 全面解析+实战演练(Nodejs实现简易聊天室)

🔥 个人主页:空白诗 文章目录 🌟 引言📚 WebSocket基础概念📌 什么是WebSocket?📌 为什么需要WebSocket?📌 与HTTP的关系 💻 WebSocket API 使用指南&#x1…

《学周刊》杂志社学周刊杂志社学周刊编辑部2024年第15期目录

高等教育 人工智能时代的高校人才培养模式创新探讨 潘邦超; 1-3 高等院校视角下的“家校社”协同育人问题及对策研究——以驻盐高校为例 张雨清; 4-6 职业教育《学周刊》投稿:cn7kantougao163.com 基于EST理念的中职《成本会计》课程混合式教学策略研究…

JAVA中的线程、死锁、异常

线程 Thread 一、程序 1.一段静态代码(静态) 二、进程 1.动态的,有开始,有结束;2.程序的一次执行过程,3.操作系统调度分配资源的最小单位; 三、…

循环编码:时间序列中周期性特征的一种常用编码方式

在深度学习或神经网络中,“循环编码”(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列…

函数编辑器调研及设计开发

前言:在产品研发中需要一款可嵌入web开发的代码及函数编辑器,本文从功能,扩展,外观/交互,维护/社区,兼容性,开源与否等方面考虑,进行对比筛选 1、编辑器统计数据 市面上编辑器有很…

软考是否存在包过班?

国家考试,虽然有人喊着包过,但你也别轻易相信啊,姐妹,要好好保护好你的钱包啊!这种考试是没有所谓的包过的。 给你一些学习软考需要注意的要点: 1、深入理解考试内容: 在准备软考之前&#xf…

【redis】redis持久化分析

目录 持久化Redis持久化redis持久化的方式持久化策略的设置1. RDB(快照)fork(多进程)RDB配置触发RDB备份自动备份手动执行命令备份(save | bgsave)flushall命令主从同步触发动态停止RDB RDB 文件恢复验证 RDB 文件是否被加载 RDB …

面试中算法(删去n个数字后的最小值)

有一个整数,从该整数中去掉n个数字,要求剩下的数字形成的新整数尽可能小。 分析:使用栈的特性,在遍历原整数的数字时,让所有数字一个一个入栈,当某个数字需要被删除时,(即栈顶数字&g…

期权扫盲贴:基础知识汇总,如何开通低佣期权账户(建议收藏)

一、什么是场内期权? 场内期权,也被称为交易所期权,是指在证券交易所内进行交易的标准化期权合约。 场内期权的交易是由证券交易所发布和监管的,具有统一的合约规格和交易规则,因此方便投资者进行交易。 以中国证券…

智慧公厕建设,打造智慧城市基础设施新亮点

公共厕所是城市基础设施的重要组成部分,而智慧公厕的建设则是现代城市管理的创新之举。为了实现公厕的精细化管理和提供更便捷的服务,推进智慧公厕建设必须要实现技术融合、业务融合、数据融合的目标,跨越层级、地域、系统、部门和业务的限制…