如何处理多模态数据噪声不均衡动态?天大等最新《低质量数据的多模态融合》综述

图片

多模态融合致力于整合来自多种模态的信息,目的是实现更准确的预测。在包括自动驾驶和医疗诊断等广泛的场景中,多模态融合已取得显著进展。然而,在低质量数据环境下,多模态融合的可靠性大部分仍未被探索。本文综述了开放多模态融合面临的常见挑战和最新进展,并将它们呈现在一个全面的分类体系中。从数据中心的视角,我们确定了低质量数据上多模态融合面临的四个主要挑战,即(1)噪声多模态数据,它们被不同种类的噪声污染;(2)不完整的多模态数据,某些模态缺失;(3)不平衡的多模态数据,不同模态的质量或属性有显著差异;以及(4)质量变化的多模态数据,每种模态的质量会根据不同样本动态变化。这一新的分类体系将使研究人员能够理解该领域的现状,并识别出几个潜在的研究方向。我们还讨论了这一领域的开放问题以及有趣的未来研究方向。

图片

论文:https://arxiv.org/abs/2404.18947

我们对世界的感知基于多种模态,例如触觉、视觉、听觉、嗅觉和味觉。即使某些感官信号不可靠,人类也能从不完美的多模态输入中提取有用线索,并进一步拼凑出正在发生事件的整个场景【1】。随着感知技术的发展,我们可以轻松收集各种形式的数据进行分析。为了充分释放每种模式的价值,多模态融合作为一种有前景的范式出现,通过整合所有可用线索进行下游分析任务,以获得精确和可靠的预测,例如医学图像分析、自动驾驶车辆【2】【3】和情感识别【4】【5】【6】。直观地说,融合来自不同模式的信息提供了探索跨模态相关性并获得更好性能的可能性。然而,人们越来越认识到,广泛使用的AI模型常常被低质量数据中的假相关性和偏见所误导。在现实世界中,由于意外的环境因素或传感器问题,不同模态的质量通常存在差异。一些最近的研究实证和理论上表明,传统的多模态融合可能在野外的低质量多模态数据上失败,例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。为了克服这一限制,并向实际应用中强大且通用的多模态学习迈进一步,我们确定了低质量多模态数据的特性,并专注于现实世界多模态机器融合的一些独特挑战。我们还强调了可能有助于使多模态融合在开放环境中更加可靠和值得信赖的技术进展。在本文中,我们识别并探索了围绕低质量多模态数据的多模态融合的四个核心技术挑战。它们总结如下(也在图1中直观展示): 

(1) 噪声多模态数据。第一个基本挑战是学习如何减轻多模态数据中任意噪声的潜在影响。高维多模态数据往往包含复杂的噪声。多模态数据的异质性使得识别和减少潜在噪声成为挑战,同时也提供了通过探索不同模态之间的相关性来识别和减少噪声的机会。

(2) 不完整的多模态数据。第二个基本挑战是如何学习带有部分缺失模态的多模态数据(即不完整的多模态数据)。例如,在医疗领域,即使是患有同一疾病的患者也可能选择不同的医疗检查,产生不完整的多模态数据。开发能够处理不完整多模态数据的灵活且可靠的多模态学习方法是一个具有挑战性但充满希望的研究方向。 

(3) 不平衡的多模态数据。第三个基本挑战是如何减轻模态间偏差和差异的影响。例如,视觉模态通常比听觉模态更有效,导致模型采取捷径且缺乏对音频的探索。尽管现有融合方法表现出有希望的性能,但它们可能无法在某些偏好特定模态的应用上比单模态主导模型表现更好。

(4) 质量动态变化的多模态数据。第四个基本挑战是如何适应多模态数据的质量动态变化性质。在实践中,由于不可预见的环境因素或传感器问题,一个模态的质量通常会因不同样本而变化。例如,在低光或逆光条件下,RGB图像的信息量不如热成像模态。因此,在实际应用中,意识到融合中的质量变化并动态整合多模态数据是必要的。 

为了应对这些日益重要的多模态融合问题,本研究系统地组织了通过几个分类体系的关键挑战。与以往讨论各种多模态学习任务【13】【14】的相关工作不同,这项综述主要关注多模态学习中最基本的问题以及在下游任务中低质量多模态数据所引起的独特挑战,包括聚类、分类、对象检测和语义分割。在以下部分中,我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域:在噪声多模态数据上的学习(第2节)、缺失模态插补(第3节)、平衡多模态融合(第4节)和动态多模态融合(第5节)。第6节提供了一个作为结论的讨论。

在噪声多模态数据上的学习

在现实世界场景中收集高质量的多模态数据不可避免地面临着由噪声带来的重大挑战。多模态数据【15】的噪声可能源于传感器错误【16】、环境干扰或传输损失。对于视觉模态,传感器中的电子噪声会导致细节丢失。此外,音频模态可能因环境因素受到意外的扭曲。更糟糕的是,弱对齐甚至未对齐的多模态样本也常见,这存在于更高级别的语义空间中。幸运的是,考虑多模态之间的相关性或更好地利用多模态数据可以帮助融合噪声多模态数据。各种相关工作【16】【17】【18】表明,多模态模型超越了它们的单模态对应物。这可以归因于多模态数据利用不同模态之间的相关性,识别和减轻潜在噪声的能力。

多模态噪声大致可以根据其来源分为两类:1) 模态特定噪声,来源于各个模态的传感器错误、环境因素或传输;2) 跨模态噪声,来源于未对齐的多模态对,可以被视为语义级别的噪声。

不完整多模态学习

在真实应用中收集的多模态数据常常不完整,某些样本的部分模态因意外因素(如设备损坏、数据传输和存储损失)而缺失。例如,在面向用户的推荐系统中,浏览行为历史和信用评分信息可能并不总是对某些用户可用【48】。同样地,虽然结合多种模态的数据,例如磁共振成像(MRI)扫描、正电子发射断层扫描(PET)和脑脊液(CSF)信息,可以为阿尔茨海默病提供更准确的诊断【49】【50】,但由于PET扫描的高测量成本和CSF的不适感侵入性测试,一些患者可能拒绝进行这些检查。因此,在阿尔茨海默病诊断中常见不完整的多模态数据【51】。通常,传统的多模态学习模型假设多模态数据的完整性,因此不能直接适用于部分模态缺失的情况。针对这一问题,旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现,并在近年来获得了越来越多的研究关注【52】。在本节中,我们主要关注不完整多模态学习研究的当前进展。从是否对缺失数据进行插补的角度来看,我们将现有方法分为两大类,包括基于插补的和无插补的不完整多模态学习,其中基于插补的方法进一步分为两组,如图2所示,包括实例和模态级别的插补。

平衡多模态学习

不同的模态之间紧密相关,因为它们从不同的视角描述同一概念。这一属性激发了多模态学习的兴盛,其中多种模态被整合,旨在增强对相关事件或对象的理解。然而,尽管存在自然的跨模态相关性,每种模态都有其独特的数据来源和形式。例如,音频数据通常表现为一维波形,而视觉数据则由像素组成的图像构成。一方面,这种差异赋予了每种模态不同的属性,如收敛速度,然后使得同时处理和学习所有模态变得困难,给联合多模态学习带来了难度。另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态描述相同的概念,它们与目标事件或对象相关的信息量不同。例如,考虑一个标有会议的音视觉样本,视觉数据明显显示了会议的视觉内容,这很容易被识别(见图1c)。而相应的音频数据是嘈杂的街道汽车声,很难与会议标签建立联系。视觉模态的信息量显然比音频模态多。由于深度神经网络的贪婪本性【9】,多模态模型倾向于仅依赖具有充足与目标相关信息的高质量模态,同时对其他模态欠拟合。为了应对这些挑战并提高多模态模型的效能,最近的研究集中于策略上,以平衡模态之间的差异并增强模型的整体性能。

动态多模态融合

当前的多模态融合方法常基于一种假设,即多模态数据的质量是静态的,这在现实世界场景中并不总是成立的。处理具有动态变化质量的多模态数据是多模态智能系统不可避免的问题。由于意外的环境因素和传感器问题,一些模态可能会遭受可靠性差和丢失任务特定信息的问题。此外,不同模态的质量会根据场景动态变化,如图5所示。这一现象激发了一种新的多模态学习范式,即动态多模态融合,其目标是适应多模态数据质量的动态变化并有选择性地整合任务特定信息。在本节中,我们关注动态多模态融合的挑战,并将当前文献中的进展分类为三个主要方向,包括启发式、基于注意力和意识到不确定性的动态融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015892.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Python - pyplot 画一个漂亮的饼图 Pie charts

目录 一.引言 二.颜色选择 三.绘制饼图 四.总结 一.引言 因工作需求,需要绘制一些数据的饼图,使用默认的颜色绘制不够美观,下面我们找一些好看的颜色美化一些饼图。 二.颜色选择 我们根据 plt 给出的一些好看颜色对应的编码即可为每一个…

RTT电源管理

嵌入式系统低功耗管理的目的在于满足用户对性能需求的前提下,尽可能降低系统能耗以延长设备待机时间。 高性能与有限的电池能量在嵌入式系统中矛盾最为突出,硬件低功耗设计与软件低功耗管理的联合应用成为解决矛盾的有效手段。 现在的各种MCU都或多或少…

使用Simulink Test进行单元测试

本文摘要:主要介绍如何利用Simulink Test工具箱,对模型进行单元测试。内容包括,如何创建Test Harness模型,如何自动生成excel格式的测试用例模板来创建测试用例,如何手动填写excel格式的测试用例模板来手动创建测试用例…

山东省文史书画研究会成立20周年系列活动徽标征集胜选名单公布

2024年5月1日,山东省文史书画研究会成立20周年系列活动徽标征集落下帷幕。征稿启事下发后,得到社会各界人士的广泛关注与参与,共收到设计方案608件。经过初评,选出5幅作品进入复评,并经过网络投票和专家投票相结合的方…

暴雨发布大模型专用分布式全闪存储

近日,暴雨信息发布为大模型专门优化的分布式全闪存储AVERSE系列。该系列依托暴雨信息自研分布式文件系统,搭载新一代数据加速引擎Xdata,通过盘控协同、GPU直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供…

06-07 - 变量的高级主题

---- 整理自狄泰软件唐佐林老师课程 文章目录 1. 变量值的替换2. 变量的模式替换3. 规则中的模式替换4. 变量值的嵌套使用5. 命令行变量6. 环境变量7. 目标变量(局部变量)8. 模式变量9. 工程 1. 变量值的替换 使用指定字符(串)替…

vue-img-cutter 图片裁剪详解

前言&#xff1a;vue-img-cutter 文档&#xff0c;本文档主要讲解插件在 vue3 中使用。 一&#xff1a;安装依赖 npm install vue-img-cutter # or yarn add vue-img-cutter # or pnpm add vue-img-cutter 二&#xff1a;构建 components/ImgCutter.vue 组件 <script se…

激光雕刻优化:利用RLE压缩技术提高雕刻效率与节省能源成本

什么是 RLE &#xff1f;RLE 在激光雕刻应用实现代码&#xff1a;总结 什么是 RLE &#xff1f; RLE 是 Run-Length Encoding&#xff08;游程长度编码&#xff09;的缩写。这是一种数据压缩技术&#xff0c;它通过减少连续重复的数据来减小文件的大小。RLE 在图像处理、无损…

linux学习:音视频编程+alsa声音架构

目录 概念 采样 量化 编码 音频文件wav 格式 标准音频接口 ALSA 录制音频 步骤 api 获取pcm设备句柄 设置 PCM 设备参数 代码 播放音频 步骤 代码 概念 信号都是模拟信号&#xff0c;不管是声音还是光线&#xff0c;这些模拟信号需要被 A/D 转换器转换成数字信…

小程序预览或上传代码时,遇到app.json未找到某个wxml文件的解决方法

uniapp小程序&#xff0c;点击预览或者是上传代码&#xff0c;遇到app.json无法找到某个wxml文件的解决方法&#xff1a;清缓存 问题&#xff1a; message&#xff1a;Error: app.json: 未找到 ["subPackages"][3]["pages"][3] 对应的 subPackages4/pages/…

PXE 批量安装部署

目录 一、PEX批量部署优点 二、PXE&#xff1a;预启动执行环境 三、搭建PXE远程服务器 要想全自动安装 接下来请看步骤&#xff1a; 一、PEX批量部署优点 规模化&#xff1a;同时装配多台服务器自动化&#xff1a;安装系统 配置各种服务远程实现&#xff1a;不需要光盘&…

语音识别--光谱门控降噪

⚠申明&#xff1a; 未经许可&#xff0c;禁止以任何形式转载&#xff0c;若要引用&#xff0c;请标注链接地址。 全文共计7267字&#xff0c;阅读大概需要3分钟 &#x1f308;更多学习内容&#xff0c; 欢迎&#x1f44f;关注&#x1f440;【文末】我的个人微信公众号&#xf…

FSC森林认证是什么?

FSC森林认证&#xff0c;又称木材认证&#xff0c;是一种运用市场机制来促进森林可持续经营&#xff0c;实现生态、社会和经济目标的工具。FSC森林认证包括森林经营认证&#xff08;Forest Management, FM&#xff09;和产销监管链认证&#xff08;Chain of Custody, COC&#…

使用IIS部署Vue项目

前提 使用IIS部署Vue项目&#xff0c;后端必须跨域&#xff0c;不要在Vue中用proxy跨域&#xff0c;那个只在dev环境中有用&#xff01; IIS安装&#xff0c;不用全部打勾&#xff0c;有些他默认就是方块 ■ 选择性安装的&#xff0c;就维持原样就可以。 添加网站配置 右键…

Ecovadis认证是什么?

Ecovadis认证是一种企业社会责任&#xff08;CSR&#xff09;评估和评级的认证&#xff0c;旨在衡量企业在环境、劳工和人权、道德以及可持续采购四个方面的可持续发展表现。该认证已成为全球范围内许多公司和组织的评估标准之一&#xff0c;有助于提高企业的会声誉和可持续发展…

Redis系列之key过期策略介绍

为什么要有过期策略&#xff1f; Redis是一个内存型的数据库&#xff0c;数据是放在内存里的&#xff0c;但是内存也是有大小的&#xff0c;所以&#xff0c;需要配置redis占用的最大内存&#xff0c;主要通过maxmemory配置 maxmomory <bytes> # redis占用的最大内存官…

Pycharm无法链接服务器环境(host is unresponsived)

困扰了很久的一个问题&#xff0c;一开始是在服务器ubuntu20.04上安装pycharm community&#xff0c;直接运行服务器上的pycharm community就识别不了anaconda中的环境 后来改用pycharm professional也无法远程连接上服务器的环境&#xff0c;识别不了服务器上的环境&#xff…

Nessus 部署实验

一、下载安装https://www.tenable.com/downloads/nessus 安装好之后&#xff0c;Nessus会自动打开浏览器&#xff0c;进入到初始化选择安装界面&#xff0c;这里我们要选择 Managed Scanner 点击继续&#xff0c;下一步选择Tenable.sc 点击继续&#xff0c;设置用户名和密码 等…

2024DCIC海上风电出力预测Top方案 + 光伏发电出力高分方案学习记录

海上风电出力预测 赛题数据 海上风电出力预测的用电数据分为训练组和测试组两大类&#xff0c;主要包括风电场基本信息、气象变量数据和实际功率数据三个部分。风电场基本信息主要是各风电场的装机容量等信息&#xff1b;气象变量数据是从2022年1月到2024年1月份&#xff0c;…