【前沿热点视觉算法】-RGB-D显著目标检测的边缘感知多模态变压器

计算机视觉算法分享。问题或建议,请文章私信或者文章末尾扫码加微信留言。

1 论文题目

  • RGB-D显著目标检测的边缘感知多模态变压器

2 论文摘要

  • RGB-D显著目标检测(SOD)近年来引起了广泛的关注。特别是,变压器已被使用,并显示出巨大的潜力。然而,现有的变压器模型往往忽略了重要的边缘信息,这是限制SOD精度进一步提高的主要问题。为此,我们提出了一种新的边缘感知RGB-D SOD变压器,称为EM-Trans,它在双带分解框架中显式地建模边缘信息。具体来说,我们采用两个并行解码器网络,分别从一个双蒸汽多模态主干网络中提取的低阶和高级特征中学习高频边缘和低频体特征。接下来,我们提出了一个交叉注意互补探索模块,利用多模态互补信息来丰富边缘/体特征。然后将改进后的特征输入到我们提出的颜色提示引导融合模块中,以增强深度特征和融合多模态特征。最后,利用我们的深度监督渐进融合模块对所得到的特征进行融合,该模块逐步集成边缘特征和身体特征来预测显著性映射。我们的模型明确地考虑了精确的RGB-D SOD的边缘信息,克服了现有方法的局限性,有效地提高了性能。在基准数据集上的大量实验表明,EM-Trans是一种有效的RGB-D SOD框架,无论在定量和定性上都优于当前最先进的模型。对RGB-T SOD的进一步扩展显示了我们的模型在各种多模态SOD任务中的巨大潜力。

3 论文创新点

  • 提出了一种新的边缘感知RGB-D SOD模型,该模型在多波段分解框架中明确考虑边缘信息,其中多模态体/边缘特征从从主干中提取的高/低级特征中预测。
  • 提出了CACE,一个有效的特征互补探索模块,通过利用具有交叉注意机制的多模态互补信息来丰富身体/边缘特征。
  • 设计了两个有效的融合模块,包括一个多模态融合模块(即CGMF),它集成了多模态特征,以及一个边缘-体融合模块(即DSPF),它逐步集成了身体和边缘特征与深度监督。
  • 对五个基准数据集进行的广泛的定量和定性评估表明,我们的EM-Trans优于最先进的(SOTA)RGB-D SOD模型。进一步的消融研究和对RGB-T SOD的扩展验证了所提出的模块的有效性,以及我们的EM-Trans对各种多模态SOD任务的潜力。

4 论文架构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 不足之处

  • 然而,我们的EM-Trans可能会在一些极具挑战性的情况下失败。图9显示了我们的EM-Trans和最近提出的四种SOTA模型的一些失效案例。在第一行中,我们的EM-Trans错误地检测到了水中的反射。在第二行中,EMTrans错误地识别了自行车车轮的中间部分。在最后一行中,EM-Trans忽略了雕像手中的旗帜。然而,值得注意的是,SOTA模型在这些情况下也失败了,而我们的EM-Trans仍然比这些SOTA模型获得了更好的性能。我们将通过考虑更详细的结构信息和全局语义信息来改进我们的模型。

6 未来展望

7 论文地址

  • https://ieeexplore.ieee.org/abstract/document/10433541

8 论文代码

  • https://github.com/nzqyw/EM-Trans

计算机视觉最新进展-Sora

  • 尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。

  • 如有其他疑问可以加以下微信二维码联系

在这里插入图片描述
更多计算机视觉最新最先进算法请扫描关注以下公众号
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2808875.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

vmware安装centos 7.9 操作系统

vmware安装centos 7.6 操作系统 1、下载centos 7.9 操作系统镜像文件2、安装centos 7.9 操作系统3、配置centos 7.6 操作系统3.1、配置静态IP地址 和 dns3.2、查看磁盘分区3.3、查看系统版本 1、下载centos 7.9 操作系统镜像文件 本文选择centos 7.9 最小化安装镜像包 这里选…

C++ //练习 8.7 修改上一节的书店程序,将结果保存到一个文件中。将输出文件名作为第二个参数传递给main函数。

C Primer(第5版) 练习 8.7 练习 8.7 修改上一节的书店程序,将结果保存到一个文件中。将输出文件名作为第二个参数传递给main函数。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块 /********…

pthread_cond_timedwait()函数

绝对时间:相对于1970年1月1日0时0分0秒 相对时间:相对于当前时间,如sleep(3);相对于当前,过3s.

RK3568平台开发系列讲解(Linux系统篇)字符设备驱动:主设备和次设备

🚀返回专栏总目录 文章目录 一、主设备和次设备的概念二、设备号的分配和释放沉淀、分享、成长,让自己和他人都能有所收获!😄 字符设备通过字符(一个接一个的字符)以流方式向用户程序传递数据,就像串行端口那样。字符设备驱动通过/dev目录下的特殊文件公开设备的属性和…

STM32单片机基本原理与应用(八)

温度传感器实验 实验内容: 单片机通过代码模拟1-Wire总线并对DS18B20进行读写,并在TFTLCD屏幕上显示当前实时温度。 电路原理图: 1-Wire总线 1-Wire总线:即单总线协议,采用单根信号线,既传输时钟&#…

模型 OIIC(目标、障碍、洞察、挑战)

系列文章 分享 模型,了解更多👉 模型_总纲目录。沟通方案工具。 1 OIIC(目标、障碍、洞察、挑战)模型的应用 1.1 OIIC 驱动的汽车配件渠道优化 一家知名的汽车配件制造商,旗下品牌拥有众多产品,其销售渠道广泛,不仅在…

USB Micro引脚及相应原理图绘制

前言:博主为实现绘制USB Micro输入口原理图,首先在 GD32F103XX的数据手册中找到引脚的功能描述,找到USBDM与USBDP功能,分别为引脚PA11与引脚PA12。然后进行相应的原理图绘制。 * USBDM。USBDM 引脚是与通用串行总线 (Universal Se…

GPT Pilot - 编写 95% 代码的开发工具!

在这篇博客介绍了GPT-pilot的研发细节,原作者将探讨GPT Pilot的技术内核 —— 一款基于GPT-4编写的开发工具,可以生成生产使用代码的应用。 你有没有想过,95%的应用代码,可以由AI编写,就像《钢铁侠》里的贾维斯一样&a…

人工智能在测绘行业的应用与挑战

目录 一、背景 二、AI在测绘行业的应用方向 1. 自动化特征提取 2. 数据处理与分析 3. 无人机测绘 4. 智能导航与路径规划 5. 三维建模与可视化 6. 地理信息系统(GIS)智能化 三、发展前景 1. 技术融合 2. 精准测绘 3. 智慧城市建设 4. 可…

ElasticSearch之bool多条件查询

写在前面 在实际的业务场景中,不可能只是简单的单值查询 ,更多的是n个条件的综合查询,就像下面的搜索: 针对这种场景我们就需要依赖于bool查询了,本文就一起来看下这部分的内容。 1:bool查询介绍 bool查…

推荐Miaoo朋友圈程序全开源版源码

Miaoo朋友圈的全开源程序源码提供了一套完整的解决方案,允许用户在前台轻松发布图文、视频和音乐内容。同时,用户可以设置地理位置信息,或者选择自定义位置。此外,系统支持将发布的内容设置为广告模式,并通过站内消息或…

RK3568平台开发系列讲解(Linux系统篇)字符设备驱动:分配和注册字符设备

🚀返回专栏总目录 文章目录 一、分配和注册字符设备二、file_operations沉淀、分享、成长,让自己和他人都能有所收获!😄 一、分配和注册字符设备 字符设备在内核中表示为struct cdev的实例。在编写字符设备驱动程序时,目标是最终创建并注册与struct file_operations关联…

【海贼王的数据航海:利用数据结构成为数据海洋的霸主】顺序表

目录 1 -> 线性表 2 -> 顺序表 2.1 -> 概念及结构 2.2 -> 接口声明 2.3 -> 接口实现 2.3.1 -> 初始化 2.3.2 -> 销毁 2.3.3 -> 检查 2.3.4 -> 打印 2.3.5 -> 尾插 2.3.6 -> 头插 2.3.7 -> 尾删 2.3.8 -> 头删 2.3.9 ->…

C习题001:顺子日期【仅供参考】

题目:小明特别喜欢顺子。顺子指的是连续的三个数字:123、456等。顺子日期指的就是在日期的yyyymmdd表示法中,存在任意连续的三位数是一个顺子的日期。例如20220123就是一个顺子日期,因为它出现了一个顺子:123&#xff…

Langchain-Chatchat部署总结

项目地址: https://github.com/chatchat-space/Langchain-Chatchat 整体安装比较方便,在阿里云购买云主机,购买的国外站点机器, 该项目运行最佳坏境为 Linux Ubuntu 22.04.5Python 版本 3.11.7CUDA 版本: 12.1torch2.1.2 使…

2024年怎么购买买 FL Studio 21最便宜

随着电子音乐的日益普及,越来越多的人开始尝试制作自己的音乐。而其中一个常用的音乐制作软件就是FL Studio。那么,对于刚入坑的萌新来说,如何选择FL Studio的版本呢? 很多打算入手正版FL Studio的新手朋友都会纠结一个问题&#…

【深度学习笔记】3_12 权重衰减

注:本文为《动手学深度学习》开源内容,部分标注了个人理解,仅为个人学习记录,无抄袭搬运意图 3.12 权重衰减 上一节中我们观察了过拟合现象,即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻…

445. 两数相加 II(Java)

目录 题目描述:输入:输出:代码实现: 题目描述: 给你两个 非空 链表来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储一位数字。将这两数相加会返回一个新的链表。 你可以假设除了数字 0 之外&am…

SpringBoot Admin 详解

SpringBoot Admin 详解 一、Actuator 详解1.Actuator原生端点1.1 监控检查端点:health1.2 应用信息端点:info1.3 http调用记录端点:httptrace1.4 堆栈信息端点:heapdump1.5 线程信息端点:threaddump1.6 获取全量Bean的…

人力资源管理信息化系统如何支持企业开展管理诊断

人力资源顾问有限公司致力于帮助企业开展人力资源管理方面的各项提升改进工作,在长期的咨询工作中,最常听到企业提到的问题莫过于管理诊断方面的问题,事实上,很多企业在日常工作中,都意识到企业内部存在管理方面的问题…