通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE

本文首发: AIWalker

https://arxiv.org/abs/2312.09158
https://glee-vision.github.io
AIWalker后台回复【GLEE】即可下载原文与译文。

在这项工作中,我们提出了GLEE:一个对象级的基础模型,用于定位和识别图像和视频中的对象

  • 通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
  • 采用内聚学习策略,GLEE从不同监督级别的不同数据源中获取知识,以形成通用对象表示,擅长零次迁移到新数据和任务。

具体来说,我们采用图像编码器,文本编码器和视觉解码器来处理多模态输入,从而能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。 通过对来自不同基准的500多万张图像进行广泛的训练,GLEE表现出显着的多功能性和改进的泛化性能,有效地处理下游任务,而不需要特定于任务的适应。 通过集成大量的自动标注数据,我们进一步增强了其零炮概化能力。 此外,GLEE能够被集成到大型语言模型中,作为基础模型为多模态任务提供通用的对象级信息。 我们希望,我们的方法的可靠性和普遍性将标志着一个重要的一步,有效的视觉基础模型的AGI系统的发展。 模型和代码将在/上发布。

本文亮点

  1. 我们提出了GLEE:一个通用的以对象为中心的基础模型的图像和视频, GLEE能够同时处理各种以对象为中心的任务,同时保持最先进的性能。
  2. 我们开发了一个多粒度的联合监督框架和一个可扩展的训练范例。 GLEE的统一方法支持多源数据,并能够对来自不同监督级别的各种基准的500多万张图像进行联合训练。 这大大方便了额外的手动或自动注释数据的合并,并简化了数据集的缩放。
  3. GLEE在对象级图像和视频任务的范围内展示了卓越的通用性和强大的zero-shot可传输性。 此外,GLEE可以提供现代LLM目前缺乏的可视化对象级信息,从而作为增强其他架构或模型的基础组件。

本文方案

如图所示,所提GLEE包括一个图像编码器,一个文本编码器,一个视觉解码器,和一个对象解码器。 文本编码器处理与任务相关的任意描述,包括对象类别、任何形式的名称、关于对象的标题和引用表达式。 视觉识别器在交互式分割期间将诸如点、边界框或涂鸦的用户输入编码成目标对象的对应视觉表示。 然后,它们被集成到一个检测器中,用于根据文本和视觉输入从图像中提取对象。
[外链图片转存中…(img-rSDYttld-1708828086389)]

关于方案的详细介绍建议感兴趣的同学查看原文。AIWalker后台回复【GLEE】即可下载原文与译文,快快学习呀。

本文实验

如上表所示:我们的模型在COCO和LVIS基准上都优于所有通才模型。 即使与其他最先进的spec-cialist方法相比,我们的模型仍然具有很强的竞争力。 这表明,GLEE同时掌握普遍和一般的对象表示,同时保持先进的能力, 这种特性对于适应需要精确目标定位的广泛下游任务至关重要。 对于REC和RES任务,我们在Ref-COCO [120],RefCOCO+ [120]和RefCOCOg [72]上评估了我们的模型,如表1所示,GLEE实现了与SOTA专业方法PolyFormer [62]相当的结果,展示了强大的理解文本描述的能力,并展示了适应更广泛的多模态下游任务的潜力。 在开放世界实例分割任务中,我们将“对象”视为类别名称,指示模型以类不可知的方式识别图像中所有可能的实例。 GLEE比之前的ODISE [107]高出8.9分,证明了识别开放世界场景中可能存在的所有合理实例的能力。GLEE模型作为对象级视觉基础模型的通用性和有效性,直接适用于各种以对象为中心的任务,同时确保最先进的性能,而不需要微调

zero-shot

如上表所示:GLEE超过先前最佳方法OVTrack 36.0%,在BURST中几乎是最佳基线性能的三倍,在LV-VIS中超过OV 2Seg43.6%。 这种出色的性能有力地验证了GLEE在处理一系列基准测试和任务的对象级任务时的卓越泛化和zero-shot能力

Ablation

  • 数据规模 使用10%、20%、50%、100%的训练数据训练GLEE-Pro,以评估zero-shot转移任务的性能,包括TAO、BURST、OVIS和YTVIS。 增加训练数据集的大小可增强不同下游任务的零触发性能。

  • 用作基础模型 我们用一个冻结的、预训练的GLEE-Plus代替丽莎视觉中枢,并将来自GLEE的对象查询馈送到LLAVA中,并去除LISA的解码器。 我们直接将输出的SEG令牌与GLEE特征映射进行点积来生成掩码。 经过同样数量的训练,改进后的LISA-GLEE获得了与原始版本相当的结果,证明了GLEE表示的多功能性及其在服务于其他模型中的有效性

效果展示

对于图像级交互式分割,GLEE支持将点、框或涂鸦作为视觉提示发送到模型,从而实现指定对象的直接分割。在视频对象分割的情况下,使用来自第一帧的掩蔽特征作为提示引用特征允许在视频的后续帧中分割对应的对象。

小结

我们介绍了一个先进的对象级基础模型GLEE,旨在直接适用于广泛的对象级图像和视频任务。 GLEE采用统一的学习范式,从不同监督级别的不同数据源中学习; GLEE在许多对象级任务上实现了最先进的性能,并在zero-shot泛化到新数据和任务方面表现出色,显示出其卓越的通用性和泛化能力。 此外,GLEE提供了一般的视觉对象级信息,这是目前在现代LLM中缺失的,为以对象为中心的mLLM奠定了坚实的基础

AIWalker后台回复【GLEE】即可下载原文与译文,快快学习呀。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2809477.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

第二节:Vben Admin 登录逻辑梳理和对接后端准备

系列文章目录 上一节:第一节:Vben Admin介绍和初次运行 文章目录 系列文章目录前言项目路径的概述一、登录逻辑梳理loginApi接口查看Mock 二、后端程序对接准备关闭Mock 总结 前言 第一节,我们已经配置了前端环境,运行起来了我们…

查看笔记本电池健康状态-windows11

在 Windows 11 中获取详细的电池报告 Windows 11 中内置的 Powerfg 命令行选项来生成电池报告。 在任务栏上选择“搜索”,键入“cmd”,长按(或右键单击)“命令提示符”,然后选择“以管理员身份运行” ->“是”。 …

【Flink精讲】Flink性能调优:CPU核数与并行度

常见问题 举个例子 提交任务命令: bin/flink run \ -t yarn-per-job \ -d \ -p 5 \ 指定并行度 -Dyarn.application.queuetest \ 指定 yarn 队列 -Djobmanager.memory.process.size2048mb \ JM2~4G 足够 -Dtaskmanager.memory.process.size4096mb \ 单个 TM2~8G 足…

自动驾驶---行业发展及就业环境杂谈

进入21世纪以来,自动驾驶行业有着飞速的发展,自动驾驶技术(L2---L3)也逐渐落地量产到寻常百姓家。虽然最早期量产FSD的特斯拉有着深厚的技术积累,但是进入2010年以后,国内的公司也逐渐发展起来自己的自动驾…

【Java程序员面试专栏 算法思维】二 高频面试算法题:二分查找

一轮的算法训练完成后,对相关的题目有了一个初步理解了,接下来进行专题训练,以下这些题目就是汇总的高频题目,本篇主要聊聊二分查找,包括基础二分,寻找目标值的左右边界,搜索旋转数组以及波峰,以及x的平方根问题,所以放到一篇Blog中集中练习 题目关键字解题思路时间空…

python常用文件操作

1.文件夹创建,删除,重命名,路径连接,文件打开,关闭读写 #文件夹创建 path ./test newpath "./new" #判断文件夹是否存在 ret os.path.exists(path) if ret:pass else:#创建文件夹os.mkdir(path)#文件夹重…

查看mysql数据库的版本

要查看MySQL数据库的版本,可以使用以下几种方法: 命令行(已连接到MySQL服务器): 登录到MySQL服务器后,在MySQL提示符下执行: mysql> SELECT VERSION(); 或者,也可以执行 STATUS; …

[C++]C++中memcpy和memmove的区别总结

这篇文章主要介绍了C中memcpy和memmove的区别总结,这个问题经常出现在C的面试题目中,需要的朋友可以参考下 变态的命名 我们在写程序时,一般讲究见到变量的命名,就能让别人基本知道该变量的含义。memcpy内存拷贝,没有问题;memmove&#xff…

大数据开发项目--音乐排行榜

环境:windows10,centos7.9,hadoop3.2、hbase2.5.3和zookeeper3.8完全分布式; 环境搭建具体操作请参考以下文章: CentOS7 Hadoop3.X完全分布式环境搭建 Hadoop3.x完全分布式环境搭建Zookeeper和Hbase 1. 集成MapReduce…

【03】逆序数组

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 一、逆序函数是什么? 二、逆序函数原码 1.直接逆序 2.创建临时数组逆序 三、结言 💥一、逆序函数是什么? 示例:输入1 4 …

springBoot整合Redis(一、Jedis操作Redis)

在springboot环境下连接redis的方法有很多,首先最简单的就是直接通过jedis类来连接,jedis类就相当于是redis的客户端表示。 但是因为现在比较常用的是:StringRedisTemplate和RedisTemplate,所以jedis只做简单的介绍。 一、Jedis…

强化学习(GPS)

GPS——Guided Policy Search引导策略搜索 基于模型的强化学习算法 GPS目前被作为基础算法广泛应用于各种强化学习任务中,其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法。由于没有利用任何环境的内在属性&#xff0…

在线网络代理转发NPClient

NPClient操作方式: 用浏览器打开网站http://101.35.247.87:9000/ 点击注册 输入注册的用户名和密码,就会进入如下界面: 点击登录 输入用户名和密码后进入如下界面: 点击下载代理客户端,下载时要稍微等一下&#xff0c…

【hashmap】【将排序之后的字符串作为哈希表的键】【获取 HashMap 中所有值的集合】Leetcode 49 字母异位词分组

【hashmap】【将排序之后的字符串作为哈希表的键】【获取 HashMap 中所有值的集合】Leetcode 49 字母异位词分组 解法1 将排序之后的字符串作为哈希表的键解法2 在解法一的基础上加入了getOrDefault ---------------🎈🎈题目链接🎈&#x1f3…

K—近邻算法实际应用案例

K—近邻算法实际应用案例 1. 案例1:鸢尾花种类预测1.1 数据集获取和属性介绍1.1.1 scikit-learn中的数据集介绍1.1.2 sklearn数据集返回值介绍 1.2 数据可视化介绍(查看数据分布)1.3 数据集的划分1.4 特征工程1.4.1 归一化1.4.2 标准化 1.5 鸢…

09 呼吸灯

呼吸灯简介 呼吸灯实际展示的效果就是一个 LED 灯的亮度由亮到暗,再由暗到亮的变化过程,并且该过程是循环往复的,像呼吸一样那么有节奏。 呼吸灯通常是采用 PWM(Pulse Width Modulation,即脉冲宽度调制) 的方式实现,在…

zabbix监控业务数据

前言 监控系统除了监控os和数据库性能相关的指标外,业务数据也是重点监控的对象。 一线驻场的运维同学应该深有体会,每天需要向甲方或者公司反馈现场的数据情况,正常情况下一天巡检两次,早上上班后和下午下班前各一次。监控项目…

Vue3 路由配置 + 路由跳转 + 路由传参(动态路由传参 + 普通路由传参)

Vue Router: Vue.js 的官方路由。它与 Vue.js 核心深度集成,让用 Vue.js 构建单页应用变得轻而易举。 效果 一、介绍 1、官方文档:https://router.vuejs.org/zh/introduction.html 介绍 | Vue RouterVue.js 的官方路由https://router.vuejs.…

MATLAB练习题:违背直觉的三门问题(非常有趣的一道题目)

​讲解视频:可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇(数学建模清风主讲,适合零基础同学观看)_哔哩哔哩_bilibili 三门问题(Monty Hall problem)又称蒙提…

nginx之状态页 日志分割 自定义图表 证书

5.1 网页的状态页 基于nginx 模块 ngx_http_stub_status_module 实现,在编译安装nginx的时候需要添加编译参数 --with-http_stub_status_module,否则配置完成之后监测会是提示语法错误注意: 状态页显示的是整个服务器的状态,而非虚拟主机的状态 server{…