Single-Stage 6D Object Pose Estimation 论文详解

摘要

这篇文章建立在基于分割驱动的6D姿态估计论文,论文中参考文献[13]就是这篇论文,实际上这两篇论文是一个实验室的工作,本篇论文也是在解决[13]结论中作者提出的问题。
最新的 6D 姿态估计框架首先依赖深度网络来建立 3D 对象关键点和 2D 图像位置之间的对应关系,然后使用基于 RANSAC 的 Perspective-n-Point (PnP) 算法的变体。 然而,这个两阶段的过程不是最理想的:首先,它不是端到端的可训练的。 其次,训练深度网络依赖于不直接反映最终 6D 姿态估计任务的代理损失。
在这项工作中,我们引入了一种深度架构,可以直接从对应关系中回归 6D 姿势。 它将每个3D关键点的一组候选对应关系作为输入,并说明每个组内对应关系的顺序无关紧要,而组的顺序,即3D关键点的顺序是固定的。 我们的架构是通用的,因此可以与现有的对应提取网络结合使用,从而产生单阶段 6D 姿势估计框架。 我们的实验表明,这些单阶段框架在准确性和速度方面始终优于两阶段框架。

1.Introduction

两阶段的6D问题存在三个缺点。

  • 用于训练深度网络的损失函数并不反映姿态估计的真实目标,而是编码了一个替代任务,例如最小化检测到的图像投影的 2D 误差。 然而,这些误差与姿势精度之间的关系并不是一对一的。 如图 1 (a) 所示,对于最新框架,具有相同平均 2D 误差的两组对应关系可能会导致不同的姿态估计。
    我总结一下:现阶段大多数基于2D投影点预测的网络的优化目标是减小预测点位置和真实点位置的平均误差,因此,即使是同一个优化目标值,也可能得到两个不同的预测结果。
  • 两阶段过程不是端到端可训练的。
  • 当需要处理许多对应关系时,迭代的 RANSAC 非常耗时。

图1

因此,仍然没有可以联合处理关键点定位和 6D 姿态估计的端到端框架。 在本文中,我们通过引入一个简单但有效的网络来克服这个问题,该网络直接从与每个 3D 对象关键点相关联的 3D 到 2D 对应组中回归 6D 姿势。**它的架构明确编码每个组中对应的顺序是不相关的,同时利用组的顺序是固定的并且对应于 3D 关键点的顺序这一事实 **。 然后,我们通过将其与两个最先进的对应提取框架 [13, 36] 相结合来证明该网络的普遍性。 这产生了准确且可重复的端到端可训练 6D 姿势估计框架。 我们展示了这些单阶段框架在准确性和运行时间方面系统地优于原始的双阶段框架 [13, 36]。([36]:PVNet)

2.Related Work

这些方法的共同点是,对应关系是相互独立建立的,并且一致性只是在事实之后由不属于深度网络的 RANSAC PnP 算法强加。 如[53]所示,尽管在不同的上下文中,这未能利用所有对应关系都受相机姿势约束并且因此彼此不独立的事实。
我们在本文中的目标是通过将过程中基于 RANSAC 的 PnP 部分实现为可以与建立对应关系的深度网络相结合的深度网络,从而将上述两阶段过程转变为单阶段过程。 这不是一个小问题,因为 PnP 的标准方法涉及执行奇异值分解 (SVD),它可以嵌入到深度网络中,但通常会导致数值不稳定。 在 [5] 中,通过避免显式使用 SVD 而是通过直接线性变换 (DLT) 方法 [9] 将 PnP 视为最小二乘拟合问题来解决这个问题。 然而,这并不能保证结果描述了真正的旋转,仍然需要进一步的后处理。
相比之下,[49] 的反向传播友好的特征分解方法执行显式 SVD,并且原则上可以用于执行 PnP。 但是,这样做将无法考虑算法的 RANSAC 部分来选择正确的对应关系。 虽然 RANSAC 可以通过深度网络 [1, 2] 实现,但其较差的可重复性(如图 1(b)所示)使其不适合训练端到端 6D 姿态估计网络。 简而言之,目前还没有人提出令人满意的解决方案来设计单级 6D 姿态估计网络,这也是我们在此解决的问题。
我们的架构受到 PointNet [37, 38] 的启发。 然而,PointNet 旨在为刚性转换提供不变性,这与我们所需要的相反。 此外,我们引入了一种分组特征聚合方案来有效地处理 6D 对象姿态估计中的对应聚类。

3.Approach

给定一个RGB图像由一个标定的摄像机捕获,我们的目标是同时检测物体并估计其6D姿态。 我们假设它们是刚性的,它们的三维模型是可用的。 在这一节中,我们首先形式化了6D姿态估计问题,假设目标物体上的每个3D关键点都有一组先验的2D对应,并提出了一个从这些输入产生6D姿态的网络结构。 该网络由图3所示。 然后,我们讨论了当这些对应是另一个网络的输出时,如何获得一个单级6D位姿估计框架。

3.1 6D Pose from Correspondence Clusters

共有n个3D关键点,每个3D关键点有m个可能的correspondences。
λ i k [ u i k 1 ] = K ( R p i + t ) ( 1 ) \lambda_{ik}\begin{bmatrix} u_{ik}\\ 1 \\ \end{bmatrix}=K(Rp_{i}+t) \ (1) λik[uik1]=K(Rpi+t) (1)

图2

经典的PNP方法[21,7,46]试图在给定几个对应关系的情况下恢复R和T,这通常涉及到使用RANSAC来寻找有效的对应关系。 在这个过程中,必须对许多随机选择的对应子集进行奇异值分解,在找到一个只包含有效对应集之前,必须尝试这些子集。
在这项工作中,我们提出用一个适当设计的具有参数θ的深度网络G来实现非线性回归来代替这个繁琐的过程。
( R , t ) = g ( { ( p i ↔ u i k ) } 1 ≤ i ≤ n , 1 ≤ k ≤ m ; θ ) ( 2 ) (R,t)=g(\left\{ (p_{i}\leftrightarrow u_{ik})\right\}_{1\leq i\leq n,1\leq k\leq m};\theta ) \ (2) (R,t)=g({(piuik)}1in,1km;θ) (2)

我们现在来看 g θ g_{\theta} gθ的实际实现,在本节的其余部分我们首先讨论网络作为输入的3D到2D对应集合 C 2 3 = { ( p i ↔ u i k ) } i ≤ i ≤ n , 1 ≤ k ≤ m C^{3}_{2}=\left\{ (p_{i}\leftrightarrow u_{ik})\right\}_{i\leq i\leq n,1\leq k\leq m} C23={(piuik)}iin,1km然后讨论 我们设计的架构来解释它们。

3.1.1 Properties of the Correspondence Set

我们将与特定3D点相关联的所有2D点称为一个聚类,因为假设用于寻找它们的算法是一个好的算法,它们倾向于围绕3D点投影的真实位置聚类,如图1所示。 我们的实施选择是由以下考虑因素驱动的:

  • 聚类排序。簇内的对应顺序无关紧要,不应影响结果。 但是,簇的顺序对应于 3D 点的顺序,这是给定的和固定的。
  • 簇内与跨簇群交互。虽然同一簇中的点对应于同一3D点,但每个点的2D位置估计应该是有噪声的。 因此,该模型需要捕捉每个簇内的噪声分布。 更重要的是,单个聚类不能告诉我们关于姿态的信息,最终的姿态只能通过捕获多个聚类的全局结构来推断。
  • 刚性转换很重要。当用深度网络处理三维点云时,通常希望结果对刚性变换不变。 相反,在这里,我们希望我们的2D点表示三维点的投影,我们从它们中提取的特征应该依赖于它们的绝对位置,这是姿态估计的关键。

3.1.2 网络结构

我们构建了一个简单的网络体系结构,如图3所示。 利用上面讨论的性质从对应簇中预测姿态。 它包括三个主要模块:具有共享网络参数的局部特征提取模块、单个簇内的特征聚集模块和由简单的全连通层构成的全局推理模块。

图3

  • 局部特征提取。 主要解决性质2,通过单个对应的三层MLP实现簇间的交互,不同对应之间的权重是共享的,这实现了跨簇间的交互。
  • 分组特征聚合。由于聚类的顺序是给定的,但每个聚类内的点是无顺序的,为了提取每个聚类的表示,我们设计了一种对对应顺序不敏感的分组特征聚合方法。 理论上,我们可以使用类似于PointNet的体系结构 。然而,PointNet的设计是为刚性转换提供不变性,这与我们需要的相反。 相反,给定 n n n个簇,每个包含m个2D关键点 { u i k } , 1 ≤ i ≤ n , 1 ≤ k ≤ m \left\{u_{ik} \right\},1\leq i\leq n,1 \leq k \leq m {uik},1in,1km,我们定义了一个集合函数

f i k f_{ik} fik是通过上述全连接层获得的 u i k u_{ik} uik的D维度特征表示。MAX()最大池化操作,CAT()合并操作。
在我们的实验中,我们发现实例规一化和批规一化都没有提高这里的性能。 因此,我们在我们的网络 g θ g_{\theta} gθ中不使用这些操作。
原则上,可以使用单个最大池操作,而不考虑群的顺序,就像PointNet[37]所做的那样,实现所有点的置换不变性。 然而,在我们的例子中,这将意味着忽略组的顺序是固定的这一属性。 相比之下,等式3对簇内的任何排列都是不变的,但仍然说明预定义的簇顺序。 我们将在结果部分演示这种方法的好处。
总结一下这里Max处理顺序不变,所以针对于k找最大,因为对应内部的2D点顺序无所谓,所以将Max作用于k,而有许多个簇,这些簇间的顺序是无所谓的,所以直接合并。

  • 全局推理。然后,我们将聚集群体特征的ND维向量传递给另一个MLP,该MLP输出6D姿态。 为此,我们使用三个完全连通层,并将最终姿态编码为四元数和平移。

4.遗留问题

1.图三中CNN的输出那个彩色的图是什么,在论文中的解释是CNN输出中的颜色表示从网格单元中心到相应的投影3D边界框角的2D偏移,但我没有看懂 2.网络结构中Local Feature Extraction 的输入是m*4,这个4是什么意思?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1549973.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

刚体6D位姿估计方法综述

本文同步于微信公众号:3D视觉前沿,欢迎大家关注。 1 引言 刚体的6D位姿估计,是指估计相机坐标系下物体的6D位姿,即3D位置和3D姿态,此时原始物体本身的坐标系可以看作是世界坐标系,也即得到原始物体所在世…

6D位姿估计学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、基本知识6D位姿相机内参 二、6D位姿估计方法1.基于对应点的方法2.基于模板3.基于投票评价标准小结 一、基本知识 6D位姿 参见文章:物体6D位姿的含…

YOLO6D

同时检测RGB图像和预测其6D位姿,不需要多阶段或者检查多重假设 只需要3D bounding box作为物体形状加入训练,不需要详细的3d模型 CNN卷积网络架构 预测与感兴趣的对象的三维模型相关联的虚拟三维控制点(9个点,8个角点&#xff0c…

6D模型:超越PDCA

敏捷教练的核心能力之一是策略思考。 敏捷教练核心能力之:策略思考 敏捷教练的另一项核心能力是沟通与影响力。 变革需跨越的鸿沟:TOC六层抗拒(TOC R6) 策略思考背后有一个6D模型。 6D模型概览 Six-Discipline Model: Overview 6D…

6D位姿估计的理解及BOP数据集参数说明

6D位姿估计的理解及BOP数据集参数说明 一、6D位姿估计 姿态估计在百度上搜会出现“姿态估计问题就是确定某一三维目标物体的方位指向问题”的解释,但是具体来讲确定某一三维目标物体的方位指向问题到底是什么意思呢? 首先,6D表示6个自由度&…

物体6D位姿的含义

本文同步于微信公众号:3D视觉前沿,欢迎大家关注。 在一些有关物体6D位姿估计或者机器人抓取的论文中,我们常会听到一个词:物体6D位姿估计 (6D object pose estimation),那什么是物体的6D位姿呢?它和SLAM中…

春秋云镜:CVE-2019-9042(Sitemagic CMS v4.4 任意文件上传漏洞)

一、题目 靶标介绍: Sitemagic CMS v4.4 index.php?SMExtSMFiles 存在任意文件上传漏洞,攻击者可上传恶意代码执行系统命令。 进入题目: admin/admin /index.php?SMExtSMFiles&SMTemplateTypeBasic&SMExecModeDedicated&SMFil…

midi键盘接电脑实现电子琴功能

将一台midi键盘接到电脑上,变成一台电子琴,似乎是一个很简单的事情。找一个音乐编辑类软件,可以接受midi键盘的输入就可以了。比如 freeepiano 就可以接midi键盘。但是这样实现的其实是电钢琴,而不是电子琴。 为什么?…

简述docker的网络模式

Docker 提供了多种网络模式,用于控制容器之间以及容器与主机之间的网络通信。以下是 Docker 的一些常见网络模式 briage模式: docker容器启动时默认就是该模式,在该模式下,docker容器会连接到一个名为docker0的虚拟以太网桥上,通…

PG Music Band-in-a-Box 2021 + RealBand WiN 智能伴奏软件安装升级包

Band-in-a-Box 2021 是一款屡获殊荣的自动伴奏软件,非常易于使用!只需使用标准和弦符号(例如 C、Fm7 或 C13b9)输入任何歌曲的和弦,选择您想要的风格,剩下的就交给 Band-in-a-Box 2021 。Band-in-a-Box 202…

Android 11 Display亮灭屏

系统休眠唤醒的时候会涉及到亮灭屏,下面分析下系统(高通8155平台)Display亮灭屏流程 1. 点亮屏幕 点亮屏幕入口在framework/base/下面LightsService.java,然后通过调用SurfaceControl.java ,最终调用到framework/native下面的Sur…

lgg7无需9008,最简单无脑root

LGg7 root方法(解bl锁后通用) 前提,已经解了bl锁(这个不难,LG的845机型解锁方法都一样。除了g7的t版,这个要换u硬解) 工具:已破解的LG up(LG官方的线刷工具)&#xff0c…

SAP ABAP实现类似于ME23N/MIGO的折叠屏幕开发

本文用于说明折叠屏幕的开发实现方式,类似于标准前台ME23N或者MIGO类似的效果,最终demo程序实现效果如下。 实际上屏幕折叠并不是真正的控件,而是根据想要的折叠或者展开效果,来选择不同的子屏幕进行展现。 比如下图点击折叠抬头…

小新pad TB-J606按键无法进入刷机模式,9008端口无法识别,可尝试如下主板短接操作,操作步骤

小新pad TB-J606按键无法进入刷机模式,9008端口无法识别,可尝试如下主板短接操作,操作步骤 1、断开电池连接线 2、镊子短接图中两点 3、安装电池 4、连接数据线,等待9008端口识别 5、移除镊子,进行刷机 具体操作步骤…

s6 android 6.0,三星Android 6.0更新升级详细名单:只有国行S6 Edge(G9250)

此前,外媒曾泄露了一份三星机型的Android 6.0首批升级清单,去年的旗舰机Galaxy S5竟不在其中,使得消费者对手机第一大厂很失望。其中,三星目前的旗舰智能手机Galaxy S6, Galaxy S6 edge, Galaxy Note5和Galaxy S6 edge将升级到And…

新能源汽车技术的最新进展和未来趋势

文章目录 电池技术的进步智能驾驶与自动驾驶技术充电基础设施建设新能源汽车共享和智能交通未来趋势展望结论 🎉欢迎来到AIGC人工智能专栏~探索新能源汽车技术的最新进展和未来趋势 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客…

正则表达式一小时学完

闯关式学习Regex 正则表达式,我感觉挺不错的,记录一下。 遇到不会的题,可以评论交流。 真的很不错 链接 Regex Learn - Step by step, from zero to advanced.

如何基于亚马逊云科技打造高性能的 SQL 向量数据库 MyScale

MyScale 是一款完全托管于亚马逊云科技、支持 SQL 的高效向量数据库。MyScale 的优势在于,它在提供与专用向量数据库相匹敌甚至优于的性能的同时,还支持完整的 SQL 语法。在这篇文章中,我们将阐述 MyScale 是如何借助亚马逊云科技的基础设施&…

Supervisor配置和使用

Supervisor配置和使用 一、使用背景二、工具简介三、安装四、配置文件1. 位置2. 步骤 五、服务启动六、supervisorctl客户端管理七、常用操作指令八、示例九、配置项说明supervisored.conf配置项说明进程任务配置项说明 十、web页面监控 一、使用背景 目前在公司搭建了一套基于…

Mac最佳屏幕录像机:FoneLab Screen Recorder

FoneLab Screen Recorder是一款功能强大的屏幕录像机软件,它允许您在 Mac 上捕获视频、音频、在线教程等,您可以轻松自定义大小、编辑视频或音频等。如果您想录制会议、电影、电话、教程、电视节目、歌曲、快照或其他内容,FoneLab Screen Rec…