YOLO6D

同时检测RGB图像和预测其6D位姿,不需要多阶段或者检查多重假设
只需要3D bounding box作为物体形状加入训练,不需要详细的3d模型

CNN卷积网络架构
在这里插入图片描述预测与感兴趣的对象的三维模型相关联的虚拟三维控制点(9个点,8个角点,第九个为中心点)的二维图像坐标
给出了二维坐标预测,利用PnP算法计算了目标的6D位姿
在这里插入图片描述
首先输入一个完整的彩色图像,用一个全连接层处理,并分割出S x S格(如上图C)
三维输出张量中的每个网格都对应输出一个多维向量,该多维向量包括9个控制点的预测二维图像位置、目标的类概率和总体置信值(是否存在对象)
测试时,对某格子的预测值置信度较低时,即很大概率不存在感兴趣对象,该预测会被删除(如上图e空白处,只输出了4个带目标预测值)

输出目标值:S x S x D (如上图e)
9个控制点(x,y),C个类别预测,1个物体存在与否的置信度
D = 9×2+C+1

计算置信度函数(预测的2D点(用x来表示)与真实点的DT(x) 距离)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述定义为图像空间上的2D欧几里德距离

dth是一个界限参数,阈值
指数函数由 α 控制其函数变化的陡度

实际上将所有控制点使用置信度函数计算,然后计算9个点的置信度平均值作为置信度,代替IoU计算

原网络架构
选择S = 13 ,23个卷积层和5个max-pooling层
增加了一个转移层,使网络的深层能够使用到详细的特征(共享特征)
从早期的分辨率为26×26的图层中引入特征,在实时训练中应用批量归一化和调整输入图像的大小。
当网络将图像采样率降低到32时,将输入分辨率调整至32的倍数(从集合{320,352,…608}随机选取),可使网络对不同大小的对象具有鲁棒性。#代码没有这部分

训练流程
训练时,要预测的二维坐标要加上相对于所在的网格单元的左上角(cx,cy)

对于中心点,限制其偏移量在0到1之间,使其落在单元格之内
但对于角点,不限制网络的输出,因为这些点应该被允许落在单元格之外

预测点(gx,gy)
实际预测出f(x)f(y)是相对于格子里的x和y,以左上角为(0,0)
输出整个图片的x 和 y要加上单元格左上角的坐标
在这里插入图片描述
其中f()为对于中心的是1D 的sigmoid函数
对于8个角点是 the identity function

这就迫使网络首先为对象找到近似的单元格位置,然后对它的八个角位置进行修正。

损失函数:
在这里插入图片描述
Lpt为坐标损失
Lconf 为置信度损失
Lid 为分类损失

对坐标损失和置信度损失使用平方均值误差计算,对分类误差使用交叉熵计算
将不含目标物体的λconf设为0.1,以降低格子的置信度损失——提高模型稳定性
而对于含有目标物体的λconf设为5
λpt 和 λid 设为1.

当多对象靠得很近(在图像上很靠近或者互相遮挡),即有可能一个格子内有多个对象
为了解决该问题的预测位姿,允许每个格子有5个候选对象——每个格子预测5组控制点
这意味着最多5个互相遮挡的对象在一个格子当中
用K-means预计算5个定义大小的anchor box,即与图像中物体周围的掩蔽区域紧密贴合的2D矩形框的宽和高
在训练中,我们指定与当前对象大小最相似的anchor box作为负责预测该对象的2D坐标的anchor box。——和2D的一样,即用固定的对应的盒子一直训练其拟合程度来预测对象

位姿预测
测试时候,对每个对象估计一个特定类置信度(类概率(class probabilities )与置信度相乘)
通过一个网络后,每个格子都产生一个预测,置信度低于阈值的格子将被移除
对于大型对象,或者是那些横跨两个格子的对象,多个格子都可能出现较高的置信度预测,为了得到更鲁棒性的和更准确的位置位姿估计:检查格子附近3X3的格子,看哪格置信度分数最高,取那个格子作为对象中心点所在
通过计算单个检测的加权平均值,将这些相邻格子的单个角点预测结合起来,其中使用的权重是对应格子的置信分数

运行时,网络预测对象的中心点和角点的3Dbounding box的2D投影
通过Perspective-n-Point (PnP) 位姿估计方法 从2D和3D之间的关联程度估计6D位姿
在本情况中,PnP使用9个点的联系,就提供了在摄像机坐标下物体的三维旋转 R 和三维平移 t 的估计。

实现细节
1.通过在ImageNet分类任务上训练原始网络来初始化网络的参数
2.刚开始训练,位姿估计置信度较低不可靠——修正方法:将正则化参数的置信度设置为0来预训练网络参数,随后,通过设置包含对象的格子的λconf为5和 ,没对象的格子的λconf设为0.1来训练网络,以在网络的早期阶段得到更可靠的置信度估计
3.设置置信度函数的 α 为2 和距离阈值为30个像素
4.使用随机梯度下降作优化
5.开始时学习率为0.01,每100次迭代降低10倍
6.避免过拟合,使用大量的数据增强(随机调整色彩、饱和、亮度,随机压缩转换图像尺寸)

实验
数据集
LineMod
OCCLUSION

评估标准
二维投影误差:预测的角点2D投影与实际点之间平均距离小于5个像素才可以接受
IoU评分:预测与实际3D模型投影的重叠部分,大于0.5才接受
模型顶点的平均三维距离:3D实际网格顶点与预测的顶点之间的平均距离要小于对象直径的10%才合格

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1549965.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

6D模型:超越PDCA

敏捷教练的核心能力之一是策略思考。 敏捷教练核心能力之:策略思考 敏捷教练的另一项核心能力是沟通与影响力。 变革需跨越的鸿沟:TOC六层抗拒(TOC R6) 策略思考背后有一个6D模型。 6D模型概览 Six-Discipline Model: Overview 6D…

6D位姿估计的理解及BOP数据集参数说明

6D位姿估计的理解及BOP数据集参数说明 一、6D位姿估计 姿态估计在百度上搜会出现“姿态估计问题就是确定某一三维目标物体的方位指向问题”的解释,但是具体来讲确定某一三维目标物体的方位指向问题到底是什么意思呢? 首先,6D表示6个自由度&…

物体6D位姿的含义

本文同步于微信公众号:3D视觉前沿,欢迎大家关注。 在一些有关物体6D位姿估计或者机器人抓取的论文中,我们常会听到一个词:物体6D位姿估计 (6D object pose estimation),那什么是物体的6D位姿呢?它和SLAM中…

春秋云镜:CVE-2019-9042(Sitemagic CMS v4.4 任意文件上传漏洞)

一、题目 靶标介绍: Sitemagic CMS v4.4 index.php?SMExtSMFiles 存在任意文件上传漏洞,攻击者可上传恶意代码执行系统命令。 进入题目: admin/admin /index.php?SMExtSMFiles&SMTemplateTypeBasic&SMExecModeDedicated&SMFil…

midi键盘接电脑实现电子琴功能

将一台midi键盘接到电脑上,变成一台电子琴,似乎是一个很简单的事情。找一个音乐编辑类软件,可以接受midi键盘的输入就可以了。比如 freeepiano 就可以接midi键盘。但是这样实现的其实是电钢琴,而不是电子琴。 为什么?…

简述docker的网络模式

Docker 提供了多种网络模式,用于控制容器之间以及容器与主机之间的网络通信。以下是 Docker 的一些常见网络模式 briage模式: docker容器启动时默认就是该模式,在该模式下,docker容器会连接到一个名为docker0的虚拟以太网桥上,通…

PG Music Band-in-a-Box 2021 + RealBand WiN 智能伴奏软件安装升级包

Band-in-a-Box 2021 是一款屡获殊荣的自动伴奏软件,非常易于使用!只需使用标准和弦符号(例如 C、Fm7 或 C13b9)输入任何歌曲的和弦,选择您想要的风格,剩下的就交给 Band-in-a-Box 2021 。Band-in-a-Box 202…

Android 11 Display亮灭屏

系统休眠唤醒的时候会涉及到亮灭屏,下面分析下系统(高通8155平台)Display亮灭屏流程 1. 点亮屏幕 点亮屏幕入口在framework/base/下面LightsService.java,然后通过调用SurfaceControl.java ,最终调用到framework/native下面的Sur…

lgg7无需9008,最简单无脑root

LGg7 root方法(解bl锁后通用) 前提,已经解了bl锁(这个不难,LG的845机型解锁方法都一样。除了g7的t版,这个要换u硬解) 工具:已破解的LG up(LG官方的线刷工具)&#xff0c…

SAP ABAP实现类似于ME23N/MIGO的折叠屏幕开发

本文用于说明折叠屏幕的开发实现方式,类似于标准前台ME23N或者MIGO类似的效果,最终demo程序实现效果如下。 实际上屏幕折叠并不是真正的控件,而是根据想要的折叠或者展开效果,来选择不同的子屏幕进行展现。 比如下图点击折叠抬头…

小新pad TB-J606按键无法进入刷机模式,9008端口无法识别,可尝试如下主板短接操作,操作步骤

小新pad TB-J606按键无法进入刷机模式,9008端口无法识别,可尝试如下主板短接操作,操作步骤 1、断开电池连接线 2、镊子短接图中两点 3、安装电池 4、连接数据线,等待9008端口识别 5、移除镊子,进行刷机 具体操作步骤…

s6 android 6.0,三星Android 6.0更新升级详细名单:只有国行S6 Edge(G9250)

此前,外媒曾泄露了一份三星机型的Android 6.0首批升级清单,去年的旗舰机Galaxy S5竟不在其中,使得消费者对手机第一大厂很失望。其中,三星目前的旗舰智能手机Galaxy S6, Galaxy S6 edge, Galaxy Note5和Galaxy S6 edge将升级到And…

新能源汽车技术的最新进展和未来趋势

文章目录 电池技术的进步智能驾驶与自动驾驶技术充电基础设施建设新能源汽车共享和智能交通未来趋势展望结论 🎉欢迎来到AIGC人工智能专栏~探索新能源汽车技术的最新进展和未来趋势 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客…

正则表达式一小时学完

闯关式学习Regex 正则表达式,我感觉挺不错的,记录一下。 遇到不会的题,可以评论交流。 真的很不错 链接 Regex Learn - Step by step, from zero to advanced.

如何基于亚马逊云科技打造高性能的 SQL 向量数据库 MyScale

MyScale 是一款完全托管于亚马逊云科技、支持 SQL 的高效向量数据库。MyScale 的优势在于,它在提供与专用向量数据库相匹敌甚至优于的性能的同时,还支持完整的 SQL 语法。在这篇文章中,我们将阐述 MyScale 是如何借助亚马逊云科技的基础设施&…

Supervisor配置和使用

Supervisor配置和使用 一、使用背景二、工具简介三、安装四、配置文件1. 位置2. 步骤 五、服务启动六、supervisorctl客户端管理七、常用操作指令八、示例九、配置项说明supervisored.conf配置项说明进程任务配置项说明 十、web页面监控 一、使用背景 目前在公司搭建了一套基于…

Mac最佳屏幕录像机:FoneLab Screen Recorder

FoneLab Screen Recorder是一款功能强大的屏幕录像机软件,它允许您在 Mac 上捕获视频、音频、在线教程等,您可以轻松自定义大小、编辑视频或音频等。如果您想录制会议、电影、电话、教程、电视节目、歌曲、快照或其他内容,FoneLab Screen Rec…

MRMC推机器人摄像机Polycam,可自动跟拍运动员

这款名为Polycam的电动相机机器人支持使用图像识别和人工智能技术来追踪运动员的动作,完全不需要人工摄像师的操作。 近日,据外媒报道,MRMC推出一款名为Polycam的电动相机机器人,其支持使用图像识别和人工智能技术来追踪运动员的…

使用Workerman做一个简单的录像直播功能

1、准备好项目 之前做过一个简单的聊天室,我是根据之前弄的聊天室改过来的。 参考:https://blog.csdn.net/qq_38231822/article/details/1128004572、大致思路 这些小东西都是自己没事捅咕玩的,随便写一写。概括来说的话就是将录像定时的转成…

livekit 简单上手教程

什么是livekit? livekit是一个开源的webrtc项目,基于pion实现了SFU架构的go程序。 它主要有以下几个特性: 可以水平扩展的sfu架构。有完整的sdk程序接口供开发人员使用。基于JWT进行身份验证,可与大部分系统进行权限集成。内置Tur…