Parts2Whole革新:多参照图定制人像,创新自定义肖像生成框架!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

Parts2Whole革新:多参照图定制人像,创新自定义肖像生成框架!

在这里插入图片描述

引言:探索多条件人像生成的新篇章

在数字内容创作领域,可控的人像生成技术正逐渐成为一个重要的研究方向。这项技术能够根据特定的文本描述、结构信号或更精确的外观条件来合成人像,为用户提供了一种定制化的肖像解决方案。然而,由于控制条件的复杂性,尤其是在多种类型的条件输入和控制人体外观的各个方面时,这项任务呈现出显著的挑战性。

最近,我们介绍了一个名为Parts2Whole的新框架,它旨在从多个参考图像生成定制化的人像,包括姿势图像和人体外观的各个方面。我们的框架通过开发一个语义感知的外观编码器来保留不同人体部位的细节,该编码器基于文本标签处理每个图像,生成一系列多尺度特征图而不是单一图像令牌,以此来保留图像维度。此外,我们的框架通过在扩散过程中操作参考和目标特征的共享自注意机制,支持多图像条件生成。我们通过结合参考人像中的遮罩信息来增强原始注意力机制,允许精确选择任何部分。广泛的实验表明,我们的方法在多部分可控人像定制化方面优于现有替代方案。

论文概览与链接

本文的核心贡献包括构建了一个名为Parts2Whole的新框架,支持基于文本、姿势信号和人体外观多个方面的人像可控生成。我们提出了一个先进的多参考机制,包括一个语义感知图像编码器和共享注意操作,这些机制不仅保留了特定关键元素的细节,而且通过我们提出的遮罩引导方法实现了精确的主体选择。实验表明,我们的Parts2Whole能够从多种条件生成高质量的人像,并与给定条件保持高度一致。

论文链接:From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation

Parts2Whole框架简介

Parts2Whole是一个新颖的框架,旨在从多个参考图像生成定制化的人像,这些参考图像包括姿势图像和人体外观的各个方面(例如头发、面部、衣物、鞋子等)。该框架的核心是一个语义感知的外观编码器,它能够保留不同人体部位的细节,通过文本标签将每个图像处理成一系列多尺度特征图,而不是单一图像令牌,从而保留图像维度。此外,Parts2Whole支持通过共享自注意力机制在扩散过程中跨参考和目标特征进行多图像条件生成。通过在参考人体图像中加入掩码信息,增强了原始注意力机制,允许精确选择任何部分。广泛的实验表明,我们的方法在多部分可控人体图像定制方面优于现有的替代方案。

技术细节:语义感知外观编码器

1. 设计和功能

语义感知外观编码器是Parts2Whole框架中的关键组件之一,它基于参考U-Net架构设计。这个编码器将每个带有文本标签的图像编码成一系列图像维度的多尺度特征图,从而保留了多个参考图像的外观细节和空间信息。额外的语义条件代表类别指令,有助于保留每个方面的更丰富的形状和详细属性。

2. 实现细节

在实际应用中,为避免因下采样造成掩码和原始图像之间的错位,每个注意力层之前都会对掩码应用全一卷积核,确保掩码保留关键区域。总体而言,掩码引导的注意力增强了Parts2Whole精确提取参考图像中指定主题外观的能力。

3. 优势

与传统的图像编码器相比,语义感知外观编码器通过对每个参考图像的不同部分提供文本类标签,使编码器对人体外观的不同部分具有语义上的认识,而不仅仅是执行图像的下采样和上采样操作。这种方法不仅细节丰富,而且灵活真实,有助于生成高质量的人体图像。
在这里插入图片描述

技术细节:共享自注意力机制

1. 共享自注意力的设计与实现

在Parts2Whole框架中,共享自注意力机制是核心技术之一,它允许模型在多个参考图像和目标特征图之间有效共享信息。这种机制通过在扩散过程中跨参考和目标特征操作来支持多图像条件生成。具体来说,我们不是直接将参考图像的特征添加到去噪U-Net中,而是在自注意力层中使用共享的键(keys)和值(values)来实现特征注入。

例如,在某个自注意力层中,给定N个参考图像的特征( F_{1:N} )和去噪U-Net中的特征图( F_0 ),我们将这些特征图侧面拼接作为自注意力层的输入,表示为[ [F_0 | F_1 | … | F_N] ]。这允许( F_0 )上的每个位置s都能够访问自身和所有参考特征图的位置,从而实现详细的信息整合。

2. 增强的掩码引导主题选择

为了进一步提高生成图像的控制能力和质量,我们在共享自注意力机制中加入了掩码引导的主题选择功能。这一机制通过在参考图像中引入主题掩码,使得在计算注意力图时,可以精确地选择特定部分的特征,避免了来自其他元素(如背景)的干扰。

具体实现中,对于去噪U-Net中的特征图( F_0 )上的一个补丁s,以及N个参考图像上的主题掩码( M_{1:N} ),我们只将补丁s与这些掩码内的特征进行注意力计算。这确保了目标补丁s只与参考图像中指定主题的特征交互,从而生成更自然、更符合目标条件的人像图像。
在这里插入图片描述

实验与评估

1. 实验设置

为了验证Parts2Whole模型的效果,我们构建了一个包含约41,500对参考-目标图像对的多模态数据集。这些数据对包括多个参考图像(如姿势图像和不同人体部位的外观图像)以及具有相同个体但不同姿势的目标图像。我们使用了包括OpenPose、Human Parsing和DensePose在内的多种姿势图像,以及头发、脸部、衣物等不同的人体部位图像。

2. 与现有方法的比较

我们将Parts2Whole与几种现有的主题驱动的解决方案进行了比较。这包括基于调整的方法(如DreamBooth LoRA和Custom Diffusion)和不需要调整的方法(如IP-Adapter和SSR-Encoder)。我们的实验结果显示,Parts2Whole在生成多部分条件下的人像图像方面,不仅在图像质量上优于这些现有方法,而且在与给定条件的一致性上也表现更好。
在这里插入图片描述

3. 用户研究

我们进行了用户研究来进一步评估Parts2Whole与其他参考基准方法的比较。在测试集中随机选择了20对参考-目标对,参与者需要根据图像的真实性、合理性和清晰度以及生成图像与参考图像之间的相似度来评分。结果表明,我们的模型在与给定外观条件对齐方面具有明显的优势。

通过这些实验和用户研究,我们证明了Parts2Whole在控制多部分人体外观条件下生成人像图像方面的有效性和优越性。

用户研究:真实感与相似度的评价

在控制人像生成的领域,真实感和相似度是评价生成模型性能的关键指标。用户研究通常侧重于评估生成图像的真实性和与参考图像的一致性。在我们的框架Parts2Whole中,我们通过多种方法增强了这两个方面。

1. 真实感的评价

真实感主要通过用户的主观评价来衡量,即用户观察生成的人像是否能够以为是真实拍摄的照片。在Parts2Whole中,我们采用了高级的语义感知编码器和增强的掩模引导的自注意力机制,这些技术帮助模型在生成图像时保留了更多的细节和特征,从而提高了图像的真实感。

2. 相似度的评价

相似度的评价则更加具体,它关注生成图像与参考图像在视觉和结构上的一致性。我们利用CLIP分数和DINO分数来量化生成图像与参考图像的相似度。此外,我们还进行了用户研究,邀请用户对生成图像的质量和与参考图像的相似度进行评分,以获得更全面的评估。
在这里插入图片描述

案例展示

在Parts2Whole的应用中,我们展示了几个关键的案例来展示模型的效果和灵活性。

1. 多参考图像的融合

通过结合多个参考图像的不同部分(如头发、面部、服装等),Parts2Whole能够生成完整的人像。这一点在图4中有所展示,其中不同的参考图像被成功地融合在一起,生成了一个既保持各部分特征又整体协调的人像。
在这里插入图片描述

2. 不同来源的参考部分

如图7所示,我们的模型能够处理来自不同人的参考图像部分,如一个人的脸部和另一个人的服装,生成的图像既保留了各自的特征,又在整体上保持了自然和谐。
在这里插入图片描述

3. 控制条件的灵活性

Parts2Whole支持从单一部分到多部分的各种组合,如图6所示。这种灵活性使得模型可以广泛应用于个性化和定制化的人像生成。

通过这些案例,我们展示了Parts2Whole在处理复杂和多样化的参考条件下,生成高质量和高相似度人像的能力。

结论与未来工作展望

在本文中,我们提出了一个名为Parts2Whole的新型框架,用于控制人像生成,依据多个参考图像,包括不同的人体外观部分(如头发、面部、衣物、鞋子等)以及姿势图。通过双U-Net设计,我们开发了一个语义感知的外观编码器,将每个条件图像及其标签处理成多尺度特征图,并通过共享自注意力机制将这些丰富的参考特征注入生成过程中。这种设计保留了来自多个参考的细节,并显示出良好的效果。我们还通过加入主体遮罩来增强原始的自注意力机制,使Parts2Whole能够从条件图像中指定部分合成人像。广泛的实验表明,我们的Parts2Whole在图像质量和条件对齐方面表现良好。

未来工作展望

当前,我们的Parts2Whole在512的分辨率下进行训练,可能在某些生成结果中产生人为瑕疵。这可以通过使用更高分辨率和更大的扩散模型如SD-XL作为我们的基础模型来改进。此外,基于我们的Parts2Whole实现层次化的服装试穿将是有价值的,这将进一步推动个性化和精准控制的人像生成技术的发展。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3016408.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Autosar PNC网络管理配置-UserData的使用

文章目录 前言ComComSignalComIPdu CanNmSignal Mapping总结 前言 之前配置的网络管理报文中的data都由ComM管理,后面客户新增了需求,最后两个byte需要发送Wakeup Reason,本文记录一下相关配置的修改 Com ComSignal 之前配置的PN_TX&…

应用层协议——HTTP协议

1. 认识HTTP协议 HTTP(Hyper Text Transfer Protocol)协议又叫做超文本传输协议,是一个简单的请求-响应协议,HTTP通常运行在TCP之上。 超文本的意思就是超越普通的文本,http允许传送文字,图片&#xff0c…

XAMPP是什么?XAMPP好不好用?

XAMPP是一个免费且开源的软件套件,用于在个人计算机上轻松搭建和运行 Apache 服务器、MySQL 数据库、PHP 和 Perl,让用户可以在个人电脑上搭建服务器环境的平台。 XAMPP的由来是 X(表示跨平台)、Apache、MySQL、PHP 和 Perl 的首字母缩写。 它集成了这…

Autosar NvM配置-手动配置Nvblock及使用-基于ETAS软件

文章目录 前言NvDataInterfaceNvBlockNvM配置SWC配置RTE Mapping使用生成的接口操作NVM总结前言 NVM作为存储协议栈中最顶层的模块,是必须要掌握的。目前项目基本使用MCU带的Dflash模块,使用Fee模拟eeprom。在项目前期阶段,应该充分讨论需要存储的内容,包括应用数据,诊断…

《Fundamentals of Power Electronics》——隔离型CUK转换器、

以下是隔离型CUK转换器的相关知识点: Cuk电路的隔离型版本获得方式不同。基础非隔离型Cuk电路如下图所示。 将上图中电容C1分成两个串联的电容C1a和C1b,得到结果如下图所示。 在两个电容之间插入一个变压器,得到如下图所示电路。 变压器极性…

再议大模型微调之Zero策略

1. 引言 尽管关于使用Deepspeed的Zero策略的博客已经满天飞了,特别是有许多经典的结论都已经阐述了,今天仍然被问到说,如果我只有4块40G的A100,能否进行全量的7B的大模型微调呢? 正所谓“纸上得来终觉浅,…

C#知识|将选中的账号信息展示到控制台(小示例)

哈喽,你好啊,我是雷工! 上篇学习了控件事件的统一关联, 本篇通过实例练习继续学习事件统一处理中Tag数据获取、对象的封装及泛型集合List的综合运用。 01 实现功能 在上篇的基础上实现,点击选中喜欢的账号&#xff0…

Day1| Java基础 | 1 面向对象特性

Day1 | Java基础 | 1 面向对象特性 基础补充版Java中的开闭原则面向对象继承实现继承this和super关键字修饰符Object类和转型子父类初始化顺序 多态一个简单应用在构造方法中调用多态方法多态与向下转型 问题回答版面向对象面向对象的三大特性是什么?多态特性你是怎…

Transformer详解:从放弃到入门(三)

上篇文章中我们了解了多头注意力和位置编码,本文我们继续了解Transformer中剩下的其他组件。 层归一化 层归一化想要解决一个问题,这个问题在Batch Normalization的论文中有详细的描述,即深层网络中内部结点在训练过程中分布的变化问题。  …

秘籍解锁 primegaming亚马逊免费游戏领取+下载安装教程秘籍解锁

秘籍解锁!primegaming亚马逊免费游戏领取下载安装教程秘籍解锁! 亚马逊作为几大游戏平台之一也是常常送出各种免费以供玩家们游玩,就在近日,亚马逊平台优势豪掷千金为玩家们送出了两款大作,分别是古墓丽影年度版与乐高…

《设计一款蓝牙热敏打印机》

主控芯片用易兆威蓝牙ic,通讯接口:蓝牙、串口、usb 安卓apk用java kotlin编写、上位机用Qt编写。

PX4二次开发快速入门(三):自定义串口驱动

文章目录 前言 前言 软件:PX4 1.14.0稳定版 硬件:纳雷NRA12,pixhawk4 仿照原生固件tfmini的驱动进行编写 源码地址: https://gitee.com/Mbot_admin/px4-1.14.0-csdn 修改 src/drivers/distance_sensor/CMakeLists.txt 添加 add…

uniapp 监听APP切换前台、后台插件 Ba-Lifecycle

监听APP切换前台、后台 Ba-Lifecycle 简介(下载地址) Ba-Lifecycle 是一款uniapp监听APP切换前台、后台的插件,简单易用。 截图展示 也可关注博客,实时更新最新插件: uniapp 常用原生插件大全 使用方法 在 script…

Python实现打砖块游戏

提供学习或者毕业设计使用,功能基本都有,不能和市场上正式游戏相提比论,请理性对待! 在本文中,我们将使用 Pygame 和 Tkinter 创建一个简单的打砖块游戏。游戏的目标是通过控制挡板来击碎屏幕上的砖块,同时…

Mac虚拟机软件哪个好用 mac虚拟机parallels desktop有什么用 Mac装虚拟机的利与弊 mac装虚拟机对电脑有损害吗

随着多系统使用需求的升温,虚拟机的使用也变得越来越普遍。虚拟机可以用于创建各种不同的系统,并按照要求设定所需的系统环境。另外,虚拟机在Mac电脑的跨系统使用以及测试软件系统兼容性等领域应用也越来越广泛。 一、Mac系统和虚拟机的区别 …

【Pytorch】6.torch.nn.functional.conv2d的使用

阅读之前应该先了解基础的CNN网络的逻辑 conv2d的作用 是PyTorch中用于执行二维卷积操作的函数。它的作用是对输入数据进行二维卷积操作,通常用于图像处理和深度学习中的卷积神经网络(CNN)模型。 conv2d的使用 我们先查看一下官方文档 inpu…

LibTorch入坑记--续2

一、安装faiss 我的faiss&#xff0c;用的是曾经安装过的 pip install faiss-gpu1.7 当时搞得环境名称是pni 二、配置环境 三、例子代码 #include <faiss/IndexFlat.h> #include <faiss/Index.h> #include <faiss/VectorTransform.h> #include <faiss/…

【Linux】Docker 安装部署 Nacos

个人简介&#xff1a;Java领域新星创作者&#xff1b;阿里云技术博主、星级博主、专家博主&#xff1b;正在Java学习的路上摸爬滚打&#xff0c;记录学习的过程~ 个人主页&#xff1a;.29.的博客 学习社区&#xff1a;进去逛一逛~ 【Linux】Docker 安装部署 Nacos docker搜索na…

改进猫群算法丨多车场多车型路径问题求解复现

车间调度系列文章&#xff1a; 1、路径优化历史文章2、路径优化丨带时间窗和载重约束的CVRPTW问题-改进遗传算法&#xff1a;算例RC1083、路径优化丨带时间窗和载重约束的CVRPTW问题-改进和声搜索算法&#xff1a;算例RC1084、路径优化丨复现论文-网约拼车出行的乘客车辆匹配及…

太阳能光伏在生活中的三大作用

随着现在太阳能光伏的逐步发展&#xff0c;太阳能光伏已经越来越走近人们的生活&#xff0c;小编带大家盘点一下光伏在生活中的应用 一、发电 光伏的最初应用就是用来发电&#xff0c;以替代传统的化石燃料发电方式。光伏发电可以从根本上解决当今社会面临的能源短缺问题&…