使用文本到图像模型的一步图像翻译

使用文本到图像模型的一步图像翻译

  • 摘要
  • Introduction
  • Related Work
  • Method

One-Step Image Translation with Text-to-Image Models

摘要

在这项工作中,作者解决了现有条件扩散模型的两个局限性:由于迭代去噪过程导致的推理速度慢以及模型微调对配对数据依赖的问题。

为了解决这些问题,作者引入了一种通过对抗性学习目标将单步扩散模型适应到新任务和领域的一般方法。具体来说,作者将原始潜扩散模型中的各种模块整合为一个具有小可训练权重的端到端生成网络,增强了其在保留输入图像结构的同时减少过拟合的能力。

作者证明,在无配对设置中,作者的模型CycleGAN-Turbo在多种场景翻译任务上,例如日夜转换以及添加/移除雾、雪和雨等天气效果,优于现有的基于GAN和基于扩散的方法。作者将作者的方法扩展到配对设置中,在这种设置中,作者的模型pix2pix-Turbo与Sketch2Photo和Edge2Image的最新作品相比肩,但具有单步推理的能力。
代码地址:https://github.com/GaParmar/img2img-turbo

Introduction

条件扩散模型[38, 48, 5, 73]使用户能够根据空间条件和文本提示生成图像,实现了对场景布局、用户草图和人体姿态需要精确控制的多种图像合成应用。尽管它们取得了巨大成功,但这些模型面临着两个主要挑战。首先,扩散模型的迭代性质使得推理过程缓慢,限制了如交互式Sketch2Photo等实时应用的可能性。其次,模型训练通常需要整理大规模的成对数据集,对于许多应用来说,这造成了重大的成本负担,而对于其他一些应用来说则是不可行的[77]。

在这项工作中,作者引入了一种一步到位的图像到图像转换方法,该方法适用于成对和非成对的情况。作者的方法在视觉效果上令人满意,可与现有的条件扩散模型相媲美,同时将推理步骤减少到1步。更重要的是,作者的方法可以在不使用图像对的情况下进行训练。作者的核心思想是通过对抗性学习目标,高效地适应一个新的领域和任务,例如通过预训练的文本条件一步扩散模型,如SD-Turbo [54]。

不幸的是,在作者的实验中,直接将标准的扩散 Adapter 如ControlNet[73]应用于一步设置证明效果不佳。与传统的扩散模型不同,作者观察到噪声图在一步模型中直接影响输出结构。因此,将噪声图和输入条件同时通过额外的 Adapter 分支输入,会导致网络接收到的信息相互冲突。特别是对于非配对案例,这种策略导致原始网络在训练结束时被忽视。此外,由于SD-Turbo模型的多次阶段 Pipeline (编码器-UNet-解码器)不完全重建,输入图像中的许多视觉细节在图像到图像的翻译过程中丢失。这种细节的丢失在输入为真实图像时尤为明显和关键,例如在日到夜的翻译中。

为了应对这些挑战,作者提出了一种新的生成器架构,该架构利用了SD-Turbo权重同时保留了输入图像的结构。首先,作者将条件信息直接输入到UNet的噪声编码器分支中。这使得网络能够直接适应新的控制,避免了噪声图与输入控制之间的冲突。其次,作者将三个独立的模块,编码器、UNet和解码器,整合为一个单一的端到端可训练架构。为此,作者采用LoRA [17]来适应原始网络以适应新的控制和领域,减少过拟合和微调时间。最后,为了保留输入的高频细节,作者通过零卷积[73]在编码器和解码器之间引入跳跃连接。作者的架构是通用的,可作为条件GAN学习目标,如CycleGAN和pix2pix[19, 77]的即插即用模型。据作者所知,作者的工作是首次使用文本到图像模型实现了一步图像翻译。

作者主要关注更难的未配对翻译任务,例如将白天转换为夜晚以及反向转换,以及向图像中添加/移除天气效果。作者展示了作者的模型CycleGAN-Turbo在分布匹配和输入结构保持方面显著优于现有的基于GAN和基于扩散的方法,同时比基于扩散的方法实现更高的效率。作者对方法中的每个设计选择进行了广泛的消融研究。

为了展示作者架构的灵活性,作者也进行了成对设置的实验,比如 Edge2Image 或 Sketch2Photo。作者的模型名为 pix2pix-Turbo,在视觉效果上可与其他最新的条件扩散模型相媲美,同时将推理步骤减少到1步。作者可以通过在预训练模型中使用的噪声图和作者模型编码器输出之间插值来生成多样的输出。总之,作者的研究结果表明,一步预训练的文本到图像模型可以作为许多下游图像合成任务中强大且灵活的基础架构。

在这里插入图片描述

Related Work

图像到图像的翻译。 生成模型最近的发展使得许多图像到图像的翻译应用成为可能。成对的图像翻译方法 [19, 41, 51, 65, 75, 79] 利用重建[20, 74]和对抗损失[13]的组合,将一个源域中的图像映射到目标域。近来,各种条件扩散模型不断涌现,为图像翻译任务整合了文本和空间条件[2, 5, 28, 38, 48, 64, 73]。这些方法通常基于预训练的文本到图像模型。例如,像GLIGEN [28],T2I-Adapter [38],以及ControlNet [73]这样的工作引入了有效的微调技术,使用如门控 Transformer 层或零卷积层的 Adapter 。然而,模型训练仍然需要大量的训练对。相比之下,作者的方法可以在没有图像对的情况下利用大规模扩散模型,并且具有显著更快的推理速度。

在许多情况下,由于配对的输入和输出图像不可用,已经提出了几种技术,包括循环一致性[70, 24, 77],共享中间潜在空间[18, 27, 29],内容保持损失[56, 60],和对立学习[40, 14]。最近的工作[52, 67, 59]也探讨了无配对翻译任务中的扩散模型。然而,这些基于GAN或基于扩散的方法通常需要在新领域上从头开始训练。相比之下,作者引入了第一种利用预训练扩散模型的无配对学习方法,展示了比现有方法更好的结果。

文本到图像模型。 大规模文本条件模型[39, 46, 49, 11, 21]通过在互联网级数据集[55, 6]上的训练,显著提高了图像的质量和多样性。几项工作[15, 35, 37, 42, 62]提出了零样本方法,使用预训练的文本到图像模型编辑真实图像。例如,SDEdit[35]通过向输入图像添加噪声,然后根据文本提示用预训练模型进行去噪来编辑真实图像。Prompt-to-Prompt方法在图像编辑过程中进一步操纵或保留交叉注意力和自注意力层中的特征[15, 12, 15, 42, 44, 62]。其他方法在图像编辑之前对网络或文本嵌入进行微调[23, 37],或采用更精确的逆推方法[57, 63]。尽管它们取得了令人印象深刻的结果,但在具有许多目标的复杂场景中,它们经常遇到困难。作者的工作可以看作是使用来自新领域/任务的成对或非成对数据来增强这些方法。

一步生成模型。 为了加快扩散模型的推理速度,近期的研究工作聚焦于通过使用快速的常微分方程(ODE)求解器[22, 32]来减少采样步骤,或者将慢速的多步教师模型蒸馏为快速的几步学生模型[50, 36]。从噪声直接回归到图像通常会产生模糊的结果[33, 76]。对此,各种蒸馏方法使用了连贯性模型训练[58, 34],对抗性学习[69, 54],变分得分蒸馏[66, 71],矫正流[30, 31],以及它们的组合[54]。其他方法直接使用生成对抗网络(GANs)进行文本到图像的合成[53, 21]。与这些专注于一步文本到图像合成的作品不同,作者提出了第一个同时使用文本和条件图像的一步条件模型。作者的方法超越了直接使用原始ControlNet与一步蒸馏模型的 Baseline 。

Method

作者从一个一步预训练的文本到图像模型开始,这个模型能够生成真实的图像。然而,作者的目标是“转换”一个来自源域的输入真实图像到目标域,比如将日间驾驶图像转换为夜间图像。在3.1节中,作者探讨了为作者的模型添加结构的不同条件方法以及相应的挑战。接下来,在3.2节中,作者研究了困扰潜在空间模型[47]的常见问题——细节丢失(例如,文本、手、街道标志),并提出了解决方案。然后,在3.3节中,作者讨论了作者的非配对图像翻译方法,并进一步扩展到配对设置和随机生成(3.4节)。

Adding Conditioning Input
为了将一个文本到图像的模型转换成图像翻译模型,作者首先需要找到一个有效的方法将输入图像 结合到模型中。

噪声与条件输入之间的冲突。 将条件输入融入扩散模型的一种常见策略是引入额外的 Adapter 分支[38, 73],如图3所示。具体来说,作者初始化了一个标记为条件编码器的第二编码器,可以用稳定扩散编码器[73]的权重初始化,或者使用随机初始化权重的小型网络[38]。这个控制编码器接收输入图像 ,并通过残差连接向预训练的稳定扩散模型输出多分辨率的特征图。这种方法在控制扩散模型方面已经取得了显著成果。然而,如图3所示,在一步模型中使用两个编码器(U-Net编码器和条件编码器)处理噪声图和输入图像在语境中提出了挑战。与多步扩散模型不同,一步模型中的噪声图直接控制生成图像的布局和姿态,经常与输入图像的结构相矛盾。因此,解码器接收两组代表不同结构的残差特征,使得训练过程变得更加具有挑战性。

在这里插入图片描述
直接条件输入。 图3还说明了由预训练模型生成的图像的结构显著受到噪声图的影响。基于这一洞见,作者建议将条件输入直接输入到网络中。图7和表4进一步显示,直接条件输入比使用额外的编码器能获得更好的结果。为了使 Backbone 模型能够适应新的条件,作者在U-Net的各个层次中添加了几个LoRA权重[17](见图2)。在这里插入图片描述
在这里插入图片描述
Preserving Input Details
一个关键挑战阻碍了潜在扩散模型(LDM [47])在多目标和复杂场景中的应用,那就是缺乏细节保留。

为什么细节会丢失。 潜在扩散模型(LDMs)的图像编码器通过将输入图像在空间上压缩8倍,同时将通道数从3增加到4。这种设计加快了扩散模型的训练和推理速度。然而,对于需要保留输入图像精细细节的图像转换任务来说,这可能并不是理想的选择。作者在图4中说明了这个问题,其中作者取了一个输入的白天驾驶图像(左),并将其转换为一个对应的夜间驾驶图像,所用的架构没有使用跳跃连接(中)。观察可见,细粒度的细节,如文本、街道标志和远处的汽车,并没有被保留。相比之下,采用包含跳跃连接的架构(右)得到的转换图像显著更好地保留了这些复杂细节。在这里插入图片描述
连接第一阶段编码器和解码器。 为了捕捉输入图像的细粒度视觉细节,作者在编码器和解码器网络之间添加了跳跃连接(见图2)。具体来说,作者在编码器内的每个下采样块之后提取四个中间激活,通过一个11零卷积层[73]处理它们,然后将它们输入到解码器中相应的上采样块中。这种方法确保在整个图像翻译过程中保留复杂的细节。

Unpaired Training
作者使用稳定扩散加速(v2.1)版作为一步推理的基础网络进行所有实验。在这里,作者展示了作者的生成器可以用于修改后的CycleGAN公式[77]进行无配对翻译。具体来说,作者的目标是将源域X∈RHxW×3中的图像转换成所需的目标域y ∈RHxW×3,给定一个无配对的数据集X = {a ∈}, y ={ ∈3}。
作者的方法包括两个翻译函数G(a, cy):X →Y和G(g,cx):Y →X。这两个翻译都使用了如第3.1节和第3.2节所描述的相同网络G,但是对应于任务的不同标题cx和cy。例如,在白天→夜晚翻译任务中,cx 是白天驾驶,而cy是夜晚驾驶。如图2所示,作者冻结了大多数层,只训练了第—卷积层以及添加的LoRA Adapter 。

根据CSDN的规则,我将公式环境中的斜杠 “/” 替换为 “ " ,而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为 " ",而公式单独一行显示时,则替换为"$”。下面是修复后的内容:

循环一致性与感知损失。循环一致性损失 L cycle L_{\text{cycle}} Lcycle 强制每个源图像 α \alpha α 通过两个翻译函数后能够返回到其本身。作者用 L rec L_{\text{rec}} Lrec 来表示 L 1 L_1 L1 差异和 L PIPS L_{\text{PIPS}} LPIPS[74] 的组合。关于权重设置,请参考附录0.D。
L cycle = E a [ L rec ( G ( G ( a , c y ) , c x ) , a ) ] + E y [ L rec ( G ( G ( g , c x ) , c y ) , y ) ] L_{\text{cycle}} = \mathbb{E}_a [L_{\text{rec}}(G(G(a, cy),cx), a)] + \mathbb{E}_y [L_{\text{rec}}(G(G(g,cx), cy), y)] Lcycle=Ea[Lrec(G(G(a,cy),cx),a)]+Ey[Lrec(G(G(g,cx),cy),y)]

对抗损失。作者在两个领域都使用了对抗损失[13],以鼓励翻译后的输出与相应目标领域相匹配。作者使用了两个对抗判别器, D x D_x Dx D y D_y Dy,它们旨在对相应领域的真实图像和翻译图像进行分类。两个判别器都采用CLIP模型作为基础网络,遵循Vision-Aided GAN[26]的建议。对抗损失可以定义为:
L GAN = E x [ log ⁡ D y ( g ) ] + E z [ log ⁡ ( 1 − D y ( G ( a , c y ) ) ) ] + E y [ log ⁡ D x ( ) ] + E y [ log ⁡ ( 1 − D x ( G ( g , c x ) ) ) ] L_{\text{GAN}} = \mathbb{E}_x [\log D_y(g)] + \mathbb{E}_z [\log(1-D_y(G(a, cy)))] + \mathbb{E}_y [\log D_x()] + \mathbb{E}_y [\log(1-D_x(G(g,cx)))] LGAN=Ex[logDy(g)]+Ez[log(1Dy(G(a,cy)))]+Ey[logDx()]+Ey[log(1Dx(G(g,cx)))]

完整目标函数。完整的训练目标包含三种不同的损失:循环一致性损失 L cycle L_{\text{cycle}} Lcycle,对抗性损失 L GAN L_{\text{GAN}} LGAN 和身份正则化损失 L idt L_{\text{idt}} Lidt:
L = arg min c L cycle + λ idt L idt + λ GAN L GAN L = \text{arg min}_c L_{\text{cycle}} + \lambda_{\text{idt}} L_{\text{idt}} + \lambda_{\text{GAN}} L_{\text{GAN}} L=arg mincLcycle+λidtLidt+λGANLGAN
损失通过 $ \lambda_{\text{idt}}$ 和 λ GAN \lambda_{\text{GAN}} λGAN 进行加权。

Extensions
虽然作者的主要关注点是未配对学习,但作者也展示了两个扩展,用以学习其他类型的生成对抗网络(GAN)目标,例如从配对数据中学习以及生成随机输出。
配对训练。作者将作者的翻译网络G适应于配对设置,例如将边缘或草图转换为图像。作者将作者方法的配对版本称为pix2pix-Turbo。在配对设置中,作者的目标是学习单一的翻译函数G(a,c): X →Y,其中×是源域(例如,输入草图),Y是目标域(例如,输出图像),而c是输入标题。对于配对训练目标,作者使用以下几项:(1)重构损失,它是感知损失和像素空间重构损失的组合;(2)GAN损失,类似于方程2中的损失,但只针对目标域;(3)CLIP文本-图像对齐损失LCLIP[45]。更多详细信息请参见附录0.D。
生成多样化输出在许多图像转换任务中,生成随机输出是很重要的,例如,草图到图像的生成。然而,让一步法模型生成多样化的输出是具有挑战性的,因为它需要利用额外的输入噪声,这通常被忽略[18,78]。作者提出通过将特征和模型权重插值到已经能产生多样化输出的预训练模型来生成多样化输出。具体来说,给定一个插值系数y,作者做了以下三个改动。首先,作者将高斯噪声和编码器输出进行结合。作者的生成器G(a,z,T)现在接收三个输入:输入图像α,一个噪声图z,以及系数y。更新后的函数G(a,z,)首先将噪声z和编码器输出结合:yGenc(a)+(1一)z。然后,作者将这个结合后的信号输入到U-Net中。
其次,作者根据日=6o+ y·△0同比例缩放LoRA Adapter 的权重和跳跃连接的输出,其中0和△0分别表示原始权重和新增加的权重。
最后,作者根据系数丫对重建损失进行缩放。
在这里插入图片描述
值得注意的是,~=0对应于预训练模型的默认随机行为,在这种情况下不强制执行重建损失。y=1对应于第3.3和3.4节中描述的确定性翻译。作者使用不同的插值系数对图像翻译模型进行微调。图9显示了这种微调使得作者的模型在推理时通过采样不同的噪声来生成多样化的输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2980338.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

TDSQL同一个所属Set显示3个备份节点

欢迎关注“数据库运维之道”公众号,一起学习数据库技术! 本期将为大家分享《TDSQL同一个所属Set显示3个备份节点》的处置案例。 关键词:分布式数据库、TDSQL、备份节点 1、问题描述 登录赤兔管理平台,单击左侧导航栏“实例管理/集群管理”…

【笔试强训】牛牛快递

链接:牛牛的快递_牛客题霸_牛客网 (nowcoder.com)https://www.nowcoder.com/practice/41b42e7b3c3547e3acf8e90c41d98270?tpId290&tqId39852&ru/exam/oj描述 牛牛正在寄快递,他了解到快递在 1kg 以内的按起步价 20 元计算,超出部分…

路由引入,路由过滤

拓扑图 1.配置IP地址,R1、R3、R4上使用loopback口模拟业务网段 [AR1]int g0/0/0 [AR1-GigabitEthernet0/0/0]ip add 100.1.1.1 24 [AR1-GigabitEthernet0/0/0]int l0 [AR1-LoopBack0]ip add 192.168.0.1 32 [AR1-LoopBack0]int l1 [AR1-LoopBack1]ip add 192.…

金三银四,备战数据结构与经典算法面试

随着春招季节的临近,面试备战成为许多求职者的痛点。如何在激烈的竞争中脱颖而出,成为众多求职者思考的问题。学习Python编程与算法内容,成为面试开发、测试开发等热门岗位的基础。 为了帮助大家更好地应对技术类面试挑战,霍格沃…

【office安装错误1402或1406】

office安装错误1402或1406 错误如图 解决方法 打开autoremove,点击扩展,输入1402,点击搜索 等待修复成功,再尝试安装office 软件每周六选择其他登录方式可以免费使用

初识C++ · 类和对象(中)(2)

前言:上篇文章已经介绍了6个默认成员函数中的3个函数,分别是构造函数,析构函数,拷贝构造函数,本文介绍的是后三个,赋值运算符重载,const成员函数,取地址操纵符重载。 目录​​​​​…

页面加载事件

2.1窗口加载事件 1.window.οnlοadfuction(){} 或者 window.addEventListerner(‘load’,function(){}) doucument.addEventListner(DOMContentLoaded,fuction(){})这个反应更快些

2024商业地产五一劳动节健康大会朋克养生市集活动策划方案

2024商业地产五一劳动节健康大会朋克养生市集(带薪健康 快乐打工主题)活动策划方案 活动策划信息: 方案页码:53页 文件格式:PPT 方案简介: 打工不养生 赚钱养医生 期待已久的五一假期, …

【UE 材质】表面湿润效果

效果 步骤 1. 创建一个材质函数,这里命名为“MF_Weather_Wetness”,打开材质函数添加如下节点 其中输入的默认值分别为: 其中,“Desaturation”节点用于控制饱和度,我们通过给“Fraction”引脚输入一个负值来增加饱和…

​漏电继电器JHOK-ZBLφ150mm 0.03-3A 0.2-2S导轨安装JOSEF约瑟

系列型号: JHOK-ZBL多档切换式漏电(剩余)继电器(导轨) JHOK-ZBL1多档切换式漏电(剩余)继电器 JHOK-ZBL2多档切换式漏电(剩余)继电器 JHOK-ZBM多档切换式漏电(…

[lesson49]多态的概念和意义

多态的概念和意义 函数重写回顾 父类中被重写的函数依然会继承给子类 子类中重写的函数将覆盖父类中的函数 通过作用域分辨符(::)访问父类中的同名成员 多态的概念和意义 面向对象中期望的行为 根据实际的对象类型判断如何调用重写函数父类指针(引用)指向 父类对象则调用…

早些年间学Erupt

Erupt部署 创建一个SpringBoot项目(此处为2.7.10) 目录结构 demo -- 项目名称 ├── src└── main├── java -- 代码文件目录└── com.example.demo -- 包名└── DemoApplication -- 入口类└── resources -- 资源文件目录└── application.properties -- 配置…

”温江公平红烧兔“ 大声安利小众美食

”温江公平红烧兔“ 昨天正好送客户回温江(送了一筐樱桃,希望不太酸), 师傅跟我说,有好吃的兔子,先不急吃午饭。 本来天气晒 晕车,我想着肯定没胃口。 结果第一份凉粉上来,越吃胃…

UE4网络图片加载库(带内存缓存和磁盘缓存)

UE4网络图片加载库,带内存缓存和磁盘缓存,支持自定义缓存大小,支持蓝图和C++代码调用 1、调用示例 2、对外暴露函数 3、源代码-网络模块 KeImageNet.h // Fill out your copyright notice in the Description page of Project Settings.#pragma once#include "CoreM…

Linux:Win10平台上,用VMware安装Centos7.x及系统初始化关键的相关配置(分步骤操作,详细,一篇足以)

VMware安装Centos7.x镜像的详细步骤:VMWare安装Centos系统(无桌面模式) 我这里是为了安装Hadoop集群,所以,以下这些步骤是必须进行的 如果你是学习Linux,可以跳过非必须的那些配置项 我安装的版本是&…

Docker 基本认识

一 国内: 中国电信天翼云 提供包括云主机在内的全方位云计算服务,侧重于安全合规和企业级服务。 利用电信的网络优势,提供稳定可靠的基础设施服务。 中国联通沃云 提供包括云主机在内的多项云计算服务,适合不同行业和场景。 …

第五章关于路由过滤和路由策略实验

一.实验拓扑 二.根据网段配置IP地址 AR1: [Huawei]int G0/0/0 [Huawei-GigabitEthernet0/0/0]ip add 100.1.1.5 24 [Huawei-GigabitEthernet0/0/0]int L0 [Huawei-LoopBack0]ip add 192.168.0.1 32 [Huawei-LoopBack0]int L1 [Huawei-LoopBack1]ip add 192.168.1.1 32 三.按…

《HCIP-openEuler实验指导手册》1.4 Apache MPM工作模式调整

MPM介绍 二、配置步骤 查看MPM当前工作模式 方法一: httpd -M | grep mpm方法二: 浏览器访问:http://IP:端口/server-status 方法三: cat /etc/httpd/conf.modules.d/00-mpm.conf查看 LoadModule mpm_event_module modules/mo…

分保、等保、关保、密评之间联系与区别

分保、等保、关保、密评之间联系与区别 什么是“三保一评”分保等保关保密评 相关的法律法规依据分保等保关保密评 分保工作简介分保工作流程分级保护技术要求 等保工作简介等保系统定级等保工作流程等保2.0技术保护方案规划等保2.0网络安全设备配置建议等保2.0安全管理规划 关…

[Android]Jetpack Compose加载图标和图片

一、加载本地矢量图标 在 Android 开发中使用本地矢量图标是一种常见的做法,因为矢量图标(通常保存为 SVG 或 Android 的 XML vector format)具有可缩放性和较小的文件大小。 在 Jetpack Compose 中加载本地矢量图标可以使用内置的支持&…