文本生成图像新SOTA！RealCompo：逼真和构图的动态平衡（清北最新）

文章链接：https://arxiv.org/pdf/2402.12908

最近AI生成内容领域取得了令人激动的很多成果，比如Sora、StableDiffusion-3等等。今天给大家分享另一个内容生成领域的SOTA模型——RealCompo，这是一种新的文本到图像生成框架，旨在利用文本到图像和布局到图像模型的优势，增强生成图像的逼真度和组合性。该框架无需额外的训练，易于迁移，提出了一种直观且新颖的平衡器，在去噪过程中动态平衡两种模型的优势，使任何模型都可以直接使用，无需额外训练。大量实验证明，RealCompo在多对象组合生成方面始终优于最先进的文本到图像模型和布局到图像模型，同时保持了生成图像的逼真度和组合性。

github链接: https://github.com/YangLing0818/RealCompo

介绍

最近，扩散模型取得了令人振奋的发展和显著进步。在各种生成任务中，文本到图像（T2I）生成在社区内引起了相当大的兴趣。由于在大规模图像-文本配对数据集上进行了广泛的训练，T2I模型（例如，Stable Diffusion）展现出强大的语义理解能力，使它们能够基于语义信息生成高度逼真的对象。然而，当输入文本涉及多个对象或复杂关系时，T2I模型生成的图像有时不会与文本提示指定的对象的组合性对齐。下图2展示了来自不同方面的Stable Diffusion的评估结果，未能生成正确数量的对象，缺乏良好的组合性。

优化生成图像的组合性的一个实用方法是将每个对象的布局提供为扩散模型的额外输入。使用布局作为约束T2I模型的另一个条件，这些布局到图像（L2I）模型具有精确控制特定对象在特定位置生成的能力。例如，GLIGEN采用门控自注意力来训练模型，利用布局的全面信息。尽管这些L2I方法改善了对象定位和计数错误的弱点，但其生成结果的逼真度不尽人意。相比之下，T2I模型可以生成具有高逼真度的对象，但是难以遵循文本提示关于对象数量和位置的要求。L2I模型和T2I模型之间存在显著的互补空间。

初步实验研究了每个模型的交叉注意力图。如前面图2所示，T2I模型Stable Diffusion在不受控制条件下，在多对象生成任务中往往难以理解多个对象及其空间关系(如下图1所示)，导致生成图像的组合性不佳。然而，L2I模型GLIGEN主要关注每个标记的交叉注意力图中对象框之外的区域。这表明布局对对象放置施加了过强的约束。因此，由于语义关注不足，如形状和颜色，L2I模型的逼真度和属性绑定仍有改进空间。

为此，本文引入了一个通用的无需训练的文本到图像生成框架RealCompo，该框架利用了一个新颖的平衡器，在生成的图像中实现了逼真度和组合性的动态平衡。

首先利用了LLM（大语言模型）的上下文学习能力来推理出重要对象的布局，并从输入文本提示中实现属性和对象的“预绑定”。然后，引入了一个创新的平衡器来整合预训练的L2I和T2I模型。该平衡器被设计为通过分析每个模型在每个去噪步骤的交叉注意力图来自动调整预测组合的各个系数。这种方法可以整合两种模型的优势，动态平衡生成图像的逼真度和组合性。虽然存在用于合并多个扩散模型的方法，但它们在使用上缺乏灵活性，因为它们需要额外的训练，并且缺乏推广到其他场景和模型的能力。

本文的方法是第一个以无需训练的方式执行模型组合的方法，可以在任何模型之间实现平滑的过渡。作者进行了大量实验，展示了RealCompo在生成具有逼真度和组合性的图像方面的出色性能。如前面图2所示，RealCompo以动态平衡的方式结合了T2I和L2I模型的优势。通过整合布局信息，它将精确的对象定位注入到T2I模型中，同时保持了每个标记的交叉注意力图中对每个对象焦点的特性。这确保了生成高度逼真的图像。

同时，它保持了L2I模型对每个标记的交叉注意力图中框外特征的关注，展示了强大的定位能力和生成图像中组合性的最佳实现。RealCompo使T2I和L2I模型能够保持各自的优势，同时弥补彼此的不足。

本文是文本到图像生成领域首次通过动态实现生成图像的逼真度和组合性之间的平衡来增强生成图像的质量。RealCompo具有选择任意L2I或T2I模型的能力，可以自动平衡它们以实现协同生成。相信RealCompo开辟了可控和具有组合性的图像生成的新研究视角。

主要贡献总结如下：

• 引入了一个新的无需训练且易于转移的文本到图像生成框架RealCompo，通过平衡生成图像的逼真度和组合性，增强了组合式文本到图像的生成能力。

• 在RealCompo中，设计了一个新颖的平衡器，在每个去噪时间步中动态地组合来自T2I和L2I模型的输出。它为组合式图像生成提供了新的视角。

• 通过与先前的最先进方法进行广泛的定性和定量比较，证明了RealCompo在生成多个对象和复杂关系方面的性能显著提高。

准备工作

扩散模型是概率生成模型。它们可以通过训练对随机噪声 ∼ N(0,I) 进行多步去噪，从而生成清晰图像。具体来说，在前向过程中，逐渐向清晰图像添加高斯噪声 ε：

其中 ε ∼ N(0,I)，是噪声计划。训练是通过最小化平方误差损失来进行的：

估计噪声的参数是通过计算真实噪声 ε 和估计噪声之间的损失来逐步更新的。反向过程旨在从噪声开始，并根据每个步骤的预测噪声对其进行去噪。DDIM是一个具有去噪步骤的确定性采样器。

Stable Diffusion是该领域的一项重要进展，它在潜在空间中进行噪声添加和去除。具体来说，Stable Diffusion使用了一个预训练的自编码器，包括一个编码器 E 和一个解码器 D。给定一幅图像 x，编码器 E 将其映射到潜在空间，解码器 D 可以重构该图像，即 z = E(x)，。此外，Stable Diffusion支持额外的文本提示 y 进行条件生成。文本提示 y 通过预训练的 CLIP文本编码器被转换为文本标记 (y) 。通过训练进行更新。

在推断过程中，从潜在空间中采样噪声 ∼ N(0,I)。通过应用方程式3，进行逐步去噪，以获得干净的潜在表示。然后，通过解码器 D 重构生成图像。

方法

本节将介绍了方法RealCompo，它设计了一个新颖的平衡器，以实现生成图像的逼真度和组合性之间的动态平衡。分析了为每个噪声加入影响的必要性，并提供了计算系数的方法。详细解释了平衡器使用的更新规则，该规则利用了无需训练的方法动态更新系数。后面扩展了RealCompo的应用，为每个类别的L2I模型设计了损失函数。

T2I和L2I模型的组合

如下图3所示，首先利用大语言模型的强大上下文学习能力来分析输入文本提示，并生成准确的布局，实现对象和属性之间的“预绑定”。然后，将布局用作L2I模型的输入。本文选择了GPT-4来生成布局。

从方程式3中可以清楚地看出，使用DDIM生成图像仅与噪声的估计相关，这反映了模型对当前潜在表示的更新的指导。在L2I模型中，对组合性的指导更为明显，而在T2I模型中，对逼真度的指导更为明显。一种可行但尚未充分利用的解决方案是将T2I模型的预测噪声注入到L2I模型的预测噪声中。

然而，来自不同模型的预测噪声具有自己的强度分布，在不同的时间步和位置对生成结果产生不同的贡献。基于此，设计了一个新颖的平衡器，在每个时间步 t 的每个位置 i 上实现两个模型的优势的动态平衡。这是通过分析每个模型预测噪声的影响来实现的。具体来说，首先为每个模型的预测噪声设置相同的系数，以表示它们在第一次采样步骤之前的影响

为了规范化每个模型的影响，对系数执行softmax操作，以获得最终的系数。

其中 c ∈ {text, layout}。

根据每个模型的系数，可以获得平衡的噪声。

其中 ⊙ 表示逐像素乘法。当给定预测噪声和每个模型的系数时，可以根据方程6和方程7获得平衡的噪声。在每个时间步 t，平衡器会根据动态更新系数。

动态平衡器中的影响估计

生成特征的差异在一定程度上受到每个模型的交叉注意力图的影响，这些图封装了视觉和文本元素之间丰富的匹配信息，如位置和形状。具体来说，给定中间特征和文本标记，可以按照以下方式获得交叉注意力图：

其中，Q 和 K 分别是中间特征、文本标记和两个可学习矩阵和的点积结果。定义了第 j 个标记在第 i 个像素上的权重。这里，j ∈ {1,2,...,}，而表示中标记的数量。K 的维度由表示。

本文设计了一个新颖的平衡器，在每个时间步 t 根据两个模型的交叉注意力图动态平衡它们。具体来说，将布局表示为 B = ，由 v 个边界框 b 组成。每个边界框 b 对应一个二进制mask ，其中框内的值为1，框外的值为0。给定每个模型的预测噪声和系数，可以得到平衡噪声和去噪潜在表示。通过将输入两个模型，可以得到在时间步 t−1 由两个模型输出的交叉注意力图，它表示在模型在时间 t 的噪声被加权后的去噪质量反馈。基于交叉注意力图，我们定义损失函数如下：

其中，表示与边界框 b 中的对象对应的标记。该损失函数衡量了两个模型的交叉注意力图定位生成对象的能力。较小的损失值表示生成图像的组合性更好。该损失函数同时保留了T2I模型在生成中对对象本身的关注以及L2I模型通过关注边界框外区域来保持组合性的优势。此外，它增强了两个模型定位对象的能力。以下规则用于更新：

其中，是更新速率。这个更新规则不断增强了两个模型对生成对象的定位能力。在保持生成图像的良好组合性的同时，从T2I模型更新的信息被纳入，增强了生成图像的逼真度。值得注意的是，先前的方法基于函数梯度进行参数更新，主要是使用能量函数来更新潜在表示。我们是第一个根据损失函数的梯度更新预测噪声影响的方法，这是一种新颖且稳定的方法，非常适合我们的任务。

RealCompo扩展应用的分析

为了增强RealCompo的泛化能力，探索了不同组合的L2I和T2I模型。实验发现，并非所有的L2I模型都像GLIGEN一样关注对象框外的部分。通过设计能量函数来更新潜在表示，一些方法的交叉注意力图与T2I模型相似，即每个标记的交叉注意力图都集中在该标记所指代的实体上。因此，针对这种类型的L2I模型使用以下损失函数：

其中 c ∈ {text, layout}。利用这个损失函数来增强上述特定L2I模型对在框内生成对象的关注。应用公式10的原则来提高模型的定位能力。类似地，使用公式11来更新每个模型的系数。完整的采样过程在算法1中详细说明了。已经用蓝色突出显示了我们方法的创新。

实验

与T2I和L2I模型的比较

实现细节 RealCompo是一个通用的、可扩展的框架，可以利用任何选择的LLMs、T2I和L2I模型的互补优势。在实验中，选择了GPT-4作为布局生成器。选择了SD1.5作为T2I模型的基础骨干，选择了GLIGEN作为L2I模型的基础骨干。

基线和基准 在T2I-CompBench上将我们的方法与优秀的T2I模型Stable Diffusion v1.5、L2I模型GLIGEN和LMD+进行比较，主要针对三种主要的组合情景：（i）属性绑定。在这种情况下，文本提示中的相应属性应绑定到正确的对象上。（ii）数字精度。在这种情况下，文本提示涉及多个对象，每个对象有多个数量。同时，在这里增加了对象之间的空间关系进行测试（例如，"在前面"，"在右边"，"在顶部"等）。（iii）非空间关系。文本提示描述了两个对象之间的交互，例如（"看着"，"对话"，"穿着"，"拿着"等）。

主要结果 如下表1所示，RealCompo在所有六个评估任务中均取得了SOTA性能。

与Realcompo相比，现有方法在属性绑定方面没有给出令人满意的结果。这是因为单凭文本提示输入支持的信息不足。当文本提示涉及多个属性和对象时，模型会混淆属性和对象之间的关联。RealCompo利用LLM分析了文本提示中涉及的对象和属性，不仅将布局作为输入，而且在输入端“预绑定”属性到对象。同时，结合L2I模型的“强属性匹配和定位能力”特性，在这种情况下取得了更好的结果。

我们发现，现有方法生成空间关系远不及非空间关系，如优秀的T2I模型Stable Diffusion v2和DALL-E 2。这是因为在表达空间关系的标记的交叉注意力图中，难以给模型提供准确的位置描述，表明模型理解空间关系词的能力较差，需要添加额外的辅助模态作为输入。RealCompo通过使用L2I模型通过布局直观地给出对象的位置关系，有效地填补了这一空白。基于这些原因，RealCompo动态地将T2I和L2I模型结合起来生成复杂情况，并取得了令人满意的结果。

如下图4所示，与当前优秀的L2I模型GLIGEN和LMD+相比，可以在保持对象属性匹配和生成位置正确的情况下实现高水平的逼真度。将这归因于动态平衡方法，使得T2I模型能够在布局独立时最大化其语义生成能力。表1中呈现的定量结果表明，RealCompo在文本到图像生成的组合生成任务中取得了最佳性能。

此外，值得注意的是，即使在平衡两个模型时，与单个T2I模型和单个L2I模型相比，RealCompo的推理时间略有增加。我们认为，将时间用于换取高质量的生成结果是值得的。

消融实验

定性比较 为了探索RealCompo对任意模型的普适性，选择了两个T2I模型，即 Stable Diffusion v1.5 和 TokenCompose，以及两个L2I模型，即GLIGEN和Layout Guidance。将它们两两结合，得到了四个版本的模型 RealCompo v1-v4。我们的基线选择了优秀的 Stable Diffusion v1.5 以及 LMD+。实验结果如图5所示。四个版本的 RealCompo 在生成图像和实例组合方面具有很高的逼真度，取得了令人满意的结果。这归因于 RealCompo 动态地结合了 T2I 和 L2I 模型的优势，并且由于其简单且无需训练的框架，可以无缝切换模型。

还发现，使用 GLIGEN 作为 L2I 模型的 RealCompo 比使用 LayGuide 在生成与布局匹配的对象方面更好，例如，RealCompo v4 在第一和第三行生成了结果，其中 "popcorns" 和 "sunflowers" 没有填满边界框，这在某种程度上归因于基础模型 GLIGEN 的表现优于 LayGuide。因此，当与更强大的 T2I 和 L2I 模型结合时，RealCompo 将展现出更令人满意的结果。

梯度分析 选择了 RealCompo v3 和 v4 来分析在公式 11 中去噪过程中梯度的变化。如下图 6 所示，使用相同的提示和随机数种子来可视化对应于每个模型版本的 T2I 和 L2I 的梯度大小变化。观察到 RealCompo v4 的梯度大小变化在去噪过程的早期阶段更加明显。我们认为，TokenCompose 通过使用分割mask微调模型来增强多对象生成的组成能力，与基于布局的多对象生成相互冗余，并且 TokenCompose 的对象定位不一定在边界框内。因此，RealCompo 必须在预去噪阶段专注于平衡 TokenCompose 和布局的定位，因此其梯度与 RealCompo v3 相比不稳定。此外，由于 LayGuide 在定位能力上较 GLIGEN 弱，RealCompo v4 在某些罕见情况下生成的对象填充边界框较少的问题，如前所述。

结论

本文提出了无需训练和易迁移框架 RealCompo，以解决多对象组合文本到图像生成的挑战，并获得了SOTA效果。在 RealCompo 中，使用 LLM 分析文本提示以获取布局，并实现多对象的属性预绑定。提出了一种新颖的平衡器，动态地结合了 T2I 和 L2I 模型的优势，以实现高质量的逼真和组合生成。此外，RealCompo 可推广到任何 LLMs、T2I 和 L2I 模型，并保持强大的生成结果。在未来的工作中，将继续改进该框架，使用更强大的模型作为 RealCompo 的骨干，并探索其在更复杂模态下的泛化能力。