LazyDiffusion:革新交互式图像编辑的扩散模型

Adobe Research和特拉维夫大学的研究人员联合开发了一种名为LazyDiffusion的新型扩散变换器,它能够高效地生成部分图像更新,特别适用于交互式图像编辑。该模型通过创新的编码器-解码器架构,显著提升了图像编辑的效率,同时保持了与全尺寸图像生成相媲美的质量。

技术突破:

LazyDiffusion的核心在于两个阶段的工作流程:首先,上下文编码器处理当前画布和用户遮罩,生成一个紧凑的全局上下文;其次,扩散解码器基于这个上下文“懒惰”地合成遮罩像素,即仅生成遮罩区域的像素。这种方法避免了传统扩散模型在每次迭代中处理整个图像的需要,从而显著减少了计算量和时间。

上下文编码器(Context Encoder)

全局上下文生成:

  • 上下文编码器的目的是将当前画布的全局信息和用户的编辑意图(通过遮罩定义)整合起来。
  • 输入包括两部分:一是用户希望修改的图像区域(通过遮罩表示),二是遮罩外的背景或上下文区域。
  • 编码器处理这两部分信息,生成一个包含整个图像上下文的紧凑表示,但重点是为遮罩区域生成内容。

信息压缩:

  • 为了减少计算量,上下文编码器将丰富的图像信息压缩成一个较小的上下文码。
  • 这个上下文码是编码器输出的一组特征或“tokens”,它们高效地编码了遮罩区域需要的全局信息。
  • 通过这种方式,上下文编码器确保了后续的解码器只需要关注小范围的遮罩区域,而不是整个大尺寸的图像。

扩散解码器(Diffusion Decoder)

遮罩区域生成:

  • 扩散解码器的任务是根据上下文编码器提供的全局上下文码来生成遮罩区域内的像素。
  • 与传统的扩散模型不同,解码器不需要对整个图像进行迭代处理,而是只关注用户指定的遮罩区域。
  • 这种“懒惰”的生成方式显著减少了不必要的计算,从而加快了图像编辑的速度。

迭代去噪:

  • 扩散解码器采用迭代去噪的方法,逐步精细化遮罩区域的像素。
  • 在每次迭代中,解码器都会使用当前的上下文码来指导遮罩区域内像素的生成,确保新生成的像素与整体图像风格一致。
  • 这个过程从一个噪声图像开始,逐步去除噪声,直到生成高质量的图像内容。

LazyDiffusion模型在计算效率方面的显著提升,主要得益于其对遮罩大小的依赖性以及上下文编码器的一次性编码特性。在传统的扩散模型中,每次迭代都需要处理整个图像,这不仅增加了计算负担,也延长了处理时间。与之相对,LazyDiffusion的解码器仅针对用户定义的遮罩区域进行像素生成,这意味着运行时间与遮罩区域的大小成正比,而非整个图像的尺寸。对于局部编辑任务,这种设计大幅减少了不必要的计算,使得模型能够快速响应用户的编辑需求。

上下文编码器的设计也极大优化了计算过程。该编码器一次性处理整个图像和遮罩,生成一个紧凑的全局上下文,之后在多次迭代中复用这一上下文,避免了对同一图像重复编码的需要。这种设计不仅提高了计算效率,还减少了内存占用和整体的计算延迟。

LazyDiffusion通过智能地压缩和利用图像上下文信息,以及仅对图像的特定区域进行迭代处理,实现了计算效率的大幅提升。这使得模型特别适合于交互式图像编辑,为用户提供了接近实时的反馈和高度灵活的编辑体验。在图像编辑领域,尤其是在需要快速迭代和精细调整的场景中,LazyDiffusion展现了其巨大的潜力和应用价值。

实验与结果

实验设置 (Experimental Setup)

  1. 数据集: 研究人员使用了一个内部数据集,包含2.2亿张高质量的1024×1024分辨率的图像。这些图像涵盖了多种对象和场景,为模型提供了丰富的训练材料。

  2. 掩码和文本提示生成: 采用实体分割模型对图像中的每个对象进行分割,并使用BLIP-2为每个实体生成描述性文本。为了模拟用户创建的粗糙和不准确的掩码,研究人员对实体掩码进行了随机膨胀处理。

  3. 基线比较: 将LazyDiffusion与两种图像修复基线方法进行比较,分别是RegenerateImage和RegenerateCrop。RegenerateImage处理整个图像,而RegenerateCrop仅处理掩码周围的紧凑区域。

推理时间 (Inference Time)

  1. 性能对比: 研究人员展示了LazyDiffusion与基线方法在推理时间上的性能对比。LazyDiffusion的运行时间与掩码的大小成比例,而基线方法则在固定大小的张量上运行,导致LazyDiffusion在处理小掩码时具有显著的速度优势。

  2. 速度提升: 在掩码覆盖图像10%的情况下,LazyDiffusion实现了比RegenerateImage快10倍的速度提升。

逐步生成 (Progressive Generation)

  1. 交互式编辑: LazyDiffusion显著加快了局部图像编辑的速度,使得扩散模型更适合于用户参与其中的交互式应用。

  2. 生成示例: 论文中展示了LazyDiffusion在图像编辑和生成中的迭代过程,从空白画布开始,逐步添加图像内容。

图像修复质量 (Inpainting Quality)

  1. 定量评估: 使用零样本FID(Fréchet Inception Distance)和CLIPScore进行定量评估,这些指标估计了图像与真实图像的相似度以及文本-图像对齐的质量。

  2. 用户研究: 通过用户研究评估模型在生成高度上下文相关的图像修复任务中的性能。用户在给定的掩码输入图像、文本提示和两种结果(LazyDiffusion和基线)中选择整体看起来最好的图像。

  3. 质量比较: LazyDiffusion在保持图像全局一致性的同时,即使在压缩上下文的情况下,也能产生与RegenerateImage和SDXL相当的修复结果。

草图引导的图像修复 (Sketch-guided Inpainting)

  1. 多样化条件: LazyDiffusion不仅依赖掩码和文本提示,还能适应其他形式的条件,如草图和边缘图。

  2. 灵活性展示: 论文中通过使用用户提供的粗略彩色草图来引导图像生成,展示了模型的灵活性。

实验结果证明了LazyDiffusion在交互式图像编辑任务中的有效性和效率,为未来的图像编辑工具和应用提供了新的可能性。

尽管LazyDiffusion在交互式图像编辑领域展现出巨大潜力,但研究人员也指出了一些局限性,例如在处理极高分辨率图像时可能遇到的挑战。未来的工作将致力于解决这些挑战,进一步提升模型的可扩展性和适用性。

论文链接:https://arxiv.org/abs/2404.12382

GitHub 地址:https://lazydiffusion.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3032179.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Zabbix6.0容器化部署(Docker-Composed)

Zabbix 为每个 Zabbix 组件提供 Docker image 作为可移植和自给自足的容器,以加快部署和更新过程。 Zabbix 组件在 Ubuntu、Alpine Linux 和 CentOS 基础 image 上提供:Zabbix 组件支持 MySQL 和 PostgreSQL 数据库、Apache2 和 Nginx Web 服务器。 1. Zabbix 组件…

QT如何增删安装的组件

打开 uninstall QT 往下会看到让你选择 add or remove component。 接下去就可以修改组件了

泥水位监测站的应用场景

TH-SW2泥水位监测站的应用场景相当广泛,包括但不限于以下几种情况: 水源地保护:它可以监测水源地的水质及水位变化,为水源地的保护提供实时数据支持,防止水源污染和过度开采。水库管理:在水库中&#xff0…

C++牛客小白月赛题目分享(1)生不逢七,交换数字,幻兽帕鲁

目录 1.前言 2.三道题目 1.生不逢七 1.题目描述 2.输入描述: 3.输出描述: 4.示例: 5.题解: 2.交换数字 1.题目描述: 2.输入描述: ​编辑 3.输出描述: 4.示例: 5.题解: 3.幻兽帕…

Redis 基础之常用数据类型及命令

常用数据类型及命令 String(字符串)Hash(哈希)List(列表)Set(集合)zset ( sorted set:有序集合 )Redis setbit 命令HyperLogLogs ( 基数统计 ) Redis 比 Memcached 更优秀…

(python)经典的数学和逻辑谜题-汉诺塔

前言 在贝纳雷斯的大寺庙里在标志着世界中心的圆顶下,有一块黄铜板,上面固定着三根钻石针,每根针高一肘,粗细如蜜蜂的身体.在其中一根针上,上帝在创世时放置了六十四个纯金的圆盘,最大的圆盘放在黄铜板上,其他的圆盘逐渐变小,直到最上面的一个.这就是布拉马之塔.日夜不停地,祭司…

sqli-labs靶场第十四关

目录 1:分析 找闭合符: 2:开始注入 报错注入: 注入数据库名: 注入表名: 注入列名: 注入具体值: 1:分析 经过我们的实验发现当我们输入的密码后面存在双引号时会报…

消费增值:绿色积分引领电商潮流

消费增值的玩法确实为电商平台提供了一种新颖的用户激励机制,通过积分返利和增值机制,吸引消费者持续参与并提升用户粘性。以下是对您提供的信息的进一步解析和扩展: 消费增值玩法解析 商城消费返利: 每笔消费订单,商…

上海计算机学会2023年9月月赛C++丙组T2Z形填充

题目描述 给定一个整数 n,再给定 n2 个字符,请将这些字符以 z 形排成一个 nn 的矩阵。 z 形的定义是,第一个字符在左上角,然后沿对角线以 z 形放置字符。对于 n4 ,z 形排列的先后顺序标记如下: 输入格式 …

未来办公新方式--智能体与程序完美配合

Agent AI智能体的未来 工作中,有时候我们就像是在不停地踩着缝纫机,重复地做着那些单调乏味的任务,不仅耗时费力,还特别容易出错。可是,咱们现在可是生活在数字化时代啊!这时候,Python编程语言…

STC -PWM

一.STC8H1K16初始化,以下一步配置后就会有波形输出. // // 函数: PWMB_Output_init // 描述: 用户初始化程序. // 参数: None. // 返回: None. // 版本: V1.0, 2020-09-28 //u16 PWM8__setDuty25000;u16 PWM8__setPeriod50000; void PWMB_Output_init(void) {PWMx_InitDefi…

如何让组织充满活力?你需要做好这七步

组织活力,通俗点说就是: 从竞争对手角度看,组织活力强的组织能做到竞争对手做不到的事情; 从客户角度看,组织活力强的组织,客户感受好; 从员工角度看,组织活力强的组织&#xff0c…

Mapreduce | 案例

根据提供的数据文件【test.log】 数据文件格式:姓名,语文成绩,数学成绩,英语成绩 完成如下2个案例: (1)求每个学科的平均成绩 (2)将三门课程中任意一门不及格的学生过滤出来 (1)求每…

抖音小店怎么做?做店笔记分享来了,新手可学习!

大家好,我是电商糖果 抖音小店怎么做?这个问题是所有新手商家都会提问的问题。 很多朋友可能店开好几个月了,一直都不会运营,店铺没有流量,迟迟不出单。 下面糖果就来分享一下我自己做店总结的笔记,新手…

半小时搞懂STM32面经知识点——系统架构与启动流程

1.Cortex-M系统 1.1系统结构 1.处理器核心: Cortex-M3 2.存储器系统: Flash,SRAM,FSMC等 3.总线接口: 核心通过总线接口与外设设备和存储器进行通信。 总线矩阵:总线矩阵是一种硬件结构,用于连…

Java——类与对象

目录 一、面向对象的初步认识 1.1 什么是面向对象 1.2 面向对象与面向过程 二、类的定义与使用 2.1 简单认识类 2.2 类的定义格式 三、类的实例化 3.1 什么是实例化 3.2 类和对象的说明 四、this引用 4.1 为什么要有this引用 4.2 什么是this引用 ​编辑 4.3 this引用…

揭秘全网都在搜索的抖音快速涨10000粉的方法,打造真实粉丝海洋!巨量千川投流

抖音作为当下最热门的社交媒体平台之一,拥有数以亿计的用户。对于许多用户来说,快速涨粉成为了一个追逐的目标。在这篇文章中,我们将揭秘一些全网都在搜索的抖音快速涨粉方法,帮助你打造属于自己的真实粉丝海洋。巨量千川投流&…

决策管理中的数学方法

需要注意的是,用excel求解的时候需要导入线性规划加载项如下: pert分析需要DecisionTools中的RiskSolver插件 1.链接:https://pan.baidu.com/s/1wKhUFWgNmQ7U33kl5AypZw 提取码:zqkn 2.“Palisade_Book_expires_Aril_10_2025.lic”文件复制到以下路径: C:\Program Files …

我必须要吹一波MATLAB 2024a,太牛逼了!|福利:附安装教程及下载地址

最近逛MATLAB官网,发现MATLAB 2024a版本已经Pre-release了,翻了下release note,不得不感叹,实在是太强了! 这次重点更新了四个工具箱: Computer Vision Toolbox Deep Learning Toolbox Instrument Contro…

没有公网ip,如何实现外网访问内网?

目前拨号上网是最广泛的上网方式,这种方式优点是价格便宜,缺点是没有固定公网ip,每次重新您拨号ip地址都会变。如果有一台服务器,需要实现外网访问,在没有固定公网ip的环境下,该如何实现呢?使用…