Stable Diffusion 3 Early Preview发布

2月22日,Stability AI 发布了 Stable Diffusion 3 early preview,这是一种开放权重的下一代图像合成模型。据报道,它继承了其前身,生成了详细的多主题图像,并提高了文本生成的质量和准确性。这一简短的公告并未附带公开演示,但 Stability今天为那些想尝试的人开放了Waitlist,想等着尝鲜的同学可以注册加入Waitlist。

Waitlist地址:SD 3 Waitlist — Stability AI

Stability 表示,其 Stable Diffusion 3 系列模型(采用称为“prompt”的文本描述并将其转换为匹配图像)的参数大小从 8 亿到 80 亿不等。尺寸范围允许模型的不同版本在各种设备(从智能手机到服务器)上本地运行。参数大小大致对应于模型可以生成多少细节的能力。较大的模型还需要 GPU 加速器上有更多 VRAM 才能运行。

自 2022年以来,我们看到 Stability 推出了一系列 AI 图像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1 、 XL 、 XL Turbo ,现在是 3。Stability 因提供更开放的替代方案而闻名,例如,类似OpenAI 的 DALL-E 3 这样的专有图像合成模型。尽管由于使用受版权保护的训练数据、偏见和滥用的可能性而引起争议,并导致了一些未解决的诉讼。Stable Diffusion模型是开放权重且源可用的,这意味着模型可以在本地运行并进行微调以改变其输出。

Stable Diffusion 3的技术改进

就技术改进而言,Stability 首席执行官 Emad Mostaque在 X 上写道:“这使用了新型Diffusion Transformer(类似于Sora),并结合了流量匹配(flow matching)和其他改进。这利用了Transformer的改进,不仅可以进一步扩展,还能够接受多模式输入。”

正如 Mostaque 所说,Stable Diffusion 3 系列使用Diffusion Transformer架构,这是一种利用 AI 创建图像的新方法,它将常用的图像构建块(例如U-Net 架构)替换为适用于小块图像的系统。该方法的灵感来自于擅长处理模式和序列的Transformer。这种方法不仅可以有效地扩大规模,而且据报道还可以产生更高质量的图像。

Stable Diffusion 3 还利用了流匹配(flow matching),这是一种创建 AI 模型的技术,该模型可以通过学习如何从随机噪声平滑过渡到结构化图像来生成图像。它不需要模拟过程的每个步骤,而是专注于图像创建应遵循的总体方向或流程。

我们目前还无法访问 Stable Diffusion 3 (SD3),但从我们在 Stability 网站和相关社交媒体帐户上发布的样本来看,这几代模型似乎与目前其他最先进的图像合成模型大致相当,包括前面提到的DALL-E 3、Adobe Firefly、Imagine with Meta AI、Midjourney和Google Imagen。

在Stability AI提供的示例中,SD3 可以很好地处理文本生成。文本生成是早期图像合成模型的一个特别弱点,因此在免费模型中改进该功能是一件大事。此外,提示保真度(它遵循提示中的描述的程度)似乎与 DALL-E 3 类似,但我们还没有自己测试过。

虽然 Stable Diffusion 3 尚未广泛使用,但 Stability 表示,一旦测试完成,其权重将可以免费下载并在本地运行。Stability 写道:“与之前的模型一样,这个预览阶段对于收集见解以在公开发布之前提高其性能和安全性至关重要。”

Stability 最近一直在尝试各种图像合成架构。除了 SDXL 和 SDXL Turbo 之外,就在上周,该公司还发布了Stable Cascade,它使用三阶段过程进行文本到图像的合成。

Flow Matching介绍

Flow Matching是Stable Diffusion 3中一个重要的技术改进。目前很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。Stable Diffusion 3的Flow Matching基于“Flow Matching for Generative Modeling”,abs: https://arxiv.org/abs/2210.02747。

CNF的训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。

Stable Diffusion 3文生图展示

声明:以下的prompt和图片均来自StabilityAI官方和互联网,本人还在Waitlist无法亲自测试。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home"

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

Prompt: studio photograph closeup of a chameleon over a black background

Prompt: night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a hug road sign with the text "faster"

Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see
beautiful graffiti with the text "SD3" very large on the wall

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

作者Blog原文:Stable Diffusion 3 Early Preview发布 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2803854.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

通过platform总线驱动框架编写LED灯的驱动,编写应用程序测试

mydev.c #include <linux/init.h> #include <linux/module.h> #include <linux/of_gpio.h> #include <linux/gpio.h> #include <linux/platform_device.h> #include <linux/mod_devicetable.h>// 创建功能码 #define LED_ON _IO(l, 1) #d…

Leetcode3035. 回文字符串的最大数量

Every day a Leetcode 题目来源&#xff1a;3035. 回文字符串的最大数量 解法1&#xff1a;哈希 排序 由于可以随意交换字母&#xff0c;先把所有字母都取出来&#xff0c;然后考虑如何填入各个字符串。 如果一个奇数长度字符串最终是回文串&#xff0c;那么它正中间的那…

(十八)devops持续集成开发——使用docker安装部署jenkins流水线服务

前言 本节内容介绍如何使用docker容器来部署安装jenkins流水线服务。关于docker容器的安装本节内容不做介绍。请读者提前安装。 正文 ①使用docker查找jenkins官方镜像 ② 拉取jenkins官方镜像jenkins/jenkins&#xff0c;选择一个最新稳定版本&#xff0c;避免一些插件不兼…

【某机构vip教程】Requests(6):Requests模块_超时设置

超时设置 Requests模块可以设置接收数据的超时时间&#xff0c;超出设定的时间还没有数据返回&#xff0c;就抛出异常。超时设 置有两种类型表达&#xff1a;float 、tuple timeout():以秒为单位 如果远端服务器很慢&#xff0c;你可以让 Request 永远等待&#xff0c;传入一…

ApexRBp在线粒子传感器在电动汽车电池制造的应用

电动汽车电池的崛起与颗粒污染的挑战 随着电动汽车&#xff08;EV&#xff09;市场的迅速扩张&#xff0c;对高性能锂离子电池的需求也急剧增加。这些电池不仅是EV的心脏&#xff0c;更是推动其前行的核心动力。然而&#xff0c;在电池制造的每一个环节&#xff0c;都需要对多…

【总第49篇】2.3深度学习开发任务实例(2)机器学习和深度学习的对比【大厂AI课学习笔记】

机器学习和深度学习都是用于图片分类任务的强大工具&#xff0c;但它们采用的方法和原理有所不同。下面我将分别解释这两种技术是如何应用于图片分类的&#xff0c;并着重讨论深度学习中的卷积概念。 机器学习在图片分类中的应用 传统的机器学习方法在进行图片分类时&#xf…

8杯水要怎么喝才能防止或减轻肥胖状态?

为什么说&#xff0c;人每天要喝足8杯水呢&#xff1f;原因很多&#xff0c;皮肤干了要多喝水&#xff0c;因为皮肤缺水&#xff0c;需要滋养&#xff1b;身体底子差要多喝水&#xff0c;实际身体底子差不光要多喝水&#xff0c;还要注意饮食营养和运动锻炼&#xff1b;身体健康…

可视化低代码表单设计器

JNPF 表单设计器是一款在线可视化表单建模工具&#xff0c;基于VueSpringboot技术开发&#xff0c;具有组件丰富、操作简单、所见即所得等特性&#xff0c;既能够设计普通的数据录入表单&#xff0c;也能够配合流程设计出各类审批流转表单。 应用地址&#xff1a;https://www.j…

算法刷题:水果成篮

水果成篮 .题目链接题目详情题目解析算法原理滑动窗口定义指针及变量进窗口判断出窗口更新结果 我的答案 . 题目链接 水果成篮 题目详情 题目解析 这道题的意思是,在一个数组中,找到一个最长的连续的子数组,并且其中包含的水果种类不超过两个 left和right刚开始都指向数组首…

有哪些适合程序员的副业?

如果你经常玩知乎、看公众号&#xff08;软件、工具、互联网这几类的&#xff09;你就会发现&#xff0c;好多资源连接都变成了夸克网盘、迅雷网盘的资源链接。 例如&#xff1a;天涯神贴&#xff0c;基本上全是夸克、UC、迅雷网盘的资源链接。 有资源的前提下&#xff0c;迅雷…

靡语IT:Vue精讲(一)

Vue简介 发端于2013年的个人项目&#xff0c;已然成为全世界三大前端框架之一&#xff0c;在中国大陆更是前端首选。 它的设计思想、编码技巧也被众多的框架借鉴、模仿。 纪略 2013年&#xff0c;在Google工作的尤雨溪&#xff0c;受到Angular的启发&#xff0c;从中提取自…

CPU漏洞之Meltdown

1.前言 计算机系统的安全性从根本上依赖于内存隔离&#xff0c;例如内核(Kernel)地址范围被标记为不可访问&#xff0c;并对用户访问加以限制和保护&#xff0c;因此操作系统确保了用户程序不能访问彼此的内存或内核内存。这种内存隔离是我们计算机环境的基石&#xff0c;它允…

驾校预约|驾校预约小程序|基于微信小程序的驾校预约平台设计与实现(源码+数据库+文档)

驾校预约小程序目录 目录 基于微信小程序的驾校预约平台设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户​微信端功能模块​ 2、管理员服务端功能模块 &#xff08;1&#xff09;学员信息管理 &#xff08;2&#xff09; 教练信息管理 &#xff08;3&…

鸿蒙学习-dataPreferences数据存储后,重新运行获取为空的问题

解决方案 通过IDE运行时&#xff0c;保存数据&#xff0c;只进行覆盖安装即可&#xff0c;在IDE中设置如下&#xff1a; 勾选 Keep Application Data 即可

Java零基础 - 位移运算符

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一个人虽可以走的更快&#xff0c;但一群人可以走的更远。 我是一名后…

【2024软件测试面试必会技能】Appium自动化(6):原生app元素定位方法

元素定位方法介绍及应用&#xff1a; Appium方法定位原生app元素: 通过appium inspector工具&#xff0c;可以获取元素的相关信息&#xff1b;在appium中提供了一系列的元素定位API&#xff0c;通过在这些API中输入指定的元素信息&#xff0c;就能完成元素定位&#xff0c;定…

《Python 语音转换简易速速上手小册》第9章 特定领域的语音处理(2024 最新版)

文章目录 9.1 语音处理在不同行业的应用9.1.1 基础知识9.1.2 主要案例:智能客服机器人案例介绍案例 Demo案例分析9.1.3 扩展案例 1:医疗语音助手案例介绍案例 Demo案例分析9.1.4 扩展案例 2:语言学习应用案例介绍案例 Demo

不做内容引流,你凭什么在互联网上赚钱?

孩子们放寒假了&#xff0c;待在家里不是看电视&#xff0c;就是拿着手机刷视频&#xff0c;脸上是各种欢快和满足。只是一切换到写作业模式&#xff0c;孩子是各种痛苦表情包&#xff0c;家长则是使出浑身解数&#xff0c;上演亲子大战。可见娱乐常常让人愉悦&#xff0c;而学…

wondows10用Electron打包threejs的项目记录

背景 电脑是用的mac&#xff0c;安装了parallels desktop ,想用electron 想同时打包出 苹果版本和windows版本。因为是在虚拟机里安装&#xff0c;它常被我重装&#xff0c;所以记录一下打包的整个过程。另外就是node生态太活跃&#xff0c;几个依赖没记录具体版本&#xff0…

阿里巴巴店铺宝藏全揭秘:一键获取所有商品信息,电商业务效率飙升

阿里巴巴店铺所有商品API接口技术全解析 一、引言 在阿里巴巴这个全球领先的电商平台上&#xff0c;店铺所有商品API接口&#xff08;item_search_shop&#xff09;为开发者提供了一个便捷的途径&#xff0c;能够获取店铺的所有商品信息。通过这一接口&#xff0c;无论是数据…