Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

news/2025/3/6 17:34:45/文章来源:https://blog.csdn.net/matt45m/article/details/136056132

概述

Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46464 大小，从而极大地降低了计算量。它还利用了潜在表示空间（latent space）上的 Diffusion 过程，进一步降低了计算复杂度，同时也能保证较好的图像生成效果。在消费级GPU 上（8G显存），Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。

然而，对于许多面向消费者的应用来说，每张图像生成需要 4 秒的耗时仍然过长。这时候，TensorRT 就发挥了重要作用。TensorRT 是英伟达（NVIDIA）推出的高性能深度学习推理（inference）库，旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上，实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗，并支持在边缘设备上运行。

TensorRT 提供了许多优化技术，包括网络层融合（layer fusion）、内存优化、精度降级（precision calibration）、量化（quantization）和深度学习模型的裁剪（network pruning）。通过这些技术，TensorRT 可以最大限度地利用 GPU 的并行计算能力，实现深度学习模型的高效执行。

2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT，该插件可以直接在 webui 的 extension 中安装即可，默认支持cuda11.x。

环境配置要求

要使用Stable-Diffusion-WebUI-TensorRT插件加速，有几个重要的前提条件，GPU必须是NVIDIA的（俗称N卡），GPU的显存必须在8G以上，包含8G，GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练，建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5,2.1，SDXL，SDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo，官方推荐使用具有12GB 或更多 VRAM 的 GPU，以获得最佳性能。

在这里插入图片描述
查看GPU驱动版本：

查看内存与显卡型号：

我使用的环境是win10,GPU 3080 10G显存，32G内存，Stable Diffusion用的是秋叶大佬的4.5这个版本。

Stable-Diffusion-WebUI-TensorRT安装

1.安装

启动Stable-Diffusion-WebUI，找到扩展，然后从网址安装TensorRT插件：
插件网址：https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git 在这里插入图片描述
点击安装：

等侍2到10分钟，安装完成：

然后重启Stable-Diffusion-WebUI，就可以看到：
在这里插入图片描述

2.设置

打开设置——>用户界面——>快捷设置列表——>输入"sd_unet",然后保存设置，重载UI：
在这里插入图片描述
重启之后就可以看到多了一个SD Unet的选框了：

3.模型转换

选择要使用的模型，然后打开TensorRT——>TensorRT导出——>选择预设尺寸——>导出引擎:
在这里插入图片描述
关于导出尺寸，这是要设置不用尺寸，但尺寸大小只能是2的幕，这里面导出的模型为onnx模型，如果接触过深度学习的都清楚这个尺寸的含义。

4. 测试推理速度

使用TensorRT推理时，选择的模型与SD Unet要对应，出图的宽度与高度，也要对应上一步导出的模型的尺寸：
在这里插入图片描述

测试出图速度，使用TensorRT出图时，第一张图会很慢，要计算时间可以从第二张开始算，下面出图尺寸是1024*1024：

使用TensorRT推理：
在这里插入图片描述
不使用TensorRT推理，可以看出慢了2点几秒，差不多3秒：

使用TensorRT推理（出图尺寸512*512）：
在这里插入图片描述

不使用TensorRT推理（出图尺寸512*512），可以看出，不使用TensorRT差不多要慢上一倍左右：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/2775670.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！

相关文章

Leetcode刷题笔记题解（C++）：面试题 08.07. 无重复字符串的排列组合

Leetcode刷题笔记题解（C++）：面试题 08.07. 无重复字符串的排列组合

思路：因为字符之间互不相同，故使用全排列的方式去解题； 字符串长度为n，将第一个字母分别与后面每一个字母进行交换，生成n种不同的全排列；再用第二个元素与后面每一个元素进行交换，生成n - 1种不…

阅读更多...

Transformer的PyTorch实现之若干问题探讨（一）

Transformer的PyTorch实现之若干问题探讨（一）

《Transformer的PyTorch实现》这篇博文以一个机器翻译任务非常优雅简介的阐述了Transformer结构。在阅读时存在一些小困惑，此处权当一个记录。 1.自定义数据中enc_input、dec_input及dec_output的区别博文中给出了两对德语翻译成英语的例子： # S: de…

阅读更多...

《PCI Express体系结构导读》随记 —— 第II篇第4章 PCIe总线概述（10）

《PCI Express体系结构导读》随记 —— 第II篇第4章 PCIe总线概述（10）

接前一篇文章：《PCI Express体系结构导读》随记 —— 第II篇第4章 PCIe总线概述（9） 4.2 PCIe体系结构的组成部件 PCIe总线作为处理器系统的局部总线，其作用与PCI总线类似，主要目的是为了连接处理器系统中的外部设备&…

阅读更多...

Vue源码系列讲解——虚拟DOM篇【二】(Vue中的DOM-Diff)

Vue源码系列讲解——虚拟DOM篇【二】(Vue中的DOM-Diff)

目录 1. 前言 2. patch 3. 创建节点 4. 删除节点 5. 更新节点 6. 总结 1. 前言在上一篇文章介绍VNode的时候我们说了，VNode最大的用途就是在数据变化前后生成真实DOM对应的虚拟DOM节点，然后就可以对比新旧两份VNode，找出差异所在&…

阅读更多...

MATLAB知识点：使用逻辑值修改或删除矩阵元素

MATLAB知识点：使用逻辑值修改或删除矩阵元素

讲解视频：可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。 MATLAB教程新手入门篇（数学建模清风主讲，适合零基础同学观看）_哔哩哔哩_bilibili 节选自第3章 3.4.4 逻辑运算 3.4.4.3 使用逻辑值修改或删…

阅读更多...

Elasticsearch（四）

Elasticsearch（四）

是这样的前面的几篇笔记，感觉对我没有形成知识体系，感觉乱糟糟的，只是大概的了解了一些基础知识，仅此而已，而且对于这技术栈的学习也是为了在后面的java开发使用，但是这里的API学的感觉有点乱！然…

阅读更多...

熔断机制解析：如何用Hystrix保障微服务的稳定性

熔断机制解析：如何用Hystrix保障微服务的稳定性

微服务与系统的弹性设计大家好，我是小黑，在讲Hystrix之前，咱们得先聊聊微服务架构。想象一下，你把一个大型应用拆成一堆小应用，每个都负责一部分功能，这就是微服务。这样做的好处是显而易见的，更新快，容错性强，每个服务可以独立部署，挺美的对吧？但是，问题也随之而…

阅读更多...

PKI - 借助Nginx 实现Https 服务端单向认证、服务端客户端双向认证

PKI - 借助Nginx 实现Https 服务端单向认证、服务端客户端双向认证

文章目录 Openssl操系统默认的CA证书的公钥位置Nginx Https 自签证书Nginx Https 使用CA签发证书客户端使用自签证书供服务端验证客户端使用根证书签发客户端证书供服务端验证 Openssl https://www.openssl.net.cn/ openssl是一个功能丰富且自包含的开源安全工具箱。它提…

阅读更多...

放假--寒假自学版 day1（补2.5）

放假--寒假自学版 day1（补2.5）

fread 函数： 今日练习 C语言面试题5道~ 1. static 有什么用途？（请至少说明两种） 1) 限制变量的作用域 2) 设置变量的存储域 2. 引用与指针有什么区别？ 1) 引用必须被初始化，指针不必。 2) 引用初始…

阅读更多...

无心剑七绝《龙年大吉》

无心剑七绝《龙年大吉》

七绝龙年大吉龙腾五岳九州圆年吼佳音万里传大漠苍鹰华夏梦吉人天相铸奇缘 2024年2月8日平水韵一先平韵这首藏头七绝《龙年大吉》是无心剑为2024年春节所创作的诗作。2024年是农历的甲辰年，即龙年。在中国传统文化中，龙是吉祥的象征，代表…

阅读更多...

PSM-Net根据Stereo图像生成depth图像

PSM-Net根据Stereo图像生成depth图像

一、新建文件夹在KITTI数据集下新建depth_0目录二、激活anaconda环境 conda activate pt14py37三、修改submission.py文件 3.1 KITTI数据集路径 parser.add_argument(--datapath, default/home/njust/KITTI_DataSet/00/, helpselect model)3.2 深度图像输出路径 save…

阅读更多...

【复现】九思OA系统 SQL注入漏洞_43

【复现】九思OA系统 SQL注入漏洞_43

目录一.概述二 .漏洞影响三.漏洞复现 1. 漏洞一： 四.修复建议： 五. 搜索语法： 六.免责声明一.概述九思软件自主研发的iThink协同OA办公自动化系统是面向中高端企业、政府机关和事业单位、等大型企业的协同办公软件，面…

阅读更多...

pythn-scipy 查漏补缺

pythn-scipy 查漏补缺

1. 2. 3. 4. 5. 6. 7. 8. 9. 偏度 skewness，峰度 kurtosis

阅读更多...

TS学习与实践

TS学习与实践

文章目录学习资料TypeScript 介绍TypeScript 是什么？TypeScript 增加了什么？TypeScript 开发环境搭建基本类型编译选项类声明属性属性修饰符getter 与 setter方法static 静态方法实例方法构造函数继承与 super抽象类接口interface 定义接口implement…

阅读更多...

Linux操作系统基础（二）：Linux操作系统概述

Linux操作系统基础（二）：Linux操作系统概述

文章目录 Linux操作系统概述一、Linux起源二、Linux 的含义三、Linux发行版 Linux操作系统概述一、Linux起源 Linux创始人——林纳斯托瓦兹 Linux 诞生于1991年，作者上大学期间实现的 Linux的特点：开源、免费、拥有最为庞大的源码贡献者 …

阅读更多...

nginx+flask+Gunicorn反代理服务拿不到真实IP的解决

nginx+flask+Gunicorn反代理服务拿不到真实IP的解决

背景本人在宝塔linux环境，要部署flask的简单后端并且用Ngnix反代理，用Gunicorn框架部署。（o(╥﹏╥)o中间磕磕绊绊总算部署上去了，需要了解Gunicorn怎么部署的朋友，评论区留言，我加补一篇介绍）…

阅读更多...

VuePress + Travis CI + Github Pages 全自动上线文档

VuePress + Travis CI + Github Pages 全自动上线文档

整体思路 1.Github 创建项目，本地创建切换到 docs 分支，通过 VuePress 构建文档项目（写一些文档），上传至 Github。 2.Travis CI 自动 clone 后安装依赖、编译、上传至 Github master 分支。 3.通过 GitHub Pages 功…

阅读更多...

[UI5 常用控件] 08.Wizard，NavContainer

[UI5 常用控件] 08.Wizard，NavContainer

文章目录前言1. Wizard1.1 基本结构1.2 属性1.2.1 Wizard：complete1.2.2 Wizard：finishButtonText1.2.3 Wizard：currentStep1.2.4 Wizard：backgroundDesign1.2.5 Wizard：enableBranching1.2.6 WizardStep：…

阅读更多...

【网络攻防实验】【北京航空航天大学】【实验一、入侵检测系统（Intrusion Detection System, IDS）实验】

【网络攻防实验】【北京航空航天大学】【实验一、入侵检测系统（Intrusion Detection System, IDS）实验】

实验一、入侵检测系统实验 1、虚拟机准备本次实验使用1台 Kali Linux 虚拟机和1台 Windows XP 虚拟机，虚拟化平台选择 Oracle VM VirtualBox，如下图所示。 2、 Snort环境搭建实验前，先确保Kali Linux虚拟机能够访问外网，将网络模式设置为“网络地址转换”： 2.1 安装…

阅读更多...

【flink状态管理（三）】StateBackend的整体设计、StateBackend创建说明

【flink状态管理（三）】StateBackend的整体设计、StateBackend创建说明

文章目录一. 状态后端概述二. StateBackend的整体设计1. 核心功能2. StateBackend的UML3. 小结三. StateBackend的加载与初始化1. StateBackend创建概述2. StateBackend创建过程一. 状态后端概述 StateBackend作为状态存储后端，提供了创建和获取KeyedStateBacke…

阅读更多...

最新文章