大模型学习笔记十一:视觉大模型

一、判别式模型和生成式模型

1)判别式模型Discriminative

①给某一个样本,判断属于某个类别的概率,擅长分类任务,计算量少。(学习策略函数Y =f(X)或者条件概率P(YIX))
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式

2)生成式模型Generative

①学习联合概率密度分布概率P(X,Y,学习所有数据的分布
能够反映训练数据本身的特性,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式

  • 示意图
    在这里插入图片描述

二、生成式模型技术路径

2.1 AutoEncoder自编码器

  • 组成
    编码器和解码器(其实就是特征压缩和特征拟合)
  • 示意图
    在这里插入图片描述
  • 注意
    ①AE中的隐变量是不具有语义特性的
    在这里插入图片描述

2.2 VAE变分自编码器(解决生成特定内容图像的问题)

  • 原理
    每一个特征对应一个正态分布的区间,比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
    在这里插入图片描述
  • 使用
    那我们只需要修改某个特征分布就可以达到想要的效果
  • 缺陷
    联合高斯密度生成信息损失大,图片比较粗糙

2.3 Diffusion Model扩散模型

  • 需求
    保留更多图片信息
  • 包括两个过程
    ①正向扩散过程:向输入数据中逐渐加入噪声的过程
    ②反向去噪过程:通过去噪方式学习数据生成过程
  • 示意图
    在这里插入图片描述+ 预测的是什么?
    预测的是前一步正向扩散加的噪声
  • 步骤
    ①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
    ②把Xo从0到1000之间采样一个时间步的Xt,就是步数,比如取500步,就是给图片加500步噪声
    ③训练利用X500得到X499这样一个去噪过程
  • 公式
    在这里插入图片描述
  • 使用模型案例
    DiT Block
    在这里插入图片描述

2.4 Stabel Diffusion 模型结构

  • 与DM的不同(引入条件信息:对象分类、文本、排版布局、图片参考)
    在这里插入图片描述

  • 特点
    ①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4),推理的时间复杂度会降低很多
    ②通过统一方式注入条件类型到模型
    ③CLIP只支持英文

  • 版本更新迭代(以前用的CLIP,普遍有文本内容理解问题,容易生成图文不对齐的情况)
    在这里插入图片描述

  • 特制模型(C站扩展举例)

    1. Indigo Furry mix

模型地址:https://civitai.com/models/34469?modelVersionId=109229

发布者:indigowing(个人主页:https://civitai.com/user/indigowing/models)

介绍:这是一系列的模型,主要专注于雄性兽/龙人(还有非全年龄向内容)。其模型有偏混合向的,偏动漫向的,还有偏现实向的。所以可根据你想画什么风格画风的画,来选择对应表现较好的模型 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
在这里插入图片描述
2. Crosskemono(furry_model&human_model)

模型地址:https://civitai.com/models/11888?modelVersionId=47368

注:此系列模型附带VAE,配合它来一起使用(VAE的作用可以理解为滤镜,在生成 AI 绘画时,会对输出的颜色和线条产生影响)

发布者:toynya(个人主页:https://civitai.com/user/toynya/models)

介绍:这个系列的模型主要是萌系日系那种风格的,可生成可爱的雄性或者雌性兽人,据演示图来看还可以生成兽娘(Furry程度表中的2级福瑞)。不过需要注意,这个模型也会生成非全年龄向的内容 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili

在这里插入图片描述

  • 定制路线
    ①阶段一:图文对其训练,得出基础模型
    ②阶段二:图文对其训练,得出社区微调模型
  • 使用
    在这里插入图片描述

2.5 级联式文声图模型Imagen(Imagen是DeepFloyd IF模型的开源复现版本)

  • 特点
    ①性价比低
    ②推理速度慢
    ③拥有更加优秀的文字生成能力(与T5 text encoder有关)

2.6 文生图SD模型的应用扩展

1)图像引导图片生成(比如调色、清晰化图片)
①单图像引导图片生成 SD Inpainting模型
在这里插入图片描述
②单图像引导图片生成 Outpainting模型
在这里插入图片描述

③多张图片引导图片生成
4-20张照片,生成单人数字分身LoRA模型训练(秒鸭相机)

  • EasyPhoto+sd-webui-EasyPhoto一键安装整合包训练自己的AI数字人写真和lora模型 ainewsto
    ④3-5张图片使用dreambooth训练单一商品模型
  • SD训练DreamBooth模型
    在这里插入图片描述
    ⑤特征注入式引导图片生成ControlNet(特征提取比如动作)
    在这里插入图片描述
    ⑥特征注入式引导图片生成IP-adapter
    在这里插入图片描述

2.7 SD模型的加速方法

1)算子加速-最大化GPU利用率(TensorRT\ONNX)
2)蒸馏加速-减少迭代步数

①数据无关:
LCM:4步圣徒
②数据相关
ADD(SD Turbo):2步圣徒
UFO-GEN:1步圣徒

三、3D目标生成方法一览

3.1 基于Nerf的方法

在这里插入图片描述

  • 注意
    在这里插入图片描述
  • 展示(这里放不了视频,这里的图片是围绕物体转动的)
    在这里插入图片描述

3.2 基于扩散模型和的方法

四、视频生成方法一览

4.1 基于文成图预训练模型的方法

①AnimateDiff(做不了大场景和场景切换)
在这里插入图片描述
在这里插入图片描述

②AnimateAnyone
用动作指导单张图片生成
在这里插入图片描述

4.2 原生视频生成方法Sora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249089.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

优思学院|直方图与条形图的具体区别

在六西格玛方法、质量管理工具中,数据的分析和可视化是关键步骤。直方图和条形图是两种常用的图表工具,但它们在用途和显示方式上有显著区别。本文将详细探讨这两种图表的定义、特性、应用及如何选择适合的图表。 1. 直方图和条形图的定义 直方图是一种…

人工智能未来发展前景将会怎样?

当我们探讨人工智能未来的发展前景时,可以从多个角度来详细说明其可能的影响和趋势: 技术进步与应用扩展 1.深度学习与机器学习: 进一步优化和算法进展:深度学习已经取得了巨大成就,但仍面临挑战,如对小数…

程序员想要6万一个月,需要什么能力,要吃什么样的苦?

让我们来算一道小学数学题:6w*1272w,年包72w的程序员起码是阿里P7-P8的水平了,论工作职责来说,起码得是大厂的一个小tech leader,如果是在小公司,基本上是公司骨干级成员,或是统筹整个项目和小组…

FFmpeg播放视频

VS2017+FFmpeg6.2.r113110+SDL2.30.5 1.下载 ShiftMediaProject/FFmpeg 2.下载SDL2 3.新建VC++控制台应用 3.配置include和lib 4.把FFmpeg和SDL的dll 复制到工程Debug目录下,并设置调试命令

如何让您的反爬虫策略更具弹性?揭秘管理技巧

摘要: 本文深入探讨了反爬虫策略的最新趋势与实战技巧,旨在帮助网站所有者和数据分析师构建更加灵活高效的爬虫管理系统。通过理解反爬机制、动态应对策略及合法数据采集的最佳实践,确保数据收集在遵守网络规则的同时,实现业务目…

Kettle 登录示例 POST请求

登录接口是post请求,组装Body为json字符串 var body "{\"username\":\""username"\",\"password\": \""password"\",\"code\":\""verification"\",\"uuid\…

YOLOv7网络结构学习

YOLOV7详细解读(一)网络架构解读 YOLOV7学习记录之原理代码介绍 【Make YOLO Great Again】YOLOv1-v7全系列大解析(Backbone篇) yolov7 图解 深入浅出 Yolo 系列之 Yolov7 基础网络结构详解 我觉得Head、Neck和Head的划分不太…

FedAvg的简单实现(详解)

对于联邦学习正在学习中,下文中若有错误出现,望指正 介绍 本文在简单实现联邦平均算法时,使用客户-服务器架构,其基本流程是: 1、server初始化模型参数,所有clients将这个初始模型下载到本地 2、clien…

每个人都有良知,只是被遮蔽的程度不同

85天 【困之勉行,下笨功夫】 每个人的良知余光都在,困之勉行努力用余光去精细明察,须下“人一己百,人十己千”的努力; 生活中,我们往往会看到,绝顶聪明的人往往愿意下笨功夫,而资质…

linux开机后不用登陆,无法正常进入系统,出现:/#的提示符

linux开机后不用登陆,无法正常进入系统,出现:/#的提示符 解决方案: 1、输入命令 ls /dev/mapper 此时会出现3个文件。其中rhel-root文件 是我们下面所要用的文件。 ls的目的就是为了让大家能知道自己带"-root" 文件的前缀是什…

C语言switch的使用

switch的使用语句 switch(表达式) { case 值1: 语句1; break; case 值2: 语句2; break; default: break; } 注意事项:1.表达式计算结果只能为(字符/整数) 2.case值只能是(字…

SpringData JPA Mongodb 查询部分字段

JPA 网上用的好像不多&#xff0c;找了好多材料以后最终找了这个可行的方案&#xff1a; Query(fields "{tender_id:1,_id:0}")List<MGPltTender> findByTenderIdIsNotNull(PageRequest pageRequest); 调用&#xff1a; Sort sort Sort.by(popularType.getC…

推荐3款堪称神器的工具软件,实用强大颜值高,你不能错过

Flameshot Flameshot是一款功能强大且易于使用的开源屏幕截图软件&#xff0c;广泛应用于Linux、Windows和macOS等平台。它不仅支持图形界面&#xff08;GUI&#xff09;操作&#xff0c;还提供命令行接口&#xff08;CLI&#xff09;&#xff0c;使得用户可以根据自己的需求选…

如何在 Puppeteer 中运行无头浏览器?

什么是无头浏览器&#xff1f; 我们都知道&#xff0c;用户界面&#xff08;UI&#xff09;是任何软件中最重要的部分。因此&#xff0c;“无头浏览器”的“无头”部分意味着它们确实缺少一个关键元素&#xff0c;即图形用户界面&#xff08;GUI&#xff09;。 这意味着浏览器…

鞍钢集团VM虚拟化存储与备份方案

用户背景&#xff1a;鞍钢集团是中央直接管理的国有大型企业&#xff0c;世界500强企业中国各地设有九大生产基地&#xff0c;鞍钢集团信息产业有限公司(以下简称“鞍信公司”)是鞍山钢铁旗下全资子公司&#xff0c;自主集成开发应用系统&#xff0c;为集团提供智能制造整体解决…

网络概念: 互联网和局域网、 OSI七层网络互联模型、数据封装、应用端口、地址解析、网络设备、网络配置

文章目录 引言I 网络概念1.1 互联网和局域网1.2 OSI七层网络互联模型1.3 数据封装1.4 TCP/IP协议1.5 应用端口II 地址解析III 网络设备3.1 集线器 HUB3.2 交换机 swich3.3 路由器 router3.4 防火墙 firewallIV 网络配置4.1 网络安全域(你住哪里?)4.2 地址转换(NAT,你名字叫…

【python学习】爬虫中常使用的urllib和requests库的的背景、定义、特点、功能、代码示例以及两者的区别

引言 urllib是Python标准库中的一个模块&#xff0c;它提供了一系列用于操作URL的功能 requests是一个Python第三方库&#xff0c;由Kenneth Reitz创建&#xff0c;用于简化HTTP客户端的编程 一、urllib的定义 urllib可以操作url&#xff0c;主要分为以下几个子模块&#xff1…

深度学习入门——误差反向传播

要正确理解误差反向传播法&#xff0c;我个人认为有两种方法&#xff1a;一种是基于数学式&#xff1b;另一种是基于计算图&#xff08;computational graph&#xff09; 前者是比较常见的方法&#xff0c;机器学习相关的图书中多数都是以数学式为中心展开论述的。因为这种方法…

Seaborn库学习之heatmap()函数

Seaborn库学习之heatmap(函数) 一、简介 seaborn.heatmap是Seaborn库中用于绘制热图&#xff08;Heatmap&#xff09;的函数。热图是一种数据可视化技术&#xff0c;通过颜色的变化来展示数据矩阵中的数值大小。这种图表非常适合展示数值数据的分布和关系&#xff0c;尤其是在…

【深度学习】InternVL2-8B,图转文,docker部署

文章目录 基础fastapi服务请求fastapi接口 基础 https://huggingface.co/OpenGVLab/InternVL2-8B#%E7%AE%80%E4%BB%8B InternVL2-26B应该更好&#xff0c;但显存没那么大&#xff0c;只能跑InternVL2-8B了。 下载&#xff1a; cd /ssd/xiedong/InternVL2-26B git clone htt…