为什么说 2023 年是 AI 视频生成的突破年?2024 年的 AI 视频生成有哪些值得期待的地方?

Diffusion Models视频生成-博客汇总

前言:2023年是 AI 视频生成的突破年,AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?

目录

前言

现在哪里可以生成 AI 视频?

产品

研究和大型科技公司

AI视频的下一步是什么?

未解决的问题


前言

2023 年是 AI 视频爆发的一年。今年年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。 

这些产品仍然相对有限——大多数生成 3 到 4 秒的视频,输出的质量往往参差不齐,而且字符一致性等问题尚未得到解决。我们距离能够用单个文本提示(甚至多个提示!)创建皮克斯级别的短片还很遥远。 

然而,过去一年我们在视频生成方面看到的进展表明,我们正处于大规模变革的早期阶段——类似于我们在图像生成方面看到的情况。我们看到文本到视频模型的持续改进,以及图像到视频和视频到视频等分支的发展。

为了帮助了解创新的爆炸式增长,我们跟踪了迄今为止最大的发展、需要关注的公司以及该领域中剩余的基本问题。

现在哪里可以生成 AI 视频?

产品

今年到目前为止,我们已经跟踪了 21 个公共产品。虽然您可能听说过 Runway、Pika、Genmo 和 Stable Video Diffusion,但还有一长串其他功能有待发现。

些产品大多数来自初创公司——其中许多都是从 Discord 机器人开始的,它有一些优势:

  • 您不需要构建自己的面向消费者的界面,并且可以专注于模型质量
  • 您可以利用 Discord 每月 1.5 亿活跃用户的基础进行分发 - 特别是如果您在该平台的“发现”页面上获得推荐
  • 公共渠道为新用户提供了一种简单的方法来获得创作灵感(通过查看其他人生成的内容)并为产品提供社会证明

然而,我们开始看到更多的视频产品建立自己的网站甚至移动应用程序,特别是当它们成熟时。虽然 Discord 提供了一个很好的启动板,但它在纯生成之上添加的工作流程方面受到限制,并且团队对消费者体验的控制很少。还值得注意的是,有很大一部分人使用 Discord,可能会发现界面令人困惑或不经常返回它。

研究和大型科技公司

Google、Meta 和其他公司在哪里?它们在公共产品列表中明显缺失——尽管您可能已经看到了它们发布的引人注目的模型,例如 Meta 的Emu Video、Google 的VideoPoet和Lumiere以及字节跳动的MagicVideo。

到目前为止,除阿里巴巴之外的大型科技公司都选择不公开发布其视频生成产品。相反,他们发表了有关各种形式的视频生成的论文,并发布了演示视频,但没有宣布他们的模型是否或何时公开。

这些公司都拥有巨大的分销优势,其产品拥有数十亿用户。当他们的演示看起来很强大并且他们有机会在这个新兴类别中占领有意义的市场份额时,为什么不放弃他们的视频模型呢? 

重要的是要记住,这些公司行动缓慢。尽管 Instagram去年年底为 Stories推出了AI 背景生成器,而 TikTok 也已悄然推出了 AI 滤镜,但大多数公司仍未发布文本转图像产品。法律、安全和版权问题往往导致这些公司难以将研究成果转化为产品,从而导致产品推广延迟,从而让新来者有机会获得先发优势。

AI视频的下一步是什么?

如果您曾经使用过其中一款产品,您就会知道在人工智能视频进入黄金时段之前,还有很多需要改进的地方。模型生成与您的提示相匹配的精美剪辑的“神奇时刻”是可能的,但相对较少。更常见的是,您需要点击“重新生成”几次并裁剪或编辑输出才能获得专业级剪辑。

该领域的大多数公司都专注于解决一些核心(尚未解决)问题:

  • 控制——你能控制场景中发生的事情(例如,如果你提示“男人向前走”,运动是否如描述的那样?)以及“相机”如何移动?对于后一点,许多产品都添加了功能,允许您缩放或平移相机,甚至添加特殊效果。 

前一点——运动是否如描述的那样? - 更难解决。这是一个潜在的模型质量问题(模型是否理解并且可以根据您的提示执行),尽管一些公司正在尝试为用户提供更多的预生成控制权。 Runway 的运动画笔就是一个很好的例子,因为它允许您突出显示图像的特定区域并确定它们的移动方式。

  • 时间连贯性——如何使角色、物体和背景在帧之间保持一致而不变形或变形?这是所有公开可用模型中非常常见的问题。如果您今天看到一个时间连贯的视频,长度超过几秒,则很可能是视频到视频,拍摄视频并使用AnimateDiff 提示旅行之类的工具转换风格。
  • 长度——你能制作超过几秒的剪辑吗?这与时间一致性密切相关。许多公司限制您可以生成的视频的长度,因为他们无法确保几秒钟后的任何一致性。如果您看到长篇 AI 视频(如下所示),您会注意到它由一堆短片组成,并且需要数十(如果不是数百)提示!

未解决的问题

感觉AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?该领域的研究人员和创始人之间尚未达成广泛共识,还有一些问题有待回答:

  • 当前的扩散架构适用于视频吗?今天的视频模型是基于扩散的:它们本质上生成帧并尝试在它们之间创建时间一致的动画(有多种策略可以做到这一点)。他们对 3D 空间以及对象如何交互没有内在的理解,这解释了扭曲/变形。例如,在剪辑的前半部分中看到一个人沿着街道行走,然后在后半部分中融入地面的情况并不少见 - 该模型没有“硬”表面的概念。由于缺乏场景的 3D 概念化,从不同角度生成相同的剪辑也很困难(如果不是不可能的话)。 

有些人认为视频模型从根本上不需要了解 3D 空间。如果他们接受足够高质量数据的训练,他们将能够学习对象之间的关系以及如何从不同角度表示场景。其他人相信这些模型需要 3D 引擎来生成时间上连贯的内容,特别是在几秒钟之后。 

  • 高质量的训练数据从哪里来?训练视频模型比其他内容模式更难,很大程度上是因为没有那么多高质量的、有标签的训练数据供这些模型学习。语言模型通常在Common Crawl等公共数据集上进行训练,而图像模型则在LAION和ImageNet等标记数据集(文本图像对)上进行训练。

视频数据更难获得。虽然 YouTube 和 TikTok 等平台上不乏可公开访问的视频,但这些视频没有标签,而且可能不够多样化(猫剪辑和有影响力的道歉之类的内容在数据集中可能过多!)。视频数据的“圣杯”可能来自工作室或制作公司,它们拥有从多个角度拍摄的长视频,并附有脚本和指导。然而,他们是否愿意授权这些数据进行训练还有待确定。 

  • 这些用例将如何在平台/模型之间进行细分?我们在几乎所有内容模式中看到的是,一种模型并不能“胜任”所有用例。例如,Midjourney、Ideogram 和 DALL-E 都具有不同的风格,并且擅长生成不同类型的图像。

我们预计视频也会有类似的动态。如果您测试当今的文本到视频和图像到视频模型,您会发现它们擅长不同的风格、运动类型和场景构成(我们将在下面展示两个示例)。围绕这些模型构建的产品可能会在工作流程方面进一步分化,并服务于不同的终端市场。这甚至不包括不进行纯文本到视频的相邻产品,而是处理诸如动画人类头像(例如HeyGen)、VFX(例如Wonder Dynamics)和视频到视频(例如,DomoAI)。

提示:“雪落在城市街道上,逼真”

玄武

跑道

稳定的视频扩散

皮卡实验室

提示:“小男孩玩老虎,动漫风格”

玄武

稳定的视频扩散

皮卡实验室

  • 谁将拥有工作流程?除了纯粹的视频生成之外,制作一个好的剪辑或电影通常需要编辑,特别是在当前的范例中,许多创作者正在使用视频模型来为在另一个平台上创建的照片制作动画。以中途图像开始、在 Runway 或 Pika 上进行动画处理、然后在 Topaz 中进行升级的视频并不罕见。然后,创作者会将视频带到 Capcut 或 Kapwing 等编辑平台,并添加配乐和画外音(通常在 Suno 和 ElevenLabs 等其他产品上生成)。 

在这么多产品之间来回切换是没有意义的。我们期望看到视频生成平台开始自行添加其中一些功能。例如,Pika 现在允许您在其网站上升级视频。然而,我们也看好人工智能原生编辑平台,它可以轻松地在一个地方从不同模型跨模式生成内容并将这些内容拼凑在一起。 

原文链接:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/#:~:text=2023%20was%20a%20breakout%20year,from%20text%20or%20image%20prompts. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2780304.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

小程序-上传图片功能

技术前置: 1.框架采用colorUI 2.原生开发 功能: 上传图片 1.上传已经拍摄的图片 2.实时拍摄上传 3.设置上传图片数量,每次上传数量 4.上传等待 ChooseImage() {if(this.data.imgList.length>4){_this.ErrorEvent("最多上传4…

网络安全检查表

《网络攻击检查表》 1.应用安全漏洞 2.弱口令,默认口令 3.服务器互联网暴露 4.操作系统,中间件安全漏洞 5.研发服务器,邮件服务器等安全检查

Linux中FIFO管道

介绍: FIFO被称为命名管道,pipe只能用于有血缘关系的进程间通信,但通过FIFO,不相关的进程也可以进程间通信。 FIFO是linux基础文件类型的一种(文件类型为p),FIFO文件在磁盘上没有数据块&#…

用code去探索理解Llama架构的简单又实用的方法

除了白月光我们也需要朱砂痣 我最近也在反思,可能有时候算法和论文也不是每个读者都爱看,我也会在今后的文章中加点code或者debug模型的内容,也许还有一些好玩的应用demo,会提升这部分在文章类型中的比例 今天带着大家通过代码角度…

HTTP 超文本传送协议

1 超文本传送协议 HTTP HTTP 是面向事务的 (transaction-oriented) 应用层协议。 使用 TCP 连接进行可靠的传送。 定义了浏览器与万维网服务器通信的格式和规则。 是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。 H…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Divider组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Divider组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Divider组件 提供分隔器组件,分隔不同内容块/内容元素。 子组件 …

设计模式学习笔记05(小滴课堂)

讲解Adapeter设计模式和应用场景 接口的适配器案例实战 代码: 定义一个接口: 编写适配器: 写我们的商品类: 会员类: 这样我们不同的需求可以根据需要去实现不同的接口方法,而不用实现全部接口方法。 适配…

python+django咖啡网上商城网站

全网站共设计首页、咖啡文化、咖啡商城、个人信息、联系我们5个栏目以及登录、注册界面,让用户能够全面的了解中国咖啡咖啡文化宣传网站以及一些咖啡知识、文化。 栏目一首页,主要放置咖啡的起源及发展进程的图文介绍;栏目二咖啡文化&#xf…

《Linux 简易速速上手小册》第2章: 命令行的艺术(2024 最新版)

文章目录 2.1 基本 Linux 命令2.1.1 重点基础知识2.1.2 重点案例:整理下载文件夹2.1.3 拓展案例 1:批量重命名文件2.1.4 拓展案例 2:查找并删除特定文件 2.2 文件和目录管理2.2.1 重点基础知识2.2.2 重点案例:部署一个简单的网站2…

中国电子学会2020年9月份青少年软件编程Scratch图形化等级考试试卷三级真题(编程题)

编程题(共3题,共30分) 36.题目:魔术表演“开花” 1.准备工作 (1)将舞台设置为"Party"; (2)删除默认角色,自行绘制椭圆花瓣角色; (3&#xf…

fast.ai 机器学习笔记(一)

机器学习 1:第 1 课 原文:medium.com/hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236 译者:飞龙 协议:CC BY-NC-SA 4.0 来自机器学习课程的个人笔记。随着我继续复习课程以“真正”理解它,这些笔记将继续更…

【Django】Django项目部署

项目部署 1 基本概念 项目部署是指在软件开发完毕后,将开发机器上运行的软件实际安装到服务器上进行长期运行。 在安装机器上安装和配置同版本的环境[python,数据库等] django项目迁移 scp /home/euansu/Code/Python/website euansuxx.xx.xx.xx:/home…

C#系列-Entity Framework 架构(18)

下图展示了EF的整体架构。现在让我们逐个地看看架构的各个组件: EF组件图 EDM(Entity Data Mode 实体数据模型):EDM 由三个主要部分组成:概念模型,映射和存储模型。 Conceptual Model(概念模型&#xff0…

【Langchain Agent研究】SalesGPT项目介绍(二)

【Langchain Agent研究】SalesGPT项目介绍(一)-CSDN博客 上节课,我们介绍了SalesGPT他的业务流程和技术架构,这节课,我们来关注一下他的项目整体结构、poetry工具和一些工程项目相关的设计。 项目整体结构介绍 我们把…

【安装记录】安装 netperf 和 perf

这是一篇发疯随笔X.X 我的环境是虚拟机debian12,出于种种原因,之前直接使用apt-get install netperf apt-get install perf指令直接安装,报错找不到包 然后上网搜了一堆教程,有说下载netperf源码编译的,那些教程里面有…

Guitarpro 8.1.1.17中文解锁版2024最新安装激活图文教程

Guitarpro 8.1.1.17中文解锁版一直备受用户喜爱和关注,但也存在一个被诟病的问题,即不支持中国专属的简谱功能。作为国人为了方便学习音乐独创的一种谱写方式,简谱在国内广受欢迎,然而在国际上使用的却很少。为了解决这一问题&…

CrossOver虚拟机软件功能相似的软件

与 CrossOver 功能相似的软件有: Wine:Wine 是一款在 Unix 和 Unix-like 系统(如 Linux、macOS)上运行 Windows 应用程序的兼容层。与 CrossOver 类似,Wine 通过模拟 Windows 的 API 来实现应用程序的兼容性。它支持大…

【新书推荐】7.4节 寄存器间接和相对寻址方式

本节内容:当指令操作数为内存操作数,且内存操作数的地址使用指针寄存器表示时,称为寄存器间接寻址方式。 ■寄存器间接寻址方式:在地址表达式中,只能使用BX、SI、DI、BP四个指针寄存器用来寻址。 7.4.1 寄存器间接寻…

《深入浅出OCR》第八章:文档任务多模态预训练

✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 👨‍💻面向对象: 本篇前言知识主要介绍深度学习知识,全面总结知知识…

【Rust】使用Rust实现一个简单的shell

一、Rust Rust是一门系统编程语言,由Mozilla开发并开源,专注于安全、速度和并发性。它的主要目标是解决传统系统编程语言(如C和C)中常见的内存安全和并发问题,同时保持高性能和底层控制能力。 Rust的特点包括&#x…