AGI|AI到底如何生成视频?Sora究竟为何能引爆科技圈?

目录

一、AI生成视频引发新浪潮

二、生成方法及难点

三、Sora的突破进展

(一)可生成不同尺寸视频

(二)可生成1分钟时长视频

(三)图片生成视频

(四)场景一致性

(五)远距离相干性和物体持久性

(六)与世界互动

四、说在最后


一、AI生成视频引发新浪潮

近日随着一个个视频的爆火,OpenAI 全新发布的文生视频模型 Sora瞬间火爆全网。

经历了2023年AI技术的激烈竞争,多模态大模型在应用端呈现出百花齐放的景象。随着投资者对新技术兴趣的不断增长,聊天、搜索、文生图等传统应用领域已无法满足市场的渴望。在这股热潮中,一个尤为引人注目的领域崭露头角——那就是文生视频。

在OpenAI发布其新模型Sora之前,AI制作视频领域早已不是一片未开垦的处女地。该领域事实上早已聚集了众多竞争者,如Runway、Pika等AI视频生成工具在市场上打得火热。AI行业的领军者Stable AI也在去年末发布了开源模型Stable Video Diffusion,不断重塑着这个领域的格局。

在国内市场,阿里巴巴和字节跳动相继推出了AI视频生成工具Animate Anyone和Magic Animate。这两款工具的共同之处在于,它们都具备将静态图像转化为动态视频的能力。

然而,尽管AI生成视频领域看似热闹非凡,但在OpenAI发布Sora模型之前,它并未像聊天、文生图等常见AI工具那样引起广泛的公众关注。这背后的原因,很大程度上是因为文生视频的技术难度远高于前两者。从静态到动态,从平面到立体,这不仅需要强大的算法支持,还需要解决诸如内容连贯性、逻辑合理性以及用户体验等一系列复杂问题。

二、生成方法及难点

在AI生成视频的早期阶段,主要是依赖于GAN(生成式对抗网络)和VAE(变分自编码器)这两种模型。然而,这两种方法生成的视频内容比较受限,主要是静态、单一的画面,且视频的分辨率往往很低,导致它们的应用范围比较狭窄。

随着技术的进步,现在的AI生成视频主要基于两种技术路线。一种是使用Transformer模型,这种模型在文本和图像生成中非常常见,功能强大。另一种则是专门用于视频领域的扩散模型。

图像与视频生成方法流派概览

目前,扩散模型已成为文生视频的主流技术路线,代表性的模型有Gen、Dreamix以及Sora。扩散模型的优势在于其强大的语义理解和内容生成能力,这使得它能够从文本中提取关键信息,并将其转化为生动、逼真的图像和视频。

在扩散模型中,生成过程通常从预训练模型开始,这些模型首先对文本进行特征提取,以捕捉其中的关键语义信息。随后,这些特征被输入到扩散模型中,模型通过逐步添加高斯噪声,再执行反向操作,从而生成与文本描述相匹配的图像。在文生视频的情况下,这一过程进一步扩展到视频生成,通过在文生图的基础上增加时间维度,模型能够将一系列静态图像转化为动态、连贯的视频。

尽管AI视频生成技术已经取得了不小的进步,但概括性的来看,它们还是存在许多待突破的难点问题:

1. 复杂的文本控制:虽然现在的技术可以通过文本嵌入和图像特征的交叉注意力机制来控制生成的图像或视频的体态,但当输入的文本描述非常复杂时,生成的结果可能并不准确,甚至可能丢失部分物体或属性,或者出现物体与描述性属性混淆的情况。

2. 编辑的不连续性:当用户想对生成的图像进行定制化的编辑时,现有的技术可能无法实现连续的编辑,甚至会出现“灾难性遗忘”现象,即模型会忘记之前学到的概念。

3. 缺乏用户反馈:如果生成的结果不符合用户的期望,模型目前还无法直接获取用户的反馈来修正自身的缺陷。用户只能通过不断地修改输入的描述来尝试得到更满意的结果。

4. 视频生成的不成熟:与图像生成相比,视频生成的技术还不够成熟和稳定。生成的视频可能会出现帧间抖动较大的问题,尤其是当需要生成时间较长、物体和场景动态变化较大的视频时,现有的技术往往难以胜任。

AI视频制作已展现出逐步发展的趋势。然而,要实现如文生图等类型工具的大规模应用,仍需跨越一些障碍,特别是解决当前面临的技术难题。

三、Sora的突破进展

上述内容简要概述了AI生成视频的传统方法及其所面临的挑战。但随着Sora模型的崭露头角,我们可以从官网发布的Sora技术报告看到许多长期存在的难题正在逐步得到解决。

(一)可生成不同尺寸视频

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。也就是说我们可以以同一个视频为基础创造不同尺寸的视频,而视频还能够保持同一个主题风格。

(二)可生成1分钟时长视频

不同于以往部分模型仅能生成几秒的视频或是需要不断提示叠加视频时长,Sora可以根据提示词直接生成1分钟左右的视频场景,同时兼顾视频中人物场景的变换以及主题的一致性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(三)图片生成视频

Sora 能够生成视频,提供图像和提示作为输入,模型根据我们所输出的图片来生成一段视频。这意味着其可以创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

根据图片生成动画

根据主角骑行扩展前后画面

(四)场景一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

航拍视角展现场景变化

(五)远距离相干性和物体持久性

生成视频有一个很大的困难,就是在选择长视频片段时,要确保时间的连贯性。Sora模型大多数情况下都能很好地处理这个问题。它能记住视频里的人和东西,即使他们暂时被挡住或者不在画面里。甚至,它还能让同一个角色在不同的画面里看起来都一样,这样整个视频就更连贯了。

小狗在中途被遮挡后仍能保持主体一致

(六)与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。这意味着模型具备一定的通识能力,能够预测到画面的下一步会发生什么。

模仿人物画画的笔触

当然,在研究报告中OpenAI也指出Sora作为一款模拟器,目前仍存在许多局限性。举例来说,它无法精确模拟许多基本相互作用的物理特性,如玻璃破碎等。在模拟其他交互行为时,如吃食物,也不总是能正确反映物体状态的变化。除此之外,模型也存在其他常见的失效模式,如在长时间样本中可能出现的不连贯性或物体的自发出现等问题。

四、说在最后

随着科技的不断进步,AI生成视频领域正迎来前所未有的发展机遇。尽管在目前阶段,这些模型面临着种种挑战和局限,但正如ChatGPT从3.5到4.0所展示的巨大进步,我们有理由相信,这些问题和难题将在不断的研究与创新中得以攻克。

随着模型性能的逐步提升,它们将能够生成更加逼真、生动的视频内容,满足不同领域的需求。无论是影视制作、广告创意,还是虚拟现实、游戏设计,AI生成视频技术都将发挥巨大的潜力,为我们的工作和生活带来更多可能性。

当然,技术的发展不仅仅停留在模型的完善上。如何将这些先进的模型真正应用到实际工作中,创造实际价值,将是我们面临的下一个重要课题。

注:

文中图片均来自OpenAI官网,因平台限制未能呈现完整视频。

参考资料:

1、《AI生成视频比ChatGPT难在哪》-张书琛

2、《从感知到创造:图像视频生成式方法前沿探讨》-林倞,杨斌斌

3、 Video generation models as world simulators-OpenAI

更多AI小知识欢迎关注“神州数码云基地”公众号,回复“AI与数字化转型”进入社群交流

版权声明:文章由神州数码武汉云基地团队实践整理输出,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2803129.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【C++私房菜】面向对象中的简单继承

文章目录 一、 继承基本概念二、派生类对象及派生类向基类的类型转换三、继承中的公有、私有和受保护的访问控制规则四、派生类的作用域五、继承中的静态成员 一、 继承基本概念 通过继承(inheritance)联系在一起的类构成一种层次关系。通常在层次关系的…

Jenkins2.426.3运行时提示:mvn: command not found

Jenkins运行时提示:mvn: command not found 第一步,查看服务器上是否已正确安装maven环境 $mvn --version 如果没有显示上面的信息,则需要重新安装maven环境后再往下进行 第二步:Jenkins配置Maven 例如:/usr/local/…

六、回归与聚类算法 - 欠拟合和过拟合

目录 1、定义 2、原因及解决方法 2.1 正则化 线性回归欠拟合与过拟合线性回归的改进 - 岭回归分类算法:逻辑回归模型保存与加载无监督学习:K-means算法 1、定义 2、原因及解决方法 2.1 正则化

洛谷B2008/2009 题解

#题外话(第35篇题解)(太简单,分两个于心不忍……)(C语言) #先看题目 2008: 2009: 题目链接: 2008https://www.luogu.com.cn/problem/B20082009https://www…

海思SD3403,SS928/926,hi3519dv500,hi3516dv500移植yolov7,yolov8(14)

自己挖了一个坑,准备做SS928/SD3403的Yolov8的移植,主要是后台私信太多人在问相关的问题。先别着急去写代码,因为在hi3516dv500下的移植还是比较顺利。之前在hi3519av100和hi3559av100系列时遇到过一些问题,所以没有继续去移植新的算法。 SS928架构乍一看和hi3559av100特别…

多来客资讯:本地生活服务平台加盟方法

本地生活一般涵盖了吃喝玩乐,而本地生活平台,则是指提供这些吃喝玩乐的互联网平台以及各大APP,比如饿了么、美团等等,这些都可以叫做本地生活服务平台。 因为这些平台都是主要做外卖、团购业务为主,所以,本…

Oracle迁移到mysql-导出mysql所有索引和主键

导出建库表索引等: [rootlnpg ~]# mysqldump -ugistar -pxxx -h192.168.207.143 --no-data -d lndb > lndb20230223-1.sql 只导出索引:参考:MYSQL导出现有库中的索引脚本_mysql 导出数据库所有表的主键和索引-CSDN博客 -- MYSQL导出现有…

项目:文本编辑器

文章目录 [toc] 文本编辑器1.项目概述1.1功能介绍1.2界面实现预览1.3界面设计简要介绍 2.设计流程2.1窗口图片,和标题更改2.1.1gui方式改变2.1.2代码方式更改2.2 QPushButton按钮设置样式表 2.2 功能实现2.2.1 打开读取文件2.2.2 打开保存文件2.2.3 文件关闭2.2.4 更…

Web 前端 UI 框架Bootstrap简介与基本使用

Bootstrap 是一个流行的前端 UI 框架,用于快速开发响应式和移动设备优先的网页。它由 Twitter 的设计师和工程师开发,现在由一群志愿者维护。Bootstrap 提供了一套丰富的 HTML、CSS 和 JavaScript 组件,可以帮助开发者轻松地构建和定制网页和…

【selenium】三大切换 iframe 弹窗alert 句柄window 和 鼠标操作

目录 一、iframe 1、切换方式: 1、第一种情况: 2、第二种情况: 方式1: 先找到iframe,定位iframe元素(可以通过元素定位的各种方式:xpath,css等等),用对象接收&…

Sora模型开启了AI视频模型的新篇章,将引领未来更多领域的创新和应用。

目录 一、Sora模型的工作原理 二、AI视频模型的无限可能性 1.视频编辑和创作 2.游戏和虚拟现实 3.教育和远程协作 4.娱乐和社交媒体 OpenAI最近推出了其首个AI视频模型Sora,这个模型能够生成逼真的视频,具有许多潜在的应用领域。本文将探讨Sora模型…

旅游景点旅行研学门票特产小程序开发

旅游景点旅行研学门票特产小程序开发 旅游线路智能推荐与精心规划,我们为用户提供丰富多样的旅游线路选择,助力您的行程安排更加顺畅无忧。 景点门票在线预订与购买功能,覆盖景区、博物馆、演出等各类门票。告别排队等待,一键操…

揭秘抖音自动评论软件的使用方法和步骤

**一、引言** 随着移动互联网的普及,抖音已经成为了人们日常生活中不可或缺的一部分。为了更好地利用抖音,我们今天就来探讨一下抖音自动评论软件的使用方法和步骤。本文将通过通俗易懂的语言,结合实际操作,帮助大家轻松掌握这一…

(十四)【Jmeter】线程(Threads(Users))之开放模型线程组(Open Model Thread Group)

简述 操作路径如下: 开放模型线程组(Open Model Thread Group) 是 JMeter 5.5 版本中引入的一个新特性,它允许用户创建具有可变负载的负载配置文件。相较于传统的线程组,开放模型线程组提供了更多的灵活性和动态调整的能力。 优点: 灵活性:允许测试人员根据测试需求动…

LED景观照明灯驱动电路串联、并联和恒流3款方案

LED景观照明灯是现代城市照明中常见的一种灯具。为了保证LED景观照明灯的正常工作,需要设计合适的驱动电路。LED景观照明灯的驱动电路可以采用串联、并联或恒流的方式来设计。 首先,串联驱动电路是指将多个LED灯串联在一起,然后接入电源进行…

OR-806A固态继电器SSR光耦,可替代AQW212

OR-806A 固态继电器 VL60V输出端击穿电压光耦 高隔离电压 60 至 600V 输出耐受电压 工业温度范围:-40 to 85℃ 高灵敏度和高速响应 特征 输入和输出之间的高隔离电压 (Viso:5000 V rms)。 控制低电平模拟信号 高灵敏度和…

Vi/Vim 使用小窍门,如何消除搜索后的关键字高亮

Vim/Vi 基本上是 *nix 世界最受欢迎的编辑器了,不知道为什么,一直以来觉得和 Emacs 比起来,Vim 更加有亲和力。用起来很舒服。 今天就记录一个困扰了我很久的问题。 大家应该都知道,在 Vi 里面如果要搜索某个关键字,…

短剧小程序系统,重塑视频观看体验的科技革命

随着科技的飞速发展,人们对于数字化内容的消费需求也在不断增长。在这个大背景下,短剧小程序作为一种新型的视频观看方式,正逐渐受到大众的青睐。本文将探讨短剧小程序的发展背景、特点以及市场前景,分析其在重塑视频观看体验方面…

flutter开发实战-StreamBuilder使用介绍及实例

flutter开发实战-StreamBuilder使用介绍及实例 StreamBuilder是一个Widget,它依赖Stream来做异步数据获取刷新widget。 一、Stream Stream是一种用于异步处理数据流的机制,它允许我们从一段发射一个事件,从另外一段去监听事件的变化.Strea…

Vulnhub-OSCP

信息收集 # nmap -sn 192.168.1.0/24 -oN live.nmap Starting Nmap 7.94 ( https://nmap.org ) at 2024-02-07 17:49 CST Nmap scan report for 192.168.1.1 Host is up (0.00052s latency). MAC Address: 00:50:56:C0:00:08 (VMware) Nmap scan report for 192.168.1.…