Video generation models as world simulators-视频生成模型作为世界模拟器

原文地址:Video generation models as world simulators

我们探索在视频数据上进行大规模生成模型的训练。具体来说,我们联合训练文本条件扩散模型,同时处理不同持续时间、分辨率和长宽比的视频和图像。我们利用一个在视频和图像潜在编码的时空块上运行的转换器结构。我们最大的模型Sora能够生成一分钟高保真度视频。我们的结果表明,扩展视频生成模型是建立物理世界通用目的模拟器的一个有前途的途径。

这份技术报告着重介绍了两个方面:(1) 我们将各种类型的视觉数据转化为统一表示形式的方法,从而实现生成模型的大规模训练;和 (2) 对Sora的能力和局限性进行定性评估。报告中不包括模型和实施细节。

许多先前的研究都使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常聚焦于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型,它能够生成跨越不同持续时间、长宽比和分辨率的视频和图像,达到高清晰度视频长达一分钟。

将视觉数据转化为块

我们受到大型语言模型的启发,这些模型通过在互联网规模的数据上进行训练获得了通用能力。语言模型的成功在一定程度上归功于优雅地统一了文本、代码、数学和各种自然语言等多种形式的令牌。在这项工作中,我们考虑如何将视觉数据的生成模型继承这些好处。而语言模型使用文本令牌,Sora使用视觉块。之前已经证明,块对于视觉数据的模型是一种有效的表示形式。我们发现,块是一种高度可扩展且有效的表示形式,适用于训练各种类型的视频和图像的生成模型。

 

在高层次上,我们首先将视频压缩成较低维的潜在空间,然后将表示分解为时空块。

视频压缩网络 

我们训练了一个网络来降低视觉数据的维度。该网络接收原始视频作为输入,并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在块 

给定一个压缩的输入视频,我们提取一系列时空块作为变换器的令牌。这个方案也适用于图像,因为图像只是具有单帧的视频。我们基于块的表示形式使得Sora能够在分辨率、持续时间和长宽比可变的视频和图像上进行训练。在推理时,我们可以通过将随机初始化的块按适当大小的网格排列来控制生成的视频的大小。

扩展变换器用于视频生成 

Sora是一个扩散模型;在给定噪声块输入(以及像文本提示这样的条件信息)的情况下,它被训练来预测原始的“清晰”块。重要的是,Sora是一个扩散变换器。变换器在各种领域展示了显著的扩展性能,包括语言建模、计算机视觉和图像生成。

 

在这项工作中,我们发现扩散变换器同样可以有效地扩展为视频模型。下面,我们展示了在训练进行中使用固定种子和输入的视频样本比较。随着训练计算力的增加,样本质量显著提高。

可变的持续时间、分辨率和长宽比 

先前的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准尺寸,例如256x256分辨率的4秒视频。我们发现,相反,以原始大小训练数据具有几个优势。

采样灵活性 

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的视频进行采样。这使Sora能够直接以各种设备的原生长宽比创建内容。它还使我们能够在较低尺寸快速原型化内容,然后再使用相同的模型生成全分辨率内容。

改善构图和组成   

我们在实践中发现,以视频的原生长宽比进行训练可以改善构图和组成。我们将Sora与将所有训练视频裁剪为正方形的模型版本进行了比较,这是训练生成模型时常见的做法。在正方形裁剪训练的模型(左侧)有时会生成主体仅部分在视野中的视频。相比之下,Sora生成的视频(右侧)具有改进的构图。

语言理解 

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们将引入 DALL·E 3 中的重新标注技术应用到视频中。我们首先训练一个高度描述性的标题模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,使用高度描述性的视频标题进行训练不仅提高了文本的准确性,还改善了视频的整体质量。

类似于DALL·E 3,我们还利用GPT将用户的简短提示转化为更加详细的长篇说明,并将其发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。

通过图像和视频发出提示 

以上所有结果以及我们的主页展示的都是文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务,比如创建完美循环的视频、为静态图像添加动画效果、向后或向前延伸视频等。

为DALL·E图像添加动画效果 

Sora能够根据提供的图像和提示生成视频。以下是基于DALL·E 2和DALL·E 3图像生成的示例视频。

延长生成的视频 

Sora还可以延长视频的时间,可以向前或向后延长。以下是四个视频,它们都是从一个生成的视频片段开始向时间倒退延伸。因此,这四个视频的开头各不相同,但最终都导向同样的结尾。

我们可以使用这种方法向前和向后延伸视频,以生成一个无缝的无限循环。

视频到视频的编辑 

扩散模型为从文本提示编辑图像和视频提供了众多方法。下面我们将其中一种方法,SDEdit,应用到Sora上。这种技术使得Sora能够零-shot转换输入视频的风格和环境。

连接视频 

 我们还可以使用Sora逐渐插值两个输入视频之间,创建在完全不同主题和场景组合之间无缝过渡的视频。在下面的示例中,中间的视频是左侧和右侧对应视频之间插值产生的结果。

图像生成能力 

Sora还具备生成图像的能力。我们通过在时间轴上以一帧的时间跨度将高斯噪声块排列在空间网格中来实现这一点。该模型可以生成不同大小的图像,分辨率高达2048x2048。

新兴的仿真能力 

我们发现,当视频模型在大规模训练时,它们表现出一些有趣的新兴能力。这些能力使得Sora能够从物理世界中模拟出人、动物和环境的某些方面。这些特性的出现并没有任何针对3D、物体等显式归纳偏好,它们纯粹是规模现象所产生的。

3D一致性  Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中以一致的方式移动。

长程连贯性和物体持久性  对视频生成系统的一个重要挑战是在采样长视频时保持时间一致性。我们发现,尽管不总是如此,Sora通常能够有效地模拟短期和长期依赖关系。例如,我们的模型可以在人们、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样地,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持他们的外观。

与世界互动  Sora有时可以模拟一些影响世界状态的简单动作。例如,一位画家可以在画布上留下新的笔触,并随着时间推移而保留下来,或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界  Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制《Minecraft》中的玩家,并以高保真度呈现世界及其动态。通过提供包含“Minecraft”关键词的描述性标题,这些能力可以从零开始引出。

这些能力表明,继续扩展视频模型是发展高能力物理世界和数字世界模拟器的有前途的道路,并模拟其中生活的物体、动物和人类。

讨论 

目前,Sora作为一个模拟器还存在许多限制。例如,它无法准确地模拟许多基本交互的物理性质,比如玻璃破碎。其他交互,比如吃东西,也不总是产生正确的物体状态变化。我们在我们的首页上列举了模型出现的其他常见故障模式,比如长时间样本中出现的不连贯性或物体的突然出现。

我们相信,Sora如今所展现的能力表明,继续扩展视频模型是发展具有能力的物理世界和数字世界模拟器,并模拟其中生活的物体、动物和人类的有前途的道路。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/403932.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis信创平替之TongRDS(东方通),麒麟系统安装步骤

我的系统: 银河麒麟桌面系统V10(SP1)兆芯版 1.先进入东方通申请使用 2.客服会发送一个TongRDS包与center.lic给你(我这里只拿到.tar.gz文件,没有网上的什么安装版) 3.上传全部文件到目录中 4.服务节点安装,并启动 tar -zxvf TongRDS-2.2.1.2_P3.Node.tar.gz cd pmemdb/bin/…

c++实现栈和队列类

c实现栈和队列类 栈(Stack)Stack示意图Stack.cpp 队列(queue)queue 示意图queue.cpp 栈(Stack) Stack示意图 Stack.cpp #pragma once #include "ListStu.cpp"template<typename T> class Stack { public: /* * void push(T& tDate)* 参数一 &#xff1a;…

【Linux从青铜到王者】 基础IO

本篇重点&#xff1a;文件描述符&#xff0c;重定向&#xff0c;缓冲区&#xff0c;磁盘结构&#xff0c;文件系统&#xff0c;inode理解文件的增删查改&#xff0c;查找一个文件为什么一定要有路径&#xff0c;动静态库&#xff0c;有的时候为什么找不到库&#xff0c;动态库的…

SQL面试题及答案

介绍 在快节奏的数据管理和信息技术世界中,导航和操作结构化数据的能力是一项非常重要的技能。SQL,即结构化查询语言,是关系数据库的基石,掌握这种语言的专业人员的需求量很大。SQL 面试在科技行业很常见,潜在的候选人会接受测试以展示他们的知识和解决问题的能力。为了帮…

酷开科技丨新年新玩法!酷开系统壁纸模式给客厅“换”新

甲辰龙年即将到来&#xff0c;新年新家新气象&#xff0c;快到酷开系统壁纸模式中挑选一款喜欢的壁纸&#xff0c;为新的一年增添一份美好和喜悦吧&#xff01; 酷开科技将更多的电视新玩法带给你&#xff0c;让你的电视成为家庭中的焦点&#xff01;酷开系统壁纸模式&#xf…

【前端素材】推荐优质后台管理系统APP Zina平台模板(附源码)

一、需求分析 当我们从多个层次来详细分析后台管理系统时&#xff0c;可以将其功能和定义进一步细分&#xff0c;以便更好地理解其在不同方面的作用和实际运作。 1. 功能层次 a. 用户管理功能&#xff1a; 用户注册和登录&#xff1a;管理用户账户的注册和登录过程。权限管…

easyui 手风琴Accordion 面板的高度设置

今天接到一个新的小需求&#xff0c;如下图&#xff0c;当预算表单只有一个时&#xff0c;要求不显示预算表单这块的内容。 考虑到页面创建时用到了表单的回调和点击方法&#xff0c;所以不能单纯的移除&#xff0c;移除右侧表格的创建会报错&#xff0c;所以只能隐藏。 隐藏…

突破挑战:利用沃尔玛跨境智星实现批量注册与下单

在进行沃尔玛测评时&#xff0c;确保环境安全至关重要。每个账号都应使用独立的运行环境&#xff0c;这样可以避免浏览器指纹、字体以及浏览器数据之间的关联问题。此外&#xff0c;账号的资料也需要特别注意。最好是自己注册自己下单&#xff0c;这样可以确保所有资源都掌握在…

JAVA工程师面试专题-并发编程篇

目录 一、线程 1、并发与并行的区别 2、同步和异步的区别 3、Java中创建线程有哪些方式? 4、Thread和Runnable的区别 5、Java中的Runnable、Callable、Future、FutureTask的区别和联系&#xff1f; 6、说一下你对 CompletableFuture 的理解 7、volatile关键字有什么用&…

如何下载 VisualStudio2022 离线包

1.概要&#xff0c;有些场景下&#xff0c;不允许联网&#xff0c;需要下载离线安装包。 2.过程 2.1 下载地址 创建基于网络的安装 - Visual Studio (Windows) | Microsoft Learn 2.2 选择引导程序 2.3 执行命令 2.3.1 下载全部&#xff1a; vs_Enterprise.exe --layout …

芯科科技与Arduino携手推动Matter普及化

双方的合作可助力开发人员在两分钟内将新开发板配置入网 致力于以安全、智能无线连接技术&#xff0c;建立更互联世界的全球领导厂商Silicon Labs&#xff08;亦称“芯科科技”&#xff0c;NASDAQ&#xff1a;SLAB&#xff09;日前宣布&#xff0c;公司与开源硬件和软件领域的…

如何判断领导是在培养你,还是在压榨你?

在职场中&#xff0c;判断领导的真实意图并非易事。有时&#xff0c;他们的行为可能让人困惑&#xff0c;不清楚他们是在真心培养你&#xff0c;还是在过度压榨你。 在职场提高工作效率&#xff0c;我们可以使用进度猫这样的项目管理工具来管理任务。通过使用进度猫甘特图&am…

【linux进程间通信(二)】共享内存详解以及进程互斥概念

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:Linux从入门到精通⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学更多操作系统知识   &#x1f51d;&#x1f51d; 进程间通信 1. 前言2. 共享内…

2024高效神器:思维导图,让你的思维飞翔!

在信息爆炸的时代&#xff0c;如何高效地处理、整合和记忆海量信息成为了摆在我们面前的一大挑战。而在这个关键时刻&#xff0c;思维导图凭借其独特的优势&#xff0c;正逐渐成为2024年最受欢迎的高效神器。那么&#xff0c;思维导图究竟有何魅力&#xff0c;能够助我们一臂之…

【Linux进程】冯·诺依曼体系结构以及操作系统的深入理解

&#x1f4d9; 作者简介 &#xff1a;RO-BERRY &#x1f4d7; 学习方向&#xff1a;致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f4d2; 日后方向 : 偏向于CPP开发以及大数据方向&#xff0c;欢迎各位关注&#xff0c;谢谢各位的支持 目录 1.冯诺依曼体系结构特…

igolang学习2,golang开发配置国内镜像

go env -w GO111MODULEon go env -w GOPROXYhttps://goproxy.cn,direct

问题1-spring-boot版本和org.springframework的spring-web兼容的版本

报错问题如下&#xff1a; Description: An attempt was made to call a method that does not exist. The attempt was made from the following location: org.springframework.web.servlet.handler.AbstractHandlerMethodMapping.createHandlerMethod(AbstractHandlerMeth…

全国均薪20.7W!PMP持证者越来越吃香了!

摘要&#xff1a;现如今&#xff0c;PMP已成为全球公认的项目管理专业资格认证之一&#xff0c;得到许多国家专业人士的认可。在我国&#xff0c;项目经理的平均年薪达到了20.7w&#xff01; PMP最早是由PMI发起&#xff0c;已成为全球公认的项目管理专业资格认证之一&#xff…

音视频技术-电脑连接调音台时交流声的产生与消除

当电脑(笔记本/台式机)声卡通过音频线与调音台(或扩音机)连接时,能听到“交流声”。有时很轻微,有时很明显,甚至干扰正常的演讲或发言。 很多时候,我们在台上演讲时,都会使用电脑播放PPT,遇到视频时,还需要将视频中的音频扩大。电脑音频的输出口一般都是3.5的,我们…

Curfew e-Pass 管理系统存在Sql注入漏洞 附源代码

免责声明&#xff1a;本文所涉及的信息安全技术知识仅供参考和学习之用&#xff0c;并不构成任何明示或暗示的保证。读者在使用本文提供的信息时&#xff0c;应自行判断其适用性&#xff0c;并承担由此产生的一切风险和责任。本文作者对于读者基于本文内容所做出的任何行为或决…