OpenAI:Sora视频生成模型技术报告(中文)

概述

视频生成模型作为世界模拟器

我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用transformer架构,在视频和图像潜在代码的时空补丁上运行。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,缩放视频生成模型是构建物理世界通用模拟器的一条有希望的道路。

本技术报告侧重于(1)我们将所有类型的视觉数据转换为统一表示的方法,以便对生成模型进行大规模训练,以及(2)对Sora的能力和局限性的定性评估。本报告不包括模型和实施细节。

之前的许多工作都使用各种方法研究了视频数据的生成建模,包括循环网络、生成对抗网络、自回归变压和扩散模型。这些作品通常侧重于狭义的视觉数据类别、较短的视频或固定大小的视频。Sora是视觉数据的通用模型——它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,长达一整分钟的高清视频。

1、将视觉数据转化为补丁

我们从大型语言模型中汲取灵感,这些模型通过互联网规模的数据培训获得通才能力。LLM范式的成功部分得益于使用令牌,这些令牌优雅地统一了文本的多种模式——代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。LLM有文本令牌,而Sora有视觉补丁。补丁以前已被证明是视觉数据模型的有效表示。我们发现,补丁是一种高度可扩展和有效的表示,用于训练不同类型的视频和图像的生成模型。

在高水平上,我们通过首先将视频压缩到低维的潜在空间,然后将表示分解为时空补丁,将视频变成补丁 。

2、视频压缩网络

我们训练一个减少视觉数据维度的网络。这个网络将原始视频作为输入,并输出一个在时间和空间上压缩的潜在表示。Sora接受训练,并随后在这个压缩的潜在空间中生成视频。我们还训练了一个相应的解码器模型,将生成的潜能映射回像素空间。

 3、时空潜伏补丁

给定一个压缩的输入视频,我们提取一系列作为变压器令牌的时空补丁。此方案也适用于图像,因为图像只是单帧的视频。我们基于补丁的表示使Sora能够对可变分辨率、持续时间和宽高比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

4、用于视频生成的缩放transformers

Sora是一个扩散模型给定输入嘈杂的补丁(以及文本提示等调理信息),它经过训练来预测原始的“干净”补丁。重要的是,Sora是一个Diffusion transformer。transformer在各个领域都表现出了显著的缩放特性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散变压器作为视频模型也能有效扩展。下面,随着培训的进行,我们展示了视频样本与固定种子和输入的比较。随着训练计算的提高,样本质量显著提高。

5、可变持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频大小、裁剪或修剪为标准尺寸——例如,256x256分辨率的4秒视频。我们发现,以原生规模对数据进行训练会带来一些好处。

采样灵活性

Sora可以采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的一切。这允许Sora直接以原生宽高比为不同设备创建内容。它还允许我们在以全分辨率生成之前,以较低的尺寸快速制作内容原型——所有这些都使用相同的模型。

改进的框架和构图

我们实证地发现,以原生宽高比进行视频训练可以改善构图和构图。我们将Sora与我们的模型版本进行比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形作物上训练的模型(左)有时会生成视频,其中主体仅部分出现在视野中。相比之下,Sora(右)的视频改进了框架。

6、语言理解

培训文本到视频生成系统需要大量带有相应文本字幕的视频。我们将DALL·E 330中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后用它来为我们训练集中的所有视频制作文本字幕。我们发现,关于高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为发送到视频模型的更长的详细字幕。这使得Sora能够生成准确遵循用户提示的高质量视频。

7、提示图像和视频

上面和我们登录页面中的所有结果都显示了文本到视频样本。但Sora也可以通过其他输入来提示,例如预先存在的图像或视频。此功能使Sora能够执行广泛的图像和视频编辑任务——创建完美循环视频,动画静态图像,在时间上向前或向后扩展视频等。

动画DALL·E图像

Sora能够生成视频,提供图像和提示作为输入。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

扩展生成的视频

Sora还能够向前或向后扩展视频。以下是四个视频,这些视频都从生成的视频片段开始向后扩展。因此,四个视频中的每一个的开始都与其他视频不同,但所有四个视频都导致相同的结局

我们可以使用这种方法向前和向后扩展视频,以生成无缝的无限循环。

视频到视频编辑

扩散模型使从文本提示编辑图像和视频的方法成为可能。下面我们将这些方法之一,SDEdit,应用于Sora。这项技术使Sora能够改变零拍摄输入视频的风格和环境。

连接视频

我们还可以使用Sora在两个输入视频之间逐步插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中,中间的视频在左侧和右侧的相应视频之间插值。

8、图像生成能力

Sora也能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声补丁来做到这一点。该模型可以生成可变尺寸的图像——分辨率高达2048x2048。

秋天一个女人的特写肖像照,极端细节,浅景深

 充满活力的珊瑚礁充斥着五颜六色的鱼类和海洋生物

9、新兴的模拟能力

我们发现,视频模型在大规模训练时表现出许多有趣的紧急能力。这些能力使Sora能够从物理世界中模拟人、动物和环境的某些方面。这些属性在3D、物体等没有任何明确的感应偏导的情况下出现——它们纯粹是规模现象。

3D一致性。Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中始终如一地移动

长期连贯性和对象持久性。视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现Sora通常(尽管并非总是如此)能够有效地模拟短期和长期依赖关系。例如,我们的模型可以持续存在人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

与世界互动。Sora有时可以以简单的方式模拟影响世界状态的行为。例如,画家可以沿着画布留下新的笔触,这些笔触会随着时间的推移而持续下去,或者一个男人可以吃一个汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子是电子游戏。Sora可以同时用基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。通过提示Sora的标题提及“Minecraft”,可以激发这些功能。

这些能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

讨论

Sora目前作为模拟器表现出许多局限性。例如,它没有准确模拟许多基本相互作用的物理学,比如玻璃破碎。其他相互作用,如吃食物,并不总是能产生物体状态的正确变化。我们在登陆页面中列举了模型的其他常见故障模式,例如在长时间样本中形成的不一致性或物体的自发出现。

我们相信,Sora今天的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有希望的道路。

参考文献

  1. Srivastava、Nitish、Elman Mansimov和Ruslan Salakhudinov。使用lstms无监督地学习视频表示。机器学习国际会议。PMLR,2015年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-1-0

  2. Chiappa,Silvia等人。循环环境模拟器。arXiv预印本arXiv:1704.02254(2017)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-2-0

  3. Ha、David和Jürgen Schmidhuber。世界模型。arXiv预印本arXiv:1803.10122(2018)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-3-0

  4. Vondrick、Carl、Hamed Pirsiavash和Antonio Torralba。生成具有场景动态的视频。神经信息处理系统的进展29(2016)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-4-0

  5. Tulyakov,Sergey等人。Mocogan:为视频生成分解运动和内容。IEEE计算机视觉和模式识别会议记录。2018年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-5-0

  6. Clark、Aidan、Jeff Donahue和Karen Simonyan。“复杂数据集上的对抗性视频生成。”arXiv预印本arXiv:1907.06571(2019)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-6-0

  7. 布鲁克斯,蒂姆,等人。生成动态场景的长视频。神经信息处理系统的进展35(2022):31769-31781。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-7-0

  8. Yan,Wilson等人。Videogpt:使用vq-vae和变压器生成视频。arXiv预印本arXiv:2104.10157(2021)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-8-0

  9. Wu,Chenfei等人。Nüwa:神经视觉世界创造的视觉合成预训练。欧洲计算机视觉会议。Cham:Springer Nature Switzerland,2022年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-9-0

  10. Ho,Jonathan等人。图像视频:带有扩散模型的高清视频生成。arXiv预印本arXiv:2210.02303(2022)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-10-0

  11. 布拉特曼,安德烈亚斯等人。调整您的潜在信号:高分辨率视频合成与潜在扩散模型保持一致。IEEE/CVF计算机视觉和模式识别会议记录。2023.↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-11-0

  12. Gupta, Agrim, et al.带有扩散模型的逼真视频生成。arXiv预印本arXiv:2312.06662(2023)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-12-0

  13. Vaswani,Ashish,等。注意力就是你所需要的。神经信息处理系统的进展30(2017)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-13-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-13-1

  14. 布朗、汤姆等人。语言模型是很少的学习者。神经信息处理系统的进展33(2020):1877-1901。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-14-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-14-1

  15. Dosovitskiy,Alexey等人。一张图像价值16x16字:用于大规模图像识别的变形金刚。arXiv预印本arXiv:2010.11929(2020)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-15-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-15-1

  16. Arnab,Anurag等。Vivit:一个视频视觉变压器。IEEE/CVF计算机视觉国际会议记录。2021年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-16-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-16-1

  17. 他,凯明等人。蒙面自动编码器是可扩展的视觉学习者。IEEE/CVF计算机视觉和模式识别会议记录。2022.↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-17-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-17-1

  18. Dehghani,Mostafa等人。Patch n'Pack:NaViT,适用于任何宽高比和分辨率的视觉变压器。arXiv预印本arXiv:2307.06304(2023)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-18-0↩︎

  19. Rombach,Robin,等人。带有潜在扩散模型的高分辨率图像合成。IEEE/CVF计算机视觉和模式识别会议记录。2022.↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-19-0

  20. Kingma、Diederik P.和Max Welling。自动编码变体贝叶斯。arXiv预印本arXiv:1312.6114(2013)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-20-0

  21. Sohl-Dickstein,Jascha等人。使用非平衡热力学进行深度无监督学习。机器学习国际会议。PMLR,2015年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-21-0

  22. Ho、Jonathan、Ajay Jain和Pieter Abbeel。去诺化扩散概率模型。神经信息处理系统的进展33(2020):6840-6851。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-22-0

  23. Nichol、Alexander Quinn和Prafulla Dhariwal。改进了去消化扩散概率模型。机器学习国际会议。PMLR,2021年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-23-0

  24. Dhariwal、Prafulla和Alexander Quinn Nichol。扩散模型在图像合成上击败了GAN。神经信息处理系统的进展。2021年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-24-0

  25. Karras,Tero等人。阐明基于扩散的生成模型的设计空间。神经信息处理系统的进展35(2022):26565-26577。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-25-0

  26. Peebles、William和Saining Xie。带有变压器的可扩展扩散模型。IEEE/CVF计算机视觉国际会议记录。2023.↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-26-0

  27. Chen、Mark等人。从像素生成预训练。机器学习国际会议。PMLR,2020年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-27-0

  28. Ramesh,Aditya等人。零镜头文本到图像生成。机器学习国际会议。PMLR,2021年。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-28-0

  29. Yu,Jiahui等人。缩放内容丰富的文本到图像生成的自动回归模型。arXiv预印本arXiv:2206.10789 2.3(2022):5。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-29-0

  30. Betker,James等人。用更好的字幕改善图像生成。计算机科学。https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-30-0↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-30-1

  31. Ramesh,Aditya等人。带有剪辑潜在物的分层文本条件图像生成。arXiv预印本arXiv:2204.06125 1.2(2022):3。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-31-0

  32. Meng,Chenlin等人。Sdedit:使用随机微分方程进行引导图像合成和编辑。arXiv预印本arXiv:2108.01073(2021)。↩︎icon-default.png?t=N7T8https://openai.com/research/video-generation-models-as-world-simulators#ref-32-0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/394393.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用倒模耳机壳UV树脂胶液制作HIFI耳机隔音降噪耳机壳有哪些缺点?

虽然使用倒模耳机壳UV树脂胶液制作HIFI耳机隔音降噪耳机壳有很多优点,但也存在一些缺点和需要注意的事项: 技术要求高:制作过程需要一定的技术和经验,如模具制作、树脂混合和填充等。如果没有足够的经验和技巧,可能会…

浅谈js事件机制

事件是什么?事件模型? 原始事件模型(DOM0级) HTML代码中指定属性值:在js代码中指定属性值:优点:缺点: IE 事件模型DOM2事件模型 对事件循环的理解 宏任务(Macrotasks&…

WSL安装Ubuntu22.04,以及深度学习环境的搭建

安装WSL 安装 WSL 2 之前,必须启用“虚拟机平台”可选功能。 计算机需要虚拟化功能才能使用此功能。 以管理员身份打开 PowerShell 并运行: dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart下载 Linux 内核更…

【开源】SpringBoot框架开发服装店库存管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 角色管理模块2.3 服装档案模块2.4 服装入库模块2.5 服装出库模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 角色表3.2.2 服装档案表3.2.3 服装入库表3.2.4 服装出库表 四、系统展示五、核心代码5.…

C++学习Day05之递增运算符重载

目录 一、程序及输出1.1 前置重载1.2 后置重载 二、分析与总结 一、程序及输出 1.1 前置重载 #include<iostream> using namespace std;class MyInter {friend ostream& operator<<(ostream& cout, MyInter& myInt); public:MyInter(){m_Num 0;}//前…

CSS 圆形的时钟秒针状的手柄绕中心点旋转的效果

<template><!-- 创建一个装载自定义加载动画的容器 --><view class="cloader"><!-- 定义加载动画主体部分 --><view class="clface"><!-- 定义类似秒针形状的小圆盘 --><view class="clsface"><!-…

实战打靶集锦-024-Seppuku

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查4.1 FTP探查4.2 80端口探查4.3 探查smb4.4 探查7080端口httpd4.5 探查Apache4.6 探查8088端口的LiteSpeed4.7 大海捞…

【自然语言处理】:实验4布置,预训练语言模型实现与应用

清华大学驭风计划 因为篇幅原因实验答案分开上传&#xff0c;自然语言处理专栏持续更新中&#xff0c;期待的小伙伴敬请关注 有任何疑问或者问题&#xff0c;也欢迎私信博主&#xff0c;大家可以相互讨论交流哟~~ 案例简介 2018年&#xff0c;Google提出了预训练语言模型BE…

深度学习之pytorch实现线性回归

度学习之pytorch实现线性回归 pytorch用到的函数torch.nn.Linearn()函数torch.nn.MSELoss()函数torch.optim.SGD() 代码实现结果分析 pytorch用到的函数 torch.nn.Linearn()函数 torch.nn.Linear(in_features, # 输入的神经元个数out_features, # 输出神经元个数biasTrue # 是…

Android 发布蒲公英平台自动更新

蒲公英官网&#xff1a;https://www.pgyer.com/ 首先弄明白蒲公英平台的SDK更新机制&#xff1a;蒲公英 - 文档中心 - SDK 自动更新机制 (pgyer.com) 下面直接开始代码操作 1.添加蒲公英maven库 maven { url "https://raw.githubusercontent.com/Pgyer/mvn_repo_pgyer…

Matlab论文插图绘制模板第136期—极坐标气泡图

在之前的文章中&#xff0c;分享了Matlab笛卡尔坐标系的气泡图的绘制模板&#xff1a; 进一步&#xff0c;再来分享一下极坐标气泡图。 先来看一下成品效果&#xff1a; 特别提示&#xff1a;本期内容『数据代码』已上传资源群中&#xff0c;加群的朋友请自行下载。有需要的朋…

基于微信小程序的校园跑腿系统的研究与实现,附源码

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

threehit漏洞复现以及防御

说白了跟sql-liql靶场二次注入一样&#xff0c;也是一个转义函数而这次是&#xff0c;入库的时候不转义&#xff0c;出库的时候会转义导致这个漏洞出现 开始测试&#xff1a; 这是我注册完test刚登录的情况 找注入点更新数据的update&#xff0c;很容易找到在age段 这次我注册…

12.QT文件对话框 文件的弹窗选择-QFileDialog

目录 前言&#xff1a; 技能&#xff1a; 内容&#xff1a; 1. 界面 2.信号槽 3.其他函数 参考&#xff1a; 前言&#xff1a; 通过按钮实现文件弹窗选择以及关联的操作 效果图就和平时用电脑弹出的选文件对话框一样 技能&#xff1a; QString filename QFileDialog::ge…

(九)【Jmeter】线程(Threads(Users))之bzm-Free-Form Arrivals Thread Group

简述 操作路径如下: 作用:支持自由形式的用户到达模式,具有更高的灵活性,与Arrivals Thread Group类似,不过是通过设置起始值、终止值和持续时间来达到压测目的。配置:通过图形界面或脚本定义用户到达曲线。使用场景:模拟复杂的用户到达模式,满足特定业务需求。优点:…

第三百五十三回

文章目录 1. 概念介绍2. 使用方法2.1 获取所有时区2.2 转换时区时间 3. 示例代码4. 内容总结 我们在上一章回中介绍了"分享一些好的Flutter站点"相关的内容&#xff0c;本章回中将介绍timezone包.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在…

open3d k-means 聚类

k-means 聚类 一、算法原理1、介绍2、算法步骤 二、代码1、机器学习生成kmeans聚类2、点云学习生成聚类 三、结果1、原点云2、机器学习生成kmeans聚类3、点云学习生成聚类 四、相关链接 一、算法原理 1、介绍 K-means聚类算法是一种无监督学习算法&#xff0c;主要用于数据聚…

扩展语音识别系统:增强功能与多语言支持

一、引言 在之前的博客中&#xff0c;我们成功构建了一个基于LibriSpeech数据集的英文语音识别系统。现在&#xff0c;我们将对系统进行扩展&#xff0c;增加一些增强功能&#xff0c;并尝试支持多语言识别。 二、增加增强功能 语音合成 --除了语音识别&#xff0c;我们还可以…

SpringMVC的执行流程

过去的开发中,视图阶段&#xff08;老旧JSP等&#xff09; 1.首先用户发送请求到前端控制器DispatcherServlet(这是一个调度中心) 2.前端控制器DispatcherServlet收到请求后调用处理器映射器HandlerMapping 3.处理器映射器HandlerMapping找到具体的处理器,可查找xml配置或注…

简单理解VQGAN

简单理解VQGAN TL; DR&#xff1a;与 VQVAE 类似&#xff0c;隐层压缩表征自回归生成的两阶段图像生成方法。增加感知损失和对抗损失&#xff0c;提高压缩表征模型解码出图片的清晰度。还可以通过编码并预置条件表征&#xff0c;实现条件生成。 隐层压缩表征自回归生成&#…
最新文章