(2023,图像放大与超分辨率,扩散,缩放堆叠表示,多分辨率混合,多尺度联合抽样)Ten 的生成能力

Generative Powers of Ten

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

4. 方法

4.1. 缩放堆叠表示

4.2. 多分辨率混合

4.3. 多尺度一致抽样

4.4. 基于照片的缩放

4.5. 实现细节

5. 实验

6. 讨论与限制


0. 摘要

我们提出了一种使用文本到图像模型的方法, 在多个图像尺度上生成一致的内容, 实现对场景的极致语义放大,例如,从森林的广角景观到树枝上一只昆虫的微距镜头。 我们通过联合多尺度扩散抽样(joint multi-scale diffusion sampling)方法实现了这一点, 该方法鼓励在不同尺度上保持一致性, 同时保留每个个体抽样过程的完整性。由于每个生成的尺度都由不同的文本提示引导, 我们的方法使得比传统的超分辨率方法更深的放大级别成为可能,这些方法可能难以在极其不同的尺度上创建新的上下文结构。 我们在图像超分辨率和外部绘制(outpainting)中以定性方式将我们的方法与替代技术进行了比较, 并展示了我们的方法在生成一致的多尺度内容方面最有效。

项目页面:https://powers-of-10.github.io/

2. 相关工作

永久视图(Perpetual view)生成。从单个视图的 RGB 图像开始,像无限自然(Infinite
Nature) [11] 和 InfiniteNature-Zero [12] 这样的永久视图生成方法学会生成自然场景的无限飞越(unbounded flythrough)视频。这些方法与我们的生成缩放方法在两个关键方面有所不同:(1) 它们在三维空间中移动相机,产生 “飞越” 效果,带有透视效果,而不是我们的方法产生的 “缩放”,(2) 它们通过渐进地修复新视图的未知部分,从单个图像合成飞越,而我们则同时生成并使得在不同尺度上整个缩放序列保持一致,并采用文本引导的语义控制。

一致性生成的扩散联合抽样。最近的研究 [2, 10, 28, 30] 利用预训练的扩散模型,使用联合扩散过程从较小的部分生成任意大小的图像或全景图。这些过程涉及通过在抽样过程中合并它们的中间结果来同时生成这些多个图像。具体来说,DiffCollage [30] 引入了一个因子图形式来表达这些图像之间的空间约束,将每个图像表示为一个节点,并使用额外的节点重叠区域。每个抽样步骤涉及根据因子图聚合个体预测。为了实现这一点,给定的扩散模型需要针对不同的因子节点进行微调。其他作品如 MultiDiffusion [2] 通过求解最小二乘最优解来调解不同的去噪步骤:即,在重叠区域对扩散模型预测进行平均。然而,这些方法都无法应用于我们的问题,因为我们的联合抽样图像在极其不同的空间尺度上具有空间对应关系。

4. 方法

让 y0,...,y_(N−1) 表示一系列描述单个场景的提示,这些提示对应不同的缩放级别 p_0,...,p_(N−1) 形成几何级数,即,p_i = p^i(我们通常将 p 设置为 2 或 4)。我们的目标是从现有的、预先训练好的文本到图像扩散模型中生成一系列相应的 H × W × C 图像 x0,...,x_(N−1)。我们的目标是以一种一致的缩放方式共同生成整个图像集。这意味着在任何特定的缩放级别 p_i 处,图像 xi 应与缩小图像 x_(i−1) 的中心 H/p × W/p 裁剪保持一致。

我们提出了一种多尺度联合抽样(multi-scale joint sampling)方法和相应的缩放堆叠表示(zoom stack representation),在基于扩散的抽样过程中进行更新。

  • 在 4.1 节中,我们介绍了我们的缩放堆叠表示以及允许我们将其渲染为任何给定缩放级别的图像的过程。
  • 在 4.2 节中,我们提出了一种将多个扩散估计一致地整合到这个表示中的方法。
  • 在 4.3 节中,我们展示了这些组件如何在完整的抽样过程中使用。

4.1. 缩放堆叠表示

我们的缩放堆叠表示(zoom stack representation),用 L = (L0, ...,L_(N−1)) 表示,旨在允许在任何缩放级别 p0,..., p_(N−1) 渲染图像。如图 3 所示的表示包含形状为 H × W 的 N 个图像,每个缩放级别一个,其中第 i 个图像 Li 存储与第 i 个缩放级别 pi 相对应的像素。

图像渲染(rendering)。渲染运算符 Π_image (L; i) 接受一个缩放堆叠 L 并返回第 i 个缩放级别 p_i = p^i 的图像。我们用 D_i(x) 表示将图像 x 按比例 p_i 缩小,并将图像零填充回尺寸 H × W 的操作符;我们用 Mi 表示相应的 H × W 二值图像,其中在中心 H/pi × W/pi 补丁处的值为 1,在填充像素处的值为 0。操作符 Di 通过使用尺寸为 pi × pi 的截断高斯核对图像进行预过滤,并以步幅 pi 进行重新采样。如算法 1 中所述,第 i 个缩放级别的图像 xi 通过从 Li 开始,并迭代地用 D_(j−i) (Lj) 替换其中心的 H/pj × W/pj 裁剪来渲染,其中 j = i + 1,...,N − 1。(在算法 1 中,我们用 ⊙ 表示二进制掩码 M 与图像的逐元素乘法。)该过程确保了在不同缩放级别渲染的图像在重叠的中心区域上保持一致。(按从小到大的比例迭代缩小,然后进行中心对齐堆叠)

噪声渲染。在 DDPM [8] 的每次去噪迭代中,每个像素都被全局缩放的独立同分布的高斯噪声 ϵ ∼ N(0, I) 损坏。由于我们希望在不同缩放级别渲染的图像保持一致,因此必须确保添加的噪声也是一致的,跨不同缩放级别的重叠区域共享相同的噪声结构。因此,我们使用类似于 Π_image 的渲染运算符将一组独立噪声图像 E = (E0, ...,E_(N−1)) 转换为单一的缩放一致噪声 ϵi = Π_noise (E; i)。然而,由于降采样涉及预过滤,这会修改结果噪声的统计特性,因此我们将第 j 个降采样噪声分量通过 pj/pi 放大以保持方差,确保噪声满足标准高斯分布假设,即,对所有级别 i,ϵi = Π_noise (E; i) ∼ N(0, I)。

4.2. 多分辨率混合

通过一种在任意给定缩放级别渲染缩放堆叠并采样噪声的方法,我们现在描述将同一场景的多个观测 x0,...,x_(N−1)(在不同缩放级别 p0,...,p_(N−1) 下)整合到一致的缩放堆叠 L 的机制。这个过程是一致抽样过程的必要组成部分,因为在各个缩放级别应用扩散模型会在重叠区域产生不一致的内容。具体来说,第 j 个缩放堆叠层级 Lj 在所有缩放级别 i ≤ j 上用于渲染多个图像,因此其值应与多个图像观察(或扩散模型样本),即 {xi:i ≤ j} 保持一致。最简单的解决方案是简单地对所有观察结果的重叠区域进行平均。然而,这种方法会导致模糊的缩放堆叠图像,因为对于重叠区域的粗略观察包含的像素较少,因此只有较低频率的信息。

为了解决这个问题,我们提出了一种称为多分辨率混合(multi-resolution blending)的方法,它使用拉普拉斯金字塔来选择性地混合每个观测级别的适当频率带,这可以防止混叠和过度模糊。我们在图 5 中概述了这个过程。更具体地说,为了更新缩放堆叠中的第 i 层,我们首先将所有 j ≥ i 的样本裁剪以与第 i 级的内容匹配,并将它们缩放回 H×W。然后,我们将这 N−i−1 个图像中的每一个分析成拉普拉斯金字塔,并在相应的频率带上进行平均(见图 5),得到一个平均的拉普拉斯金字塔,可以重新组合成图像并分配给缩放堆叠的第 i 层。这个过程对缩放堆叠的每一层 Li 都应用,Li 从所有更进一步缩小的级别 j ≥ i 收集。

4.3. 多尺度一致抽样

我们完整的多尺度联合抽样过程如算法 2 所示。图 4 说明了单个抽样步骤 t:在每个缩放级别中的噪声图像 z_(i,t) 以及相应的提示 yi 被并行地输入到预训练的扩散模型中以预测噪声

从而计算出估计的干净图像 ˆx_(i,t)。利用我们的多分辨率融合技术,干净图像被整合成一个缩放堆叠,然后在所有缩放级别上进行渲染,产生一致的图像 Π_image (Lt; i)。然后,这些图像与输入 zt一起用于 DDPM 更新步骤,计算出下一个 z_(t−1)。

4.4. 基于照片的缩放

除了使用文本提示从头开始生成整个缩放堆叠外,我们的方法还可以生成一个序列,将焦点放大到现有照片中。给定最缩小的(most zoomed-out)输入图像 ξ,我们仍然使用算法 2,但在每次混合操作之前,我们额外更新去噪图像以最小化以下损失函数:

其中,正如我们在第 4.1 节中定义的那样,Di(x) 将图像 x 按比例 pi 缩小,并将结果填充回 H × W,而 Mi 是一个二进制掩码,在中心 H/pi ×W/pi 的正方形处为 1,其他位置为 0。在每次混合操作之前,我们以学习率 0.1 应用 5 个 Adam [9] 步。这种简单的基于优化的策略鼓励估计的干净图像

以一种与 ξ 提供的内容相一致的缩放方式匹配。我们在图 6 中展示了我们生成的基于照片的缩放序列。

4.5. 实现细节

对于底层的文本到图像扩散模型,我们使用了一个在内部数据源上训练的 Imagen [21] 的版本,它是一个级联扩散模型,包括 (1) 一个基础模型,以文本提示嵌入为条件,以及 (2) 一个超分辨模型,另外以基础模型的低分辨率输出为条件。我们使用其默认的 DDPM 抽样过程,具有 256 个抽样步骤,并且我们仅对基础模型使用我们的多尺度联合抽样。我们使用超分辨模型独立地对每个生成的图像进行上采样。

5. 实验

6. 讨论与限制

我们工作中的一个重要挑战是发现一组适当的文本提示,这些提示在一组固定尺度上相互一致,并且可以由给定的文本到图像模型有效地一致生成。一个可能的改进途径是在抽样过程中,优化连续缩放级别之间适当的几何变换(suitable geometric transformations)。这些变换可以包括平移、旋转,甚至缩放,以找到更好的缩放级别与提示之间的对齐方式。

另外,可以优化文本嵌入,找到与后续缩放级别相对应的更好的描述。或者,可以使用语言生成模型进行闭环生成,即通过将生成的图像内容提供给语言生成模型,并要求其优化文本提示以产生在给定一组预定义尺度下更接近的图像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/481750.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全球大型语言模型(LLMS)现状与比较

我用上个博文的工具将一篇ppt转换成了图片,现分享给各位看官。 第一部分:国外大语言模型介绍 1,openai的Chatgpt 免费使用方法1:choose-carhttps://share.freegpts.org/list 免费使用方法2:Shared Chathttps://share…

查看文件内容的指令:cat,tac,nl,more,less,head,tail.file

目录 cat 介绍 输入重定向 选项 -b -n -s tac 介绍 输入重定向 nl 介绍 示例 more 介绍 选项 less 介绍 搜索文本 选项 head 介绍 示例 选项 -n tail 介绍 示例 选项 file cat 介绍 将标准输入(键盘输入)的内容打印到标准输出: 输入重定向 本应…

Docker 存储

目录 1、概念介绍 Storage Driver 无状态容器 有状态容器 Data Volume 2、bind mount 指定挂载文件只读权限 bind mount 挂载目录 3、docker manage volume 查看 volume 自定义 volume 使用 NFS 存储 4、共享数据 容器与host共享数据 volume container data-pa…

200基于matlab的利用神经网络算法训练图片

基于matlab的利用神经网络算法训练图片,并利用GUI界面读取图片,最后将识别出的图片数值返回到GUI界面上。0-10数字数据库已有,可自行添加其他数据库进行训练和识别。程序已调通,可直接运行。 200 matlab BP神经网络 手写数字识别 …

liunx centos7 下通过yum删除安装已经安装的php

执行下面命令查看php相关的包 rpm -qa | grep php 只需要卸载几个名为common的包即可,其他同版本依赖会被全部删除,删除php71w-common,71w版本的依赖包全部会被删除。 查看php包的命令 rpm -qa | grep php 或 yum list installed | gre…

单引号 vs 双引号:在MyBatis条件判断中的选择困境

哈喽,大家好呀,好久不见!今天是一篇浅记。MyBatis的条件判断中,使用单引号或双引号来判定字符串类型数值的坑… 一、单引号与双引号的区别 在MyBatis的条件判断中,使用单引号或双引号来括起字符串值都是可以的。但是在…

Linux systemd详解

1、概念 1.1 systemd systemd 是一个用于管理 Linux 系统启动过程和系统服务的系统和服务管理器。它被设计为取代传统的 System V init 系统,提供了更快的启动时间、并行启动服务、更好的日志记录和更强大的管理功能。 1.2 unit Unit 是 systemd 中所有配置文件…

区块链技术下的新篇章:DAPP与消费增值的深度融合

随着区块链技术的持续演进,去中心化应用(DAPP)正逐渐受到人们的瞩目。DAPP,这种在分布式网络上运行的应用,以其去中心化、安全可靠、透明公开的特性,为用户提供了更为便捷和安全的消费体验。近年来&#xf…

苏州城市学院芮国强一行莅临聚合数据走访调研

3月19日,苏州城市学院校党委书记芮国强、校长赵志宏一行莅临聚合数据,就数据科技赋能行业升级展开调研。聚合数据董事长左磊接待来访。 城市学院党委理论学习中心组一行参观了聚合数据展厅,了解了聚合数据的发展历程、数据产品、应用案例、奖…

能强优品木业:打造高品质混凝土支撑模板,铸就建筑精品

在现代建筑施工中,高质量的混凝土支撑模板是确保工程质量和施工安全的关键所在。贵港市能强优品木业有限公司作为一家专业建筑模板生产厂家,凭借25年的丰富经验和先进的生产工艺,为建筑行业提供了多层板芯、高强度承重、防潮不变形、施工安全抗弯曲性强的优质混凝土支撑模板。 …

day16-环形链表

问题描述: 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环&#xff0…

linux下的打包/解包命令(tar,zip/unzip)

目录 打包/解包 作用 zip -r选项 unzip -d选项 如果不使用递归压缩 -l / -v选项 tar 介绍 选项 示例 打包/解包 作用 使多个文件变成一个文件,不易造成数据缺失使下载时间变短 zip 将目录或文件压缩成zip格式 -r选项 递归式压缩某目录及其所有子目录中的文件 如果不…

【大数据】五、yarn基础

Yarn Yarn 是用来做分布式系统中的资源协调技术 MapReduce 1.x 对于 MapReduce 1.x 的版本上: 由 Client 发起计算请求,Job Tracker 接收请求之后分发给各个TaskTrack进行执行 在这个阶段,资源的管理与请求的计算是集成在 mapreduce 上的…

大模型+强化学习_在线交互调参_GLAM

英文名称: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning 中文名称: 通过在线强化学习在交互式环境中建立大型语言模型 链接: https://arxiv.org/pdf/2302.02662.pdf 代码: https://github.com/flowersteam/Grounding_LLMs…

Listary 清除无效的搜索历史记录

目录预览 一、问题描述二、原因分析三、解决方案四、参考链接 一、问题描述 listary 用过一段时间后,搜索其他东西总会显示一个感叹号的之前的文件,强迫症很难受啊。 二、原因分析 猜测是历史记录的问题记录历史搜索的文件没有重建 三、解决方案 提示…

Centos7 搭建openVPN

一、概述 CentOS 搭建openVPN时需要一台有公网IP的服务器。openVPN 是一个基于SSL/TLS的虚拟专用网络(VPN),它允许你创建一个安全的连接,通过它你可以将你的网络流量封装并加密,从而在公网上进行传输。 一、搭建证书…

现代白色系装修,打造高级感生活空间。福州中宅装饰,福州装修

玄关 玄关嵌入满墙收纳鞋柜,下方留空15公分作为拖鞋区,中间留出40公分作为随手区 客厅 客厅打通阳台,白色亮面瓷砖通铺,即使不做落地窗设计,室内也是十分明亮 落地电视柜,减少卫生死角,白色整体…

vulnhub prime1通关

目录 环境安装 1.信息收集 收集IP 端口扫描 目录扫描 目录文件扫描 查找参数 打Boss 远程文件读取 木马文件写入 权限提升 方法一 解锁密钥 方法二: linux内核漏洞提权 总结 环境安装 Kali2021.4及其prime靶机 靶机安装:Prime: 1 ~ Vul…

Install Docker

Docker Desktop 直接安装 Docker Desktop Docker Desktop includes the Docker daemon (dockerd), the Docker client (docker), Docker Compose, Docker Content Trust, Kubernetes, and Credential Helper. Linux下安装Docker CE 参考官方文档 参见阿里云的文档 # step 1…

docker安装WireGuard服务

启动 WireGuard 如下异常 则是linux内核需要升级 $ wg-quick down wg0 $ wg-quick up wg0 Error: WireGuard exited with the error: Cannot find device "wg0" This usually means that your hosts kernel does not support WireGuard!at /app/lib/WireGuard.js:65…