【深度学习】【风格迁移】Visual Concept Translator,一般图像到图像的翻译与一次性图像引导,论文

General Image-to-Image Translation with One-Shot Image Guidance

论文:https://arxiv.org/abs/2307.14352
代码:https://github.com/crystalneuro/visual-concept-translator

文章目录

  • Abstract
  • 1. Introduction
  • 2. 相关工作
    • 2.1 图像到图像转换
    • 2.2. Diffusion-based Image Synthesis
  • 3. Methods
  • 4. Experiments
    • 4.1. Implementation details
    • 4.2. 与先前/同时进行的工作的比较
    • 4.3. 消融研究
  • 5. 结论

Abstract

最近,大规模的文本到图像模型在大量文本-图像对上进行预训练,表现出了出色的图像合成性能。然而,图像可以提供比纯文本更直观的视觉概念。人们可能会问:我们如何将期望的视觉概念集成到现有的图像中,比如我们的肖像?然而,当前的方法在满足这种需求方面还不足够,因为它们缺乏保留内容或有效地转换视觉概念的能力。受到这一问题的启发,我们提出了一种新颖的框架,名为视觉概念转换器(VCT),它具有保留源图像中内容并根据单个参考图像指导转换视觉概念的能力。所提出的VCT包含内容-概念反演(CCI)过程来提取内容和概念,并包含内容-概念融合(CCF)过程来收集提取的信息以获取目标图像。给定只有一个参考图像,所提出的VCT可以在各种图像到图像转换任务中取得出色的结果。我们进行了大量实验证明了所提出方法的优越性和有效性。代码可在https://github.com/CrystalNeuro/visual-concept-translator找到。

在这里插入图片描述

1. Introduction

图像到图像转换(I2I)任务旨在学习一个条件生成函数,将图像从源域翻译到目标域,并保留源内容并转移目标概念[35, 47]。通用I2I可以在不需要专门的模型设计或从头开始训练的情况下完成广泛的应用[46]。传统上,生成对抗网络(GAN)或正则化流[12]主要应用于I2I任务[20, 20, 35, 4]。然而,这些方法在缺乏适应性方面存在问题[42]。在一个源-目标数据集上训练的模型不能适应另一个数据集,因此在通用I2I场景中无法工作。

由于大规模模型的应用,基于扩散的图像合成在近年来得到了快速发展[36, 38, 34]。它们的优势在于使用大量的图像-文本对进行模型训练,因此可以通过在潜在空间中根据特定文本提示进行采样来生成多样化的图像。然而,在我们日常生活中,我们接受大量包含丰富视觉概念的视觉信号。

这些视觉概念很难用纯文本来描述,就像谚语“一图胜千言”一样。此外,由参考图像指导的I2I在游戏制作、艺术创作和虚拟现实等方面具有广泛应用。因此,在图像引导的I2I研究在计算机视觉领域具有巨大潜力。

有几种方法尝试从图像中提取具有所需概念的视觉信息。具体来说,[10]提出了一种名为文本反演(TI)的技术,它固定模型并学习一个文本嵌入来表示视觉概念。在TI的基础上,提出了DreamBooth [37]和Imagic [21]来减轻由模型微调引起的过拟合问题。上述方法是在少样本设置下,但有时很难收集几个包含相同概念的相关图像。为了解决这个问题,[8]提出使用正负文本嵌入来适应一次性样本设置。然而,这些方法不能直接用于I2I任务,因为它们不能保留源图像中的内容。

为了保留源图像中的内容,最近提出的DDIM反演[7, 41]发现了扩散反向过程中的确定性噪声。然后,一些研究[31, 13]进一步将DDIM反演应用于文本引导的图像编辑。

然而,这些方法是文本条件的,因此它们无法理解参考图像中的视觉概念。另一方面,一些工作[50, 42]尝试通过图像条件将源域和目标域连接起来,但它们的模型是特定于任务的,因此不能用于通用I2I。

在本文中,为了完成由参考图像指导的通用I2I任务,我们提出了一种名为视觉概念转换器(VCT)的新框架,该框架具有保留源图像中内容并转换视觉概念的能力。所提出的VCT通过内容-概念反演(CCI)和内容-概念融合(CCF)两个过程来解决图像引导的I2I问题。

CCI过程通过枢轴转向反演和多概念反演从源图像和参考图像中提取内容和概念,CCF过程通过双流去噪架构收集提取的信息以获取目标图像。在只有一个参考图像的情况下,所提出的VCT可以完成各种各样的通用图像到图像转换任务,并取得优秀的结果。我们进行了大量实验,包括通用I2I和风格迁移的大规模任务,用于模型评估。

总的来说,我们的贡献如下:
(1)我们提出了一种名为视觉概念转换器(VCT)的新框架。在只有一个参考图像的情况下,VCT可以完成通用I2I任务,并具有保留源图像中内容并转换视觉概念的能力。
(2)我们提出了内容-概念反演(CCI),通过枢轴转向反演和多概念反演来提取内容和概念。我们还提出了内容-概念融合(CCF)过程,通过双流去噪架构收集提取的信息。
(3)我们进行了大量实验,包括通用I2I和风格迁移的大规模任务,用于模型评估。生成的结果显示了所提出方法的高优越性和有效性。

2. 相关工作

2.1 图像到图像转换

图像到图像转换旨在将图像从源域转换到目标域。当前的图像到图像转换方法大多基于生成对抗网络(GAN)[1, 30, 9, 54, 55, 51, 56]。然而,这些方法存在适应性不足的问题[42]。在一个源-目标数据集上训练的模型不能适应另一个数据集。此外,这些方法通常需要大尺寸的训练图像。
Lin等人提出的TuiGAN [28]可以仅通过一对图像实现转换,但他们的方法需要为每个输入对重新训练整个网络,非常耗时。

图像风格迁移是I2I中的一种特定类型,它尝试将图像风格从源转换到目标。Gatys等人的开创性工作[11]表明,通过深度神经网络可以通过分离内容和风格来生成艺术图像。然后,为了实现实时风格迁移,Johnson等人[19]训练了一个前馈网络来处理Gatys等人提到的优化问题。许多工作[48, 43, 44, 25, 18, 24]被归类为每种风格对应一个模型,训练的模型只能适应一种特定的风格。为了增加模型的灵活性,许多研究[16, 32, 17, 5, 29, 40, 49]实现了任意风格迁移,只需要对任何输入风格图像进行单个前向传递即可。然而,这些方法在处理细粒度信息方面不具备通用的图像到图像转换任务(如人脸交换)的能力,因此无法推广到一般的I2I任务。

2.2. Diffusion-based Image Synthesis

最近,基于纯文本的大规模扩散模型在高分辨率图像合成方面表现出良好的性能,例如Stable Diffusion [36]、Imagen [38]和DALL-E 2 [34]。这些方法使用大型文本-图像模型[6, 33]来实现文本引导的合成。然而,用于生成目标图像的文本有时是不可用的,因此许多研究[10, 37, 21]使用反演技术来学习文本嵌入,以指导预训练的大规模扩散模型。为了实现从源域到目标域的图像转换,DDIM反演[7, 41]在反向过程的逆方向上找到了带有文本条件的确定性噪声向量,但该方法仅通过文本进行引导。我们提出的方法试图解决上述缺点,并通过从图像中融合丰富的视觉概念来完成通用的图像到图像转换任务。

3. Methods

在这里插入图片描述
在这里插入图片描述

4. Experiments

4.1. Implementation details

将所有组件组合在一起,我们的完整算法在我们的补充材料中呈现。核心训练过程包括两部分:使用x src进行关键调整反演和使用x ref进行多概念反演,这两部分可以独立实现。更多详细信息请参考我们的补充材料。

我们的实验是在单个A100 GPU上进行的。我们使用Adam[23]优化器进行训练。我们从包含50亿张图像的大规模LAION 5B数据集[39]中收集了评估图像。

4.2. 与先前/同时进行的工作的比较

一般I2I任务。在这里,我们评估了提出的框架在一般I2I任务中的性能,包括leopard→dog,face swap和mountain→snow mountain,如图5所示。我们将提出的方法与TuiGAN [28],PhotoWCT [27],stable diffusion (SD) [36],textual inversion (TI) [10]和prompt-to-prompt (Ptp) [13]进行了比较。

对于没有学习嵌入输入的文本到图像模型,包括SD和Ptp,我们使用BLIP图像字幕模型[26]来提取文本描述作为扩散模型的输入。

从图5可以看出,基于GAN的翻译方法TuiGAN和PhotoWCT无法仅通过一个图像输入很好地转换概念,并且生成质量较差。例如,从图5的第3-4列中可以看出,基于GAN的方法在leopard→dog和face swap任务中只能转换部分纹理特征,并且在mountain→snow mountain任务中图像质量较差。因此,基于GAN的方法无法在一次性设置中实现令人满意的结果。对于基于扩散的方法SD和TI,参考图像的概念可以很好地保留,但内容图像中的信息无法提取。如图5的第7列所示,Ptp可以很好地保留内容,但无法融合参考图像中的概念。通过解决上述方法的所有缺点,提出的VCT可以生成具有学习的概念和保留内容的最佳结果。

此外,为了评估提出的VCT的强大概念转换能力,我们固定内容图像并更换不同的参考图像,如图6所示。不同参考图像的生成结果显示出令人满意的内容保留和概念转换能力。

更多结果可以在补充材料中找到。

如图7所示,我们进一步与其他一次性对比方法进行比较:Paint-by-example[50]和ControlNet[53]。这些方法使用额外的条件来控制生成的图像,而我们的方法获得了更好的性能。

图像风格迁移。除了一般的I2I,提出的方法在图像风格迁移任务中也取得了出色的结果。我们将我们的方法与不同艺术风格的最新SOTA进行了比较。如图13所示,我们完全比较了三个基于GAN的方法,包括TuiGAN [28],PhotoWCT [27]和ArtFlow [3],以及三个基于扩散的方法,包括SD [36],TI [10]和Ptp [13]。按照一般I2I的设置,我们使用BLIP图像字幕模型为文本到图像模型SD和Ptp提取文本描述。

从图13的结果可以看出,基于GAN的方法存在较大的缺陷,特别是TuiGAN和ArtFlow的结果,如图13的第3和第5列所示。基于扩散的方法SD和TI也存在与一般I2I相同的问题,即内容无法保留。对于Ptp,虽然内容得到保留,但参考图像中的概念无法被很好地转换。提出的方法也可以生成最令人满意的图像,如图13的第9列所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

我们还通过固定参考图像并更改内容图像,以及反之亦然,评估了模型性能。结果如图9所示。优秀的翻译结果证明了所提出方法的泛化能力。

定量比较。由于风格转移任务缺乏真实标签,且两个域之间存在差异,定量评估仍然是一个挑战。回想一下,我们的目标是从源图像和参考图像创建一张新的图像。因此,我们使用以下三个指标来评估生成的图像。1)盲参考图像空间质量评估器(BRISQUE),这是一种无参考图像质量评分方法。2)学习的感知图像块相似性(LPIPS),用于评估源图像与目标图像之间的距离,以验证不同模型的内容保留性能。3)人类偏好得分(Pre.),我们邀请参与者通过用户研究对不同方法生成的结果进行投票。我们的模型在总体评估指标上表现优异。更多的实验设置可以在补充材料中找到。

4.3. 消融研究

最后,我们对方法的每个组成部分进行了消融研究,并展示了其有效性,包括多概念反演(MCI),关键调整反演(PTI)和注意力控制(AC)。

在图10中展示了可视化消融研究。 (a) 通过去除MCI,在我们的流程中使用单词’dog’来生成参考嵌入v ref ,生成的结果不是参考图像中特定的狗。 (b) 在没有使用PTI的情况下,由于DDIM采样轨迹不一致,内容匹配分支无法重构内容图像。 © 通过去除AC,结果无法保留内容图像的结构。

总的来说,通过使用我们所有提出的组件,我们可以获得最佳的生成输出,它更好地保留了内容图像的结构和语义布局,并与参考图像保持一致。更多的消融研究可以在补充材料中找到。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 结论

本工作受到日常生活中视觉概念的重要性的启发,通过提出名为VCT的新颖框架,完成了图像引导下的通用I2I任务。

它能够保留源图像中的内容,并通过单个参考图像来翻译视觉概念。我们在各种通用的图像到图像转换任务上评估了提出的模型,并取得了出色的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/70669.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用chatGPT生成提示词,在文心一言生成装修概念图

介绍 家是情感的港湾,而家居装修则是将情感融入空间的艺术。如何在有限的空间里展现个性与美感,成为了现代人关注的焦点。而今,随着人工智能的发展,我们发现了一个新的创意助手——ChatGPT,它不仅为我们带来了更多可能…

nodejs+vue+elementui招聘求职网站系统的设计与实现-173lo

(1)管理员的功能是最高的,可以对系统所在功能进行查看,修改和删除,包括企业和用户功能。管理员用例如下: 图3-1管理员用例图 (2)企业关键功能包含个人中心、岗位类型管理、招聘信息…

C语言每日一题:16:数对。

思路一&#xff1a;基本思路 1.x,y均不大于n&#xff0c;就是小于等于n。 2.x%y大于等于k。 3.一般的思路使用双for循环去遍历每一对数。 代码实现&#xff1a; #include <stdio.h> int main() {int n 0;int k 0;//输入scanf("%d%d", &n, &k);int x…

【深度学习注意力机制系列】—— ECANet注意力机制(附pytorch实现)

ECANet&#xff08;Efficient Channel Attention Network&#xff09;是一种用于图像处理任务的神经网络架构&#xff0c;它在保持高效性的同时&#xff0c;有效地捕捉图像中的通道间关系&#xff0c;从而提升了特征表示的能力。ECANet通过引入通道注意力机制&#xff0c;以及在…

【Plex】FRP内网穿透后 App无法使用问题

能搜索到这个文章的&#xff0c;应该都看过这位同学的分析【Plex】FRP内网穿透后 App无法使用问题_plex frp无效_Fu1co的博客-CSDN博客 这个是必要的过程&#xff0c;但是设置之后仍然app端无法访问&#xff0c;原因是因为网络端口的问题 这个里面的这个公开端口&#xff0c;可…

STM32 F103C8T6学习笔记1:开发环境与原理图的熟悉

作为一名大学生&#xff0c;学习单片机有一段时间了&#xff0c;也接触过嵌入式ARM的开发&#xff0c;但从未使用以及接触过STM32C8T6大开发使用&#xff0c;于是从今日开始&#xff0c;将学习使用它~ 本文介绍STM32C8T6最小系统开发环境搭建注意问题&#xff0c;STM32C8T6单片…

WPF上位机9——Lambda和Linq

Lambda Linq 操作集合 使用类sql形式查询 Linq To SQL

微服务学习笔记-基本概念

微服务是一种经过良好架构设计的分布式架构方案。根据业务功能对系统做拆分&#xff0c;每个业务功能模块作为独立项目开发&#xff0c;称为一个服务。 微服务的架构特征&#xff1a; 单一职责&#xff1a;微服务拆分粒度更小&#xff0c;每一个服务都对应唯一的业务能力&…

Vue实现详细界面里面有一个列表

目录 Vue实现详细界面里面有一个列表 理一下思路&#xff1a; 效果如下&#xff1a; 1、 主页面正常写 2、详细界面(重点) 3、详细界面里面的列表(重点) 要点&#xff1a; Vue实现详细界面里面有一个列表 理一下思路&#xff1a; 1、首先需要这条数据的主键id&#xff…

SpringSpringBoot常用注解

目录 一、核心注解二、Spring Bean 相关2.1 Autowired2.2 Component, Repository, Service, Controller2.3 RestController 与 Controller2.4 Configuration 与 Component2.5 Scope 三、处理常见的 HTTP 请求类型3.1 GET 请求3.2 POST 请求3.3 PUT 请求3.4 DELETE 请求3.5 PATC…

【Python】背景及环境搭建

文章目录 了解计算机一、Python背景知识一、Python环境搭建 努力经营当下 直至未来明朗 了解计算机 示例&#xff1a;使用电脑访问B站 1&#xff09; 本地的计算机会给B站服务器发送一个网络请求&#xff08;如&#xff1a;谁&#xff0c;想看哪个视频&#xff09; 2&#xf…

MySQL8安装教程 保姆级(Windows))

下载 官网: mysql官网点击Downloads->MySQL Community(GPL) Downloads->MySQL Community Server(或者点击MySQL installer for Windows) Windows下有两种安装方式 在线安装 一般带有 web字样 这个需要联网离线安装 一般没有web字样 安装 下载好之后,版本号可以不一样&…

《系统架构设计师教程》重点章节思维导图

内容来自《系统架构设计师教程》&#xff0c;筛选系统架构设计师考试中分值重点分布的章节&#xff0c;根据章节的内容整理出相关思维导图。 重点章节 第2章&#xff1a;计算机系统知识第5章&#xff1a;软件工程基础知识第7章&#xff1a;系统架构设计基础知识第8章&#xff1…

尚硅谷大数据项目《在线教育之采集系统》笔记003

视频地址&#xff1a;尚硅谷大数据项目《在线教育之采集系统》_哔哩哔哩_bilibili 目录 P036 P037 P038 P039 P041 P042 P043 P044 P045 P046 P036 先启动zookeeper&#xff0c;在启动kafka&#xff0c;启动hadoop中的hdfs node003启动flume&#xff0c;node001启动f…

云原生网关API标准背景及发展现状

Gateway API是一个开源的API标准&#xff0c;源自Kubernetes SIG-NETWORK兴趣组。从出身角度讲&#xff0c;可谓根正苗红&#xff0c;自从开源以来备受关注&#xff0c;被寄予厚望。Gateway API旨在通过声明式、可扩展性和面向角色的接口来发展Kubernetes服务网络&#xff0c;并…

Springboot开发常用注解

文章目录 1.RestController2.Data3.RequestMapping4.Builder5.RequestBody6.Slf4j7.execution写法8.http协议及servlet7.JoinPoint 1.RestController RestController注解其实就是将 return 中的内容以 JSON字符串的形式返回客户端 controller的详解 2.Data Data详解 3.Reque…

【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题&#xff1a;MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion 作者&#xff1a;Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu 来源&#xff1a;2023 IEEE International Conference on Robotics and Automat…

图像处理技巧形态学滤波之膨胀操作

1. 引言 欢迎回来&#xff0c;我的图像处理爱好者们&#xff01;今天&#xff0c;让我们继续研究图像处理领域中的形态学计算。在本篇中&#xff0c;我们将重点介绍腐蚀操作的反向效果膨胀操作。 闲话少说&#xff0c;我们直接开始吧&#xff01; 2. 膨胀操作原理 膨胀操作…

构建Docker容器监控系统(Cadvisor +Prometheus+Grafana)

Cadvisor PrometheusGrafana 1.1、Cadvisor产品简介 Cadvisor是Google开源的一款用于展示和分析容器运行状态的可视化工具。通过在主机上运行Cadvisor用户可以轻松的获取到当前主机上容器的运行统计信息&#xff0c;并以图表的形式向用户展示。 1.2、安装docker-ce [rootloc…

linux下查看谁在用显卡

一般查看显卡的使用情况使用的命令为 nvidia-smi但是这个只能输出显卡的占用及进程&#xff0c;看不到谁在用 信息如下 但是可以借助上面的PID信息&#xff0c;查看对应的进程是谁调用的&#xff0c; 命令为&#xff1a; ps -f -p 4417其中4417就是上图中的其中一个PID 输出…
最新文章