【数据生成】——Semantic Image Synthesis via Diffusion Models语义分割数据集生成论文浅读

语义分割,数据生成
在这里插入图片描述

摘要

Denoising Diffusion Probabilistic Models (DDPMs) 在各种图像生成任务中取得了显著的成功,相比之下,生成对抗网络 (GANs) 的表现不尽如人意。最近的语义图像合成工作主要遵循事实上的基于 GAN 的方法,这可能导致生成图像的质量或多样性不尽如人意。在本文中,我们提出了一种基于 DDPM 的语义图像合成的新框架。与以前的条件扩散模型直接将语义布局和噪声图像作为输入到 U-Net 结构不同,我们的框架对语义布局和噪声图像进行了不同的处理。它将噪声图像输入到 U-Net 结构的编码器中,而将语义布局通过多层空间自适应归一化算子输入到解码器中。为了进一步提高语义图像合成中的生成质量和语义可解释性,我们引入了无分类器引导采样策略,该策略承认无条件模型的得分用于采样过程。

1. 简介

直接将条件信息与噪声图像作为去噪网络的输入是不充分利用输入语义掩码中的信息的,这会导致生成的图像质量低且与语义相关性差。为此,我们设计了一个条件去噪网络,它独立处理语义布局和噪声图像。噪声图像被输入到去噪网络的编码器中,而语义布局通过多层空间自适应归一化算子嵌入到去噪网络的解码器中。这大大提高了生成图像的质量和语义相关性。

此外,扩散模型本身具有生成多样结果的能力。采样策略在平衡生成结果的质量和多样性方面起着重要作用。简单的采样过程可以生成具有高多样性但缺乏真实感和与语义标签图强相关性的图像。受[13]启发,我们采用无分类器引导策略来提高图像保真度和语义相关性。具体来说,我们通过随机删除语义掩码输入来微调预训练的扩散模型。然后,采样策略基于扩散模型在有和没有语义掩码时的预测进行处理。通过插值这两种情况下的得分,采样结果达到更高的保真度和与语义掩码输入更强的相关性。

2. 相关工作

3. 方法

在这里插入图片描述
整体架构
SDM 的条件去噪网络是一个基于 U-Net 的网络,用于估计输入噪声图像中的噪声。与先前的条件扩散模型不同,我们的去噪网络独立处理语义标签图和噪声图像。噪声图像被馈入去噪网络的编码器部分。为了充分利用语义信息,语义标签图通过多层空间自适应归一化算子注入到去噪网络的解码器中。

图像编码部分
编码器。我们使用堆叠的语义扩散编码器残差块(SDEResblocks)和注意力块对噪声图像的特征进行编码。我们在图 3(b)中展示了 SDEResblocks 的详细结构,它由卷积、SiLU 和组归一化组成。SiLU [33] 是一个激活函数,简单地说就是 f(x) = x · sigmoid(x),它在更深层次的模型上比 ReLU [28] 更好。为了使网络在不同的时间步长 t 估计噪声,SDEResblock 通过学习权重 w(t) ∈ R1×1×C 和偏置 b(t) ∈ R1×1×C 来缩放和移动中间激活值,并将 t 纳入其中。
在这里插入图片描述
编码器部分的attention 模块是 self attention

语义解码部分
我们将语义标签图注入到去噪网络的解码器中,以指导去噪过程。重新审视先前的条件扩散模型[35,36],它们直接将条件信息与噪声图像作为输入连接起来,我们发现这种方法并没有充分利用语义信息,导致生成的图像质量低且语义相关性弱。为了解决这个问题,我们设计了语义扩散解码器残差块(SDDResblock)(见图 3(b)),以多层空间自适应方式将语义标签图嵌入到去噪网络的解码器中。与 SDEResblock 不同,我们引入了空间自适应归一化(SPADE)[31]来代替组归一化。SPADE 通过调节特征中的空间自适应、可学习转换来将语义标签图注入到去噪流中

SPADE 通过调节特征中的空间自适应、可学习转换来将语义标签图注入到去噪流中。具体来说,它的公式如下:f_i+1 = γ_i(x) · Norm(f_i) + β_i(x),其中 f_i 和 f_i+1 分别是 SPADE 的输入和输出特征。Norm(·) 指的是无参数的组归一化。γ_i(x) 和 β_i(x) 分别是从语义布局中学习的空间自适应权重和偏置。值得一提的是,我们的框架与 SPADE [31] 不同,因为我们的 SDM 是专门为扩散过程设计的,具有注意力块、跳跃连接和时间步长嵌入模块,而 SPADE 则没有。

损失函数

  1. 输出噪声估计
  2. 遵循改进的去噪扩散模型[30],我们进一步训练网络来预测方差Σθ(y, x, t e ),以提高生成图像的对数似然。条件扩散模型还额外输出每个维度的插值系数 v,并将输出转换为方差,
    在这里插入图片描述
    无分类器引导策略
    图3.c 中的策略,其核心思想是将在语义标签图指导下估计的噪声 θ(yt|x) 与无条件情况 θ(yt|∅) 分离。相当于减去无条件的噪声
    在这里插入图片描述
    sample 的每一步会减掉无语义标签的噪声
    在这里插入图片描述

4. 实验

  • 采用FID, FPIPS作为评价指标
  • 为了评估学习到的对应关系,我们使用现成的网络来评估生成结果的“语义可解释性”。我们使用 DRN-D-105 [52] 用于 Cityscapes,UperNet101 [51] 用于 ADE20K,Unet [20, 34] 用于 CelebAMask-HQ 和 DeepLabV2 [4] 用于 COCO-Stuff。使用现成的网络,基于生成的图像和语义布局计算平均交集并集(mIoU)
    在这里插入图片描述
    MIOU
    在这里插入图片描述
    语义编码和无分类器采样策略的影响
    在这里插入图片描述
    为了评估独立于噪声图像嵌入条件信息的重要性,我们设计了一个基线变体作为比较。作为替代方案,我们直接应用条件 DDPM [35,36],它直接将语义标签图与噪声图像作为输入连接起来。从上表,观察到我们的语义扩散模型在所有指标上都高度优于先前的条件 DDPM。此外,我们分析了这两个变体之间的视觉结果。在图 9 中,可以看到,通过以多层空间自适应方式嵌入语义标签图,生成的图像在保真度和与语义标签图的对应关系上展示出更优异的视觉质量。

分类器无引导的重要性。此外,我们研究了分类器无引导策略的有效性。我们将没有分类器无引导的变体作为比较。从表 4 中可以看出,分类器无引导大大提高了 mIoU 和 FID 指标,而 LPIPS 损失很小。在图 9 中,我们展示了分类器无引导策略的定性结果。使用分类器无引导生成的图像更好地展示了语义信息并生成了更多结构化内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/24195.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

直流电机 PID 控制系统仿真研究(Simulink实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

python+vue高校网上跳蚤二手市场的设计与实现

商品信息是卖家供应用户必不可少的一个部分。在跳蚤市场发展的整个过程中,商品担负着最重要的角色。为满足如今日益复杂的管理需求,各类管理系统程序也在不断改进。本课题所设计的普通高校网上跳蚤市场,使用Django框架,Python语言…

【信号变化检测】使用新颖的短时间条件局部峰值速率特征进行信号变化/事件/异常检测(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

网络安全复习

目录 低层协议安全性 IP协议 ARP协议 TCP协议 NAT协议 单钥加密体制 DES算法 课后习题 双钥加密体制 🐇怎么说 欧几里得算法求逆 RSA算法 椭圆曲线加密 Diffie- Hellman 密钥交换算法 ElGamal签名机制 Schnorr签名机制 DSS签名算法——DSA 低层协…

HTML+CSS实训——Day02——仿一个网易云音乐的登陆界面

仓库链接:https://github.com/MengFanjun020906/HTML_SX 前言 今天要继续完成我们的音乐软件了&#xff0c;昨天写完了封面&#xff0c;今天该完成开屏广告和登陆界面了。 登陆界面代码 <!DOCTYPE html> <html lang"en"> <head><meta charse…

【P35】JMeter 包含控制器(Include Controller)

文章目录 一、包含控制器&#xff08;Include Controller&#xff09;参数说明二、准备工作三、测试计划设计3.1、保存测试片段3.2、使用测试片段 一、包含控制器&#xff08;Include Controller&#xff09;参数说明 可以将测试计划的某一部分提取为公用逻辑&#xff0c;这样…

【十字绣】传统手艺-微信小程序开发流程详解

还记得小时候看过母亲的十字绣吗&#xff0c;易学易懂&#xff0c;就是用专用的绣线和十字格布&#xff0c;通过平面坐标计找出位置&#xff0c;对照专用的图案进行刺绣&#xff0c;可作出心中所想的画&#xff0c;奈何所需材料成本不小&#xff0c;这里用小程序简单模拟十字绣…

使用object.defineProperty来更新数据示例

Object.defineProperty() 方法会直接在一个对象上定义一个新属性&#xff0c;或者修改一个对象的现有属性&#xff0c;并返回此对象。 Object.defineProperty&#xff08;&#xff09;可以为对象的属性添加特性&#xff0c;每一个被添加过的属性&#xff0c;都会拥有属于自己的…

【C++初阶】C++——模板初阶与泛型编程

​ ​&#x1f4dd;个人主页&#xff1a;Sherry的成长之路 &#x1f3e0;学习社区&#xff1a;Sherry的成长之路&#xff08;个人社区&#xff09; &#x1f4d6;专栏链接&#xff1a;C初阶 &#x1f3af;长路漫漫浩浩&#xff0c;万事皆有期待 文章目录 1. 泛型编程2. 函数模板…

C Primer Plus第四章编程练习答案

学完C语言之后&#xff0c;我就去阅读《C Primer Plus》这本经典的C语言书籍&#xff0c;对每一章的编程练习题都做了相关的解答&#xff0c;仅仅代表着我个人的解答思路&#xff0c;如有错误&#xff0c;请各位大佬帮忙点出&#xff01; 1.编写一个程序&#xff0c;提示用户输…

自学网络安全最细规划(建议收藏)

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类&#xff0c;我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术&#xff0c;而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域&#xff0c;都有攻与防两面…

自古以来,反射也是兵家必争之地

成文耗时1小时&#xff0c;阅读5min&#xff0c;有用指数5颗星。 这几天收到一个战术性需求&#xff0c;将一大坨字段序列化为特定格式的字符串。 大概是下表&#xff1a; 序号字段名描述是否必填0logVersion日志版本是1productName产品是2serviceName服务是.........25extend3…

8项seo的日常工作

SEO的日常工作涵盖了一系列任务和活动&#xff0c;旨在优化网站以提高在搜索引擎中的排名和可见性。 以下是SEO的日常工作内容&#xff1a; 关键词研究和优化&#xff1a;定期进行关键词研究&#xff0c;寻找与目标受众和业务相关的热门关键词。优化网站内容、标题、元描述和链…

这些脑洞大开的论文标题,也太有创意了O(∩_∩)O

microRNAs啊microRNAs&#xff0c;谁是世界上最致命的髓母细胞瘤microRNAs&#xff1f; 这个标题很容易让人联想到白雪公主后妈说的那句话&#xff1a;Mirror mirror on the wall, who is the fairest of them all? 02 一氧化碳&#xff1a;勇踏NO未至之境 NO 指 nitric oxide…

合并两个有序链表(java)

leetcode 21题&#xff1a;合并两个有序链表 题目描述解题思路&#xff1a;链表的其它题型。 题目描述 leetcode21题&#xff1a;合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例&#xff1a; 输入&…

MySQL 数值函数

文章目录 数值函数1. abs(num)2. ceil(num)3. floor(num)4. mod(num1,num2)5. rand()6. round(num,n)7. truncate(num,n)8. sqrt(num) 数值函数 数值函数用来处理数值方面的运算&#xff0c;能够提高用户的工作效率。常用的数值函数如下表所示&#xff0c;函数括号内为输入的参…

四足机器人A1目标跟踪

四足机器人A1目标跟踪 前期准备工作1.安装TeamViewer2.将四足机器人所有线连接好3.将四足机器人调至运动模式 运行流程1.开机阶段2.运行阶段 效果展示代码配置 前期准备工作 1.安装TeamViewer 由于外接屏幕损坏&#xff0c;故四足机器人内部配置了TeamViewer&#xff0c;因此…

【Linux】线程同步

文章目录 条件变量相关函数初始化条件变量-pthread_cond_init销毁条件变量-pthread_cond_destroy等待条件变量-pthread_cond_wait唤醒等待条件变量pthread_cond_broadcastpthread_cond_signal 小例子关于等待函数的补充条件变量使用规范 条件变量相关函数 初始化条件变量-pthr…

如何让自动化测试框架更自动化?

一、引言 ​对于大厂的同学来说&#xff0c;接口自动化是个老生常谈的话题了&#xff0c;毕竟每年的MTSC大会议题都已经能佐证了&#xff0c;不是大数据测试&#xff0c;就是AI测试等等&#xff08;越来越高大上了&#xff09;。不可否认这些专项的方向是质量智能化发展的方向&…

IMX6ULL裸机篇之IIC协议

一. IIC实验简介 I2C 是最常用的通信接口&#xff0c;众多的传感器都会提供 I2C 接口来和主控相连。 比如摄像头、 加速度计、触摸屏等。 I.MX6U-ALPHA开发板 使用 I2C1 接口连接了一个距离传感器 AP3216C &#xff0c;本章我们就来学习如何使用 I.MX6U 的 I2C 接口…
最新文章