浅析扩散模型与图像生成【应用篇】(四)——Palette

4. Palette: Image-to-Image Diffusion Models

  该文提出一种基于扩散模型的通用图像转换(Image-to-Image Translation)模型——Palette,可用于图像着色,图像修复,图像补全和JPEG图像恢复等多种转换任务。Palette是一种条件扩散模型,目的是根据输入的条件 x x x来构建分布 p ( y ∣ x ) p(y|x) p(yx),其中 x x x y y y都是图像的形式。作者采用了256*256的条件UNet架构作为网络模型,并通过图像级联的方式引入条件图像。目标损失函数如下 E ( x , y ) E ϵ ∼ N ( 0 , I ) E γ ∥ f θ ( x , γ y + 1 − γ ϵ ⏟ y ~ , γ ) − ϵ ∥ p p \mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y})} \mathbb{E}_{\boldsymbol{\epsilon} \sim \mathcal{N}(0, I)} \mathbb{E}_{\gamma}\|f_{\theta}(\boldsymbol{x}, \underbrace{\sqrt{\gamma} \boldsymbol{y}+\sqrt{1-\gamma} \boldsymbol{\epsilon}}_{\tilde{\boldsymbol{y}}}, \gamma)-\boldsymbol{\epsilon}\|_{p}^{p} E(x,y)EϵN(0,I)Eγfθ(x,y~ γ y+1γ ϵ,γ)ϵpp其中 γ \gamma γ表示噪声的强度。在DDPM中 p = 2 p=2 p=2,即采用L2损失函数;而在其他的一些工作中,也有选择L1损失函数的。作者发现使用L2损失能够提高生成样本的多样性,而使用L1损失则会生成更加保守可信的结果。
  为了评估图像转换算法的性能,作者还给出了一个综合的评价指标,包含Inception Score (IS);Fréchet Inception Distance (FID); Classification Accuracy (CA),用预训练的ResNet-50分类器的Top-1分类准确率; Perceptual Distance (PD), 在Inception-V1特征空间中的欧氏距离。此外还引入了人类评估方式,即让人判断两张图片哪个是自然图片,哪个是生成图片,人类将生成图片误判为自然图片的比例,称为Fool Rate。
  作者在四个图像转换任务中对Palette的性能进行了测试,包括:

  • 图像着色:将灰度图像转换为彩色图像
  • 图像修复:将图像中被任意掩码的部分用真实的内容填充起来
  • 图像补全:把输入图像沿一个或多个方向进行扩展使其变得更大
  • JPEG图像恢复:将压缩过得JPEG图像恢复其图像细节

实验结果表明,在无需对任务进行单独调参和单独设计得条件下,Palette在多个任务中均取得了非常有竞争力的结果,甚至超过了许多针对任务开发的专用算法(包括基于GAN和自回归模型的)。
在这里插入图片描述
  接着作者研究了自注意力机制对扩散模型的影响,作者发现全局自注意力机制要优于局部自注意力机制,甚至不适用自注意力机制,通过增加更多的残差块或者使用空洞卷积来增大感受野,其性能都超过使用局部自注意力。最后,作者研究了多任务训练的影响,即使用多个任务的数据集同时对Palette进行训练。在大部分任务中(图像修复和图像着色)多任务训练的效果是不如针对任务单独训练的Palette方法的,而在JPEG图像恢复任务中,多任务训练的Palette甚至取得了更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/420890.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Harbor高可用(haproxy和keepalived)

Harbor高可用(haproxy和keepalived) 文章目录 Harbor高可用(haproxy和keepalived)1.Harbor高可用集群部署架构1.1 主机初始化1.1.1 设置网卡名和ip地址1.1.2 设置主机名1.1.3 配置镜像源1.1.4 关闭防火墙1.1.5 禁用SELinux1.1.6 设…

Linux Seccomp 简介

文章目录 一、简介二、架构三、Original/Strict Mode四、Seccomp-bpf五、seccomp系统调用六、Linux Capabilities and Seccomp6.1 Linux Capabilities6.2 Linux Seccomp 参考资料 一、简介 Seccomp(secure computing)是Linux内核中的一项计算机安全功能…

HTTPS是什么,详解它的加密过程

目录 1.前言 2.两种加密解密方式 2.1对称加密 2.2非对称加密 3.HTTPS的加密过程 3.1针对明文的对称加密 3.2针对密钥的非对称加密 3.3证书的作用 1.前言 我们知道HTTP协议是超文本传输协议,它被广泛的应用在客户端服务器上,用来传输文字,图片,视频,js,html等.但是这种传…

DataGrip的MySQL数据导出和导入操作指南

场景描述 将开发环境的数据,复制一份到本地,进行本地连接开发工作,避免组内其他开发人员的干扰。假若你的电脑上只安装了DataGrip和MySQL环境,本篇指南就是你所需要的。 一、导出dump数据 将开发环境的数据和结构导出一份到本地…

嵌入式中回调函数的实现方法

一、什么是回调函数 1.1、回调函数的定义和基本概念 回调函数是一种特殊的函数,它作为参数传递给另一个函数,并在被调用函数执行完毕后被调用。回调函数通常用于事件处理、异步编程和处理各种操作系统和框架的API。 基本概念: 回调&#xf…

WSL2部署RV1126 SDK编译环境

1 下载RV1126 SDK 在 Firefly | 让科技更简单,让生活更智能 下载REPO_SDK 这里将SDK下载到了F:\SDK 2 解压SDK到WSL2 tar -xvf /mnt/f/SDK/rv1126_rv1109_linux_release_20211022.tgz 3 编译依赖安装 gcc、g版本依赖安装 sudo apt-get install lib32gcc-7-dev g-7 l…

Data Leakage and Evaluation Issues inMicro-Expression Analysis 阅读笔记

IEEE Transactions on Affective Computing上的一篇文章,做微表情识别,阅读完做个笔记。本文讨论了Data Leakage对模型准确度评估的影响,及如何融合多个微表情数据集,从而提升模型的准确度。工作量非常饱满,很认真&…

C语言:编译与链接

C语言:编译 & 链接 环境翻译环境 编译预处理编译汇编 链接 环境 对C语言而言,生成程序的过程中存在两种环境:翻译环境与运行环境。 翻译环境 在翻译环境中,源代码会被转化为可执行的机器指令。这个过程会分为编译与链接两大…

java 商机管理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 java 商机管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0&…

二叉搜索树的范围和(Lc938)——DFS

给定二叉搜索树的根结点 root,返回值位于范围 [low, high] 之间的所有结点的值的和。 示例 1: 输入:root [10,5,15,3,7,null,18], low 7, high 15 输出:32示例 2: 输入:root [10,5,15,3,7,13,18,1,nul…

Stable Diffusion中的Clip模型

基础介绍 Stable Diffusion 是一个文本到图像的生成模型,它能够根据用户输入的文本提示(prompt)生成相应的图像。在这个模型中,CLIP(Contrastive Language-Image Pre-training)模型扮演了一个关键的角色&a…

C++ //练习 10.6 编写程序,使用fill_n将一个序列中的int值都设置为0。

C Primer(第5版) 练习 10.6 练习 10.6 编写程序,使用fill_n将一个序列中的int值都设置为0。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块 /********************************************…

红黑树的实现原理

要了解红黑树首先我们要知道什么是 平衡二叉树 平衡二叉树是一种特殊的二叉搜索树,它具有以下特点: 定义:平衡二叉树是一种二叉搜索树,其中每个节点的左右子树高度差的绝对值不超过 1,即任意节点的左右子树高度差不大于…

【前端素材】推荐优质在线电影院商城电商网页Hyper平台模板(附源码)

一、需求分析 1、系统定义 在线电影商城是指一个通过互联网提供电影服务的平台,用户可以在该平台上浏览电影资源、租借或购买电影,以及观看在线影片。 2、功能需求 在线电影商城是指一个通过互联网提供电影服务的平台,用户可以在该平台上…

不管了,如何创建freestyle、pipeline项目我一定要安利给你!

Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。 jenkins作为一个可扩展的自动化服务器,Jenkins可以用作简单的 CI…

AI大预言模型——ChatGPT在地学、GIS、气象、农业、生态、环境等应用

原文链接:AI大预言模型——ChatGPT在地学、GIS、气象、农业、生态、环境等应用 一开启大模型 1 开启大模型 1)大模型的发展历程与最新功能 2)大模型的强大功能与应用场景 3)国内外经典大模型(ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Di…

【.NET Core】深入理解IO - FileSteam流

【.NET Core】深入理解IO - FileSteam流 文章目录 【.NET Core】深入理解IO - FileSteam流一、IO流概述二、文件流FileStream2.1 FileStream概述2.2 FileStream检测流位置更改2.3 FileStream构造函数2.4 FileStream常用属性2.5 FileStream.Read方法2.6 FileStream.Write方法2.7…

[剪藏] - 尊湃通讯公司窃密曝光,发现绕不过华为

在科技领域风起云涌的今天,一场惊心动魄的窃密事件悄然发生,涉及华为WIFI6芯片技术的商业秘密被窃取,案中主谋竟然是一位曾在华为海思拥有重量级地位的技术大佬。本文将深入挖掘这起事件的来龙去脉,探讨窃密者的背叛和华为的技术守…

2023中国PostgreSQL数据库生态大会:洞察前沿趋势,探索无限可能(附核心PPT资料下载)

随着数字化浪潮的推进,数据库技术已成为支撑各行各业数字化转型的核心力量。2023中国PostgreSQL数据库生态大会的召开,无疑为业界提供了一个深入交流、共同探索PostgreSQL数据库技术未来发展趋势的平台。本文将带您走进这场盛会,解析大会的亮…

Python 迭代器和生成器的妙用

本文将探讨python的迭代器和生成器在实际场景中的一些巧妙用法。掌握迭代器和生成器的使用,能够让开发者在解决实际问题时更加得心应手。 Python 迭代器的妙用 Python 的迭代器是一个实现了迭代器协议的对象,它包含方法 __iter__() 和 __next__()。迭代…
最新文章