浅析扩散模型与图像生成【应用篇】(九)—

浅析扩散模型与图像生成【应用篇】(九)——UNIT-DDPM

10. UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

该文提出一种基于DDPM的非配对的图像转换方法，称为UNIT-DDPM，能够实现源域的图像到目标域图像的转换，在保留原有图像内容的同时，转换为目标域图像的风格，如RGB图像到红外图像的转换。与DDPM过程类似，在训练过程中需要训练一个噪声估计器 $\epsilon_{\theta}$ ，来估计噪声。再次基础上，本文提出的方法还额外训练一个域转换网络 $g_{\phi}$ ，来实现源域和目标域图像之间的转换。因此在噪声估计的过程中，不仅需要源域的噪声图像 $\mathbf{x}_t^A$ ，还需要转换得到的目标域图像 $\tilde{\mathbf{x}}^B_t$ 。并且这个转换和生成过程是双向的，就是不仅源域向目标域转换，同时目标域也向源域转换。具体的实现方式如下
在这里插入图片描述
先看训练阶段，源域的图像 $\mathbf{x}_{0}^{A}$ 经过域转换网络 $g_{\phi^A}^A$ 转换之后，得到转换后的目标域图像 $\tilde{\mathbf{x}}_{0}^{B}$ 。源域图像 $\mathbf{x}_{0}^{A}$ 和经过转换的目标域图像 $\tilde{\mathbf{x}}_{0}^{B}$ 分别进行扩散，在扩散的过程中我们要对噪声估计器 $\epsilon_{\theta^{A}}^{A}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}\right), \tilde{\mathbf{x}}_{t}^{B}, t\right)$ 进行训练。与一般的DDPM不同的是，估计时需要将转换后的目标域图像 $\tilde{\mathbf{x}}_{0}^{B}$ 作为一个条件一起输入进去。训练的目标函数与DDPM是类似的，如下所示 $\mathcal{L}_{\theta}\left(\theta^{A}, \theta^{B}\right)= \mathbb{E}_{t, \mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{A}}^{A}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}\right), \tilde{\mathbf{x}}_{t}^{B}, t\right)\right\|^{2}\right] +\mathbb{E}_{t, \mathbf{x}_{0}^{B}, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{B}}^{B}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{B}, \boldsymbol{\epsilon}\right), \tilde{\mathbf{x}}_{t}^{A}, t\right)\right\|^{2}\right]$
值得注意的是，上面的介绍只介绍了一个方向的转换，也就是从源域到目标域的转换。就如我们前文所述，这个转换过程是双向的，同时也要做从目标域到源域的转换，这一点在上述目标函数中也能体现出来，因为转换过程是完全对称的，我们就不再重复介绍了。此外，在训练过程中不仅要对噪声估计器 $\epsilon_{\theta}$ 进行训练，还需要对域转换网络 $g_{\phi}$ 进行训练，其目标函数如下 $\begin{array}{l} \mathcal{L}_{\epsilon^{\phi}}\left(\phi^{A}, \phi^{B}\right)= \\ \mathbb{E}_{t, \mathbf{x}_{0}^{B}, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{A}}^{A}\left(\mathbf{x}_{t}\left(g_{\phi^{B}}^{B}\left(\mathbf{x}_{0}^{B}\right), \boldsymbol{\epsilon}\right), \mathbf{x}_{t}\left(\mathbf{x}_{0}^{B}, \boldsymbol{\epsilon}\right), t\right)\right\|^{2}\right. \\ \left.\quad+\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{B}}^{B}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{B}, \boldsymbol{\epsilon}\right), g_{\phi^{B}}^{B}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{B}\right), \boldsymbol{\epsilon}\right), t\right)\right\|^{2}\right] \\ +\mathbb{E}_{t, \mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{B}}^{B}\left(\mathbf{x}_{t}\left(g_{\phi^{A}}^{A}\left(\mathbf{x}_{0}^{A}\right), \boldsymbol{\epsilon}\right), \mathbf{x}_{t}\left(\mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}\right), t\right)\right\|^{2}\right. \\ \left.\quad+\left\|\boldsymbol{\epsilon}-\epsilon_{\theta^{A}}^{A}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{A}, \boldsymbol{\epsilon}\right), g_{\phi^{A}}^{A}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}^{A}\right), \boldsymbol{\epsilon}\right), t\right)\right\|^{2}\right] \end{array}$ 在训练过程中，需要固定噪声估计器的参数 $\theta^A$ 和 $\theta^B$ 。在此基础上，作者还引入了CycleGAN中提到的循环一致性损失，来对域转换网络进行监督 $\begin{array}{l} \mathcal{L}_{\text {cyc }}\left(\phi^{A}, \phi^{B}\right)=\mathbb{E}_{\mathbf{x}_{0}^{B}}\left[\left\|g_{\phi^{A}}^{A}\left(g_{\phi^{B}}^{B}\left(\mathbf{x}_{0}^{B}\right)\right)-\mathbf{x}_{0}^{B}\right\|_{1}\right] +\mathbb{E}_{\mathbf{x}_{0}^{A}}\left[\left\|g_{\phi^{B}}^{B}\left(g_{\phi^{A}}^{A}\left(\mathbf{x}_{0}^{A}\right)\right)-\mathbf{x}_{0}^{A}\right\|_{1}\right] \\ \end{array}$ 综合后的目标函数如下 $\mathcal{L}_{\phi}\left(\phi^{A}, \phi^{B}\right)=\mathcal{L}_{\epsilon^{\phi}}\left(\phi^{A}, \phi^{B}\right)+\lambda_{\text {cyc }} \mathcal{L}_{\text {cyc }}\left(\phi^{A}, \phi^{B}\right)$ 整个训练的流程如下图所示
在这里插入图片描述
完成训练后，我们再来看一下生成过程。

首先，从源域中采集一个参考图像 $\mathbf{x}_{0}^{A}$ ，从标准正态分布中采集一个噪声 $\hat{\mathbf{x}}_T^B$ 。然后对参考图像 $\mathbf{x}_{0}^{A}$ 进行逐步的扩散得到噪声 $\mathbf{x}_{T}^{A}$ ，对噪声 $\hat{\mathbf{x}}_T^B$ 逐步去噪得到目标图像 $\hat{\mathbf{x}}_0^B$ 。我们上文讲到噪声估计网络 $\epsilon_{\theta}$ 的输入不仅有 $\hat{\mathbf{x}}_t^B$ ，还需要 $\hat{\mathbf{x}}_t^A$ 。 $\hat{\mathbf{x}}_t^B$ 就是上一时刻的去噪结果， $\hat{\mathbf{x}}_{t-1}^{B}=\mu_{\theta^{B}}\left(\hat{\mathbf{x}}_{t}^{B}, \hat{\mathbf{x}}_{t}^{A}, t\right)+\Sigma_{\theta^{B}}\left(\mathbf{x}_{t}, t\right) \epsilon^{B}$ 而 $\hat{\mathbf{x}}_t^A$ 的计算分成了两个阶段，第一阶段从时刻 $T$ 到时刻 $t_r+1$ 的过程中， $\hat{\mathbf{x}}_t^A$ 是由扩散过程得到的 $\hat{\mathbf{x}}_{t}^{A}=\sqrt{\bar{\alpha}_{t^{A}}} \mathbf{x}_{0}^{A}+\sqrt{1-\bar{\alpha}_{t^{A}}} \boldsymbol{\epsilon}^{A}$ 第二阶段从 $t_r$ 到1的过程中， $\hat{\mathbf{x}}_t^A$ 是通过去噪的方式计算的 $\hat{\mathbf{x}}_{t-1}^{A}=\frac{1}{\sqrt{1-\alpha_{t}}}\left(\hat{\mathbf{x}}_{t}^{A}-\frac{1-\alpha_{t}}{\sqrt{1-\overline{\alpha_{t}}}} \epsilon_{\theta^{A}}\left(\hat{\mathbf{x}}_{t}^{A}, \hat{\mathbf{x}}_{t}^{B}, t\right)\right)+\sigma_{t} \boldsymbol{\epsilon}^{A}$ 这个时间点 $t_r$ 被称为释放时刻（release time），整体的生成过程如下图所示
在这里插入图片描述