论文阅读笔记 | MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment

文章链接：https://doi.org/10.48550/arXiv.2004.05508

MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment

2020

Published in: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

训练 DCNNs 严重依赖于大量带注释的数据。由于通过人工标注图像质量非常昂贵且耗时，因此收集大规模的图像质量数据来训练 DCNNs 的 IQA 模型是困难的。IQA 是一个典型的小样本问题。现有注释的 IQA 数据库的规模通常是有限的，因此直接使用这些数据库来训练深度 IQA 模型很容易导致过拟合问题。
大多数现有的基于深度卷积神经网络 DCNNs 的 IQA 指标都是基于预训练的网络运行的。这些预训练的网络不是为 IQA 任务设计的，会导致模型在评估不同类型的图像退化时出现泛化问题。预训练模型并不是为 IQA 任务设计的，因此它们无法轻松适应新类型的失真。
在现实世界的情况下，人类可以轻松从具有各种失真的图像中获得质量先验知识并快速适应对未知失真图像的质量评估，因此对于 NR-IQA 方法来说，学习人类在评估具有各种失真的图像质量时的共享先验知识至关重要。

在这里插入图片描述

作者通过一些已知失真类型的 NR-IQA 任务来学习一个共享的质量先验模型，然后针对未知失真的 NR-IQA 任务进行微调。方法的整体框架如图所示，包括两个步骤，即质量先验模型的元训练和未知失真的 NR-IQA 的微调。
在第一步中，作者利用一些特定失真的 NR-IQA 任务建立一个元训练集，进一步将其分为支持集和查询集两个子集。然后使用从支持集到查询集的双层梯度下降方法来学习质量先验模型。
深度回归网络由卷积层和全连接层组成。卷积层来自于一个常用的深度网络，作者采用全局平均池化（GAP）操作来生成全连接层。然后，作者添加另一个全连接层来生成作者深度回归网络的输出。
特别地，对于输入图像 $x$ ，作者将其输入深度网络，生成图像的预测质量分数 $\tilde{y}$ ，定义为：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

其中， ${D_s}^{P(τ)}$ 和 ${D_q}^{P(τ)}$ 分别是每个任务的支持集和查询集， $N$ 是总任务数。
为了捕捉不同 NR-IQA 任务之间的通用模型，作者从元训练集中随机抽取 $k$ 个任务作为一个小批次（ $1$ < $k$ ≤ $N$ ）。
对于小批次中第 $i$ 个支持集，可通过欧氏距离的平方 $\mathcal{L}$ 计算损失，并表示为 ${\mathcal{L}}_{τi}$ （ $i$ $\in$ { $1, 2, ..., k$ }）。
作者利用更高效的随机梯度下降 $SG D$ 方法来优化模型。
首先计算与所有模型参数相关的损失函数 $\mathcal{L}_{τi}$ 的一阶梯度，并定义为：

在这里插入图片描述

接下来，作者使用 $A d am$ 优化器在支持集 ${D_s}^{τi}$ （ $i$ $=$ $1, 2, ..., k$ ）上对模型参数进行 $S$ 步更新。
$A d am$ 优化器的定义如下：

在这里插入图片描述

在这里插入图片描述

其中 $m_{θ(s)} = 0$ 且 $v_{θ(s)} = 0$
$μ_1$ 和 $μ_2$ 是 $m_{θ(s)}$ 和 $v_{θ(s)}$ 的指数衰减率。
$g_{θ(s)}$ 表示第 $s$ 步中更新后的梯度。
模型参数 ${θ^{'}}_i$ 可以通过 $A d am$ 优化器在查询集 ${D_q}^{τi}$ （ $i$ $=$ $1, 2, ..., k$ ）上进行 $S$ 步更新，具体形式如下：

在这里插入图片描述

在这里插入图片描述

其中 $β$ 是外部学习率。
通过这种方法，作者在元训练集 ${D^{p(τ)}}_{meta}$ 上迭代地对 $k$ 个 NR-IQA 任务进行采样来训练深度回归网络 $f_θ$ 。
最终，通过双层梯度优化的元学习可以获得适用于各种图像失真的质量先验模型。
在第二步中，作者在目标 NR-IQA 任务上对质量先验模型进行微调，以获得质量模型。
在对于未知失真的微调中，在从若干特定失真的 NR-IQA 任务中训练质量先验模型后，作者将使用该模型作为先验知识，在具有未知失真的 NR-IQA 任务上进行微调。
对于来自目标 NR-IQA 任务的 $M$ 张训练图像，并带有注释的质量分数，作者对于第 $i$ 张图像的预测分数和真实分数使用欧氏距离的平方作为损失函数，其定义如下：

在这里插入图片描述

在这里插入图片描述

为了验证作者提出的元模型对未知失真的泛化性能，作者通过在 $T I D 2013$ 和 $K A D I D$ - $10 K$ 数据库上使用留一失真交叉验证，将所提出的方法与六种最先进的通用 NR-IQA 方法进行了比较。

在这里插入图片描述

表中列出了所提出的方法和最先进的 NR-IQA 方法的测试 $SROCC$ 值，每种失真类型的最佳结果以粗体标记。
可以看到，作者提出的方法在两个数据库上的总体性能(平均结果)都大大优于其他方法。
在TID2013数据库中，作者提出的方法对超过一半的失真类型的SROCC值大于 $0.9$ ，这表明提出的基于元学习的 NR-IQA 方法可以有效地学习共享质量先验模型，并快速适应未知失真类型的 NR-IQA 任务。

在这里插入图片描述