IJCAI 2024:吉林大学、中国科学院计算技术研究所和自动化研究所等揭示数据增强在开放场景下的“两面性”

吉林大学人工智能学院研究员高一星、中国科学院计算技术研究所副研究员唐帆、中国科学院自动化研究所研究员董未名等在人工智能领域的CCF-A类顶级国际会议IJCAI上发表的工作,揭示并分析基于样本混合的数据增强方法在开放场景下存在的问题,提出了基于非对称蒸馏框架的解决方法。

论文链接:http://arxiv.org/abs/2404.19527

一、研究背景

数据增强在神经网络的训练中扮演着十分重要的作用,根据操作方式的不同,我们可以将其分为基于单个样本的数据增强(Single-Sample-based Augmentation, SSA)和基于多个样本的数据增强(Multiple-Sample-based Augmentation, MSA)。由于MSA通过线性组合训练集中的多个样本产生新数据,可以使数据集中的样本更加多样化,往往也能给模型性能带来更多收益。然而,一些研究指出了这种增强方式会牺牲模型对某些特定类的识别精度或造成模型混淆相似类的特征。

与传统的闭集识别问题不同,开集识别任务(Open-set Recognition, OSR)在要求模型准确分类训练集中所有类别的同时,要求模型能够识别训练集之外的类别。由于未知类数据在训练过程中是不可见的,所以该任务更依靠模型识别到每个已知类独有的特征,因而对上述提到的特征混淆问题也会更敏感。在图1中,我们揭示了MSA在给模型闭集分类能力带来巨大提升的同时牺牲了模型的开集性能。
在这里插入图片描述

图1 数据增强的“两面性”。在带来模型闭集性能提升的同时,MSA会损害模型鉴别未知类别的能力。

通过进一步实验研究数据增强方法和开集识别任务之间的相互作用,我们观察到:(1)在开集识别任务上,由于MSA会混淆相似类的特征,其性能要比SSA差;(2)知识蒸馏(Knowledge Distillation, KD)可以提升模型的开集性能,但MSA同样会损害知识蒸馏带来的开机性能提升。通过深入分析MSA对模型行为的影响,我们发现MSA会降低模型对样本特征和最终输出的整体激活程度。由于现有方法大多通过对模型的输出设置阈值来识别开集样本,模型激活程度的降低直接导致了其更难分辨未知类样本。知识蒸馏虽然一定程度上可以缓解该问题,但由于MSA样本本身的不确定性,直接蒸馏这些样本仍然会出现上述问题。

基于上述观察,我们创新性地提出了非对称蒸馏框架以解决MSA带来闭集性能提升的同时造成模型开集能力退化的问题,达到“双赢”的效果。具体来说,经典的对称蒸馏框架将MSA样本同时输入教师模型和学生模型中,在此基础上,我们将额外的原始样本输入教师模型,通过增加原始样本与混合样本之间的互信息约束使得学生模型更关注混合样本中每个类独有的特征,从而扩大教师模型对学生模型的影响。与此同时,教师模型对一些混合样本会产生错误预测(如对于第i类和第j类的混合样本,教师模型预测其为第k类),这些被错误预测的样本往往不包含该类独特的特征,我们重新赋予这些样本一个不确定度较高的标签,使学生模型降低对这些类无关特征的激活水平,学习更具有分辨性的特征。

二、研究内容

2.1 揭示数据增强的“两面性”

我们用不同的SSA、MSA方法训练ResNet、VGG、MobileNetV2等模型以验证图1得到的结论。除此之外,参考以往的工作,我们研究了知识蒸馏对MSA的影响。实验结果表明:(1)MSA相对SSA能给模型闭集识别准确率带来更多收益,但会造成模型开集能力的显著下降;(2)知识蒸馏可以同时提升模型的开集和闭集识别性能,然而,在MSA加入蒸馏时,模型的闭集识别准确率会进一步提高,而蒸馏对模型开集性能的提升会被破坏。

2.2 MSA影响开集识别任务中模型的判别指标

OSR任务中,模型通过对测试样本输出的logits设置阈值以鉴别未知类样本。因此,模型对已知类和未知类激活水平的差异会直接影响模型鉴别未知类的能力。

在这里插入图片描述

图2 MNIST数据集上不同训练方式下类间差异对比。

Choi等人提出MSA会造成模型混淆具有相似语义的类别,在图2的两幅热力图中,我们展示了在MNIST数据集上的可视化结果。图中‘k’和‘uk’分别表示已知类和未知类,下划线后的数字表示其具体类别。由于MSA会影响模型的整体激活水平,所以由MSA(CutMix)训练得到的模型热力图整体颜色更暗。对比两幅热力图,在图中所示的类别中,相似类(数字‘2’和数字‘3’,数字‘2’和数字‘5’)的差异前后变化更明显,而不相似类(数字‘4’和数字‘5’,数字‘4’和数字‘8’)的差异前后变化不大。相似类之间的这种混淆使得模型更容易将与这些类有相似特征的未知类识别为已知类,从而造成开集能力的退化。
在这里插入图片描述

图3 不同训练方式下模型激活程度对比。

考虑到开集识别任务中模型主要依靠对最终输出的logits设置阈值来筛选未知类,在图3中,我们对比了不同训练方式下模型特征(图3左)以及模型对已知类和未知类输出的最终logits(图3右)的整体水平。如图所示,MSA造成了模型特征激活水平的下降,也缩小了已知类和未知类之间logits的差距,使模型更难分辨两者。知识蒸馏可以增大已知类和未知类之间激活水平的差距,从而提升模型的开集性能。然而,MSA在加入蒸馏过程之后,会破坏蒸馏的提升作用。

在这里插入图片描述

图4 教师模型对不同混合比例的混合样本做出的错误预测和过度自信预测的统计结果。

由于一些混合样本可能产生模糊的语义信息,导致即使性能强大的教师模型也容易做出错误预测。在图4中,我们统计了教师模型对不同混合比例下的样本做出过度自信预测(预测概率大于95%)和错误预测的比例,结果显示,即使在两个样本均匀混合的条件下,教师模型也会对20%以上的样本做出过度自信的预测,且被错误预测的混合样本的比例也不容忽视。

三、非对称蒸馏框架
在这里插入图片描述

图5 非对称蒸馏框架结构图。

3.1 交叉互信息损失

如图5所示,在传统的对称蒸馏框架中,使用第i和j类的混合样本训练时,教师模型和学生模型同时输入混合样本,利用蒸馏损失函数进行训练。在此基础上,我们提出非对称蒸馏框架,教师模型除输入混合样本外,还会接受额外的原样本作为输入。对于混合样本,我们通过最大化教师和学生输出的特征中的互信息使模型在混合样本中更关注每个类独有的特征。例如,在学习第i类独有特征时,对于学生模型产生的混合样本的特征,我们最大化其与教师模型特征中包含的第i类特征的互信息,此目标可以表达为最大化以下互信息项:
在这里插入图片描述

基于此目标,我们通过优化互信息损失函数:
在这里插入图片描述

可以使学生模型更专注于混合样本中分别包含的第i和第j类独特的特征,从而减少类间混淆现象的产生。由于此目标较难直接优化,我们发现了教师模型对第i和第j类原样本输出的特征中分别包含了我们期望从混合样本中得到的每个类的独有特征,因此我们将上式重新组织为:
在这里插入图片描述

超参数为第i和j类的的混合比例。

3.2 双热标签平滑

除此之外,我们使用松弛的样本筛选策略过滤出教师模型错误预测的混合样本。具体来说,若教师模型将第i类和第j类的混合样本预测为第k类时,我们将其视为错误样本,这些错误样本往往不包含第i和j类具有分辨性的特征。我们使用重标签方法,在这些混合样本原有的双热标签的基础上加以平滑,利用这些样本学习到更多的不确定性,并降低模型对这些样本中包含的类无关特征的激活程度和预测置信度。

经过以上讨论,最终模型的训练损失为蒸馏损失、交叉互信息损失和重标签损失三部分:
在这里插入图片描述

在我们的实验中,两个权重超参数均为1。

四、对比分析

在标准的开集分类基准数据集、语义偏移基准数据集(Semantic Shift Benchmark, SSB)、大规模基准数据集ImageNet-21k等数据集上的实验表明,我们提出的非对称蒸馏框架解决了混合样本带来模型开集性能下降的问题。我们的方法在模型的闭集识别准确率和开集识别性能上都超越了现有方法。
在这里插入图片描述

表1在大规模数据集ImageNet-21k不同困难程度的分划上的实验结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/601420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《安富莱嵌入式周报》第336期:开源计算器,交流欧姆表,高性能开源BLDC控制器,Matlab2024a,操作系统漏洞排名,微软开源MS-DOS V4.0

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 本周更新一期视频教程: BSP视频教程第30期:UDS ISO14229统一诊断服务CAN总线专题,常…

C++:多态-虚函数

C 中的多态性是面向对象编程中的一个重要概念,它允许在运行时选择不同的函数实现,以适应不同类型的对象。 多态的种类 编译时多态性(Compile-time Polymorphism):也称为静态多态性或早期绑定,指在编译时确…

java.lang.Exception: Test class should have exactly one public zero-

1.原因 Test方法所在类中,不能存在有参数构造函数,无参构造可以存在。JUnit在运行测试之前,会对测试类做一些初始化和验证工作。对于普通的非参数化测试,JUnit期望测试类有一个无参的公共构造函数,这样它才能够实例化测试类并执行其中的测试方…

K8S快速入门

K8S快速入门 在学习k8s的过程,虽然官网给出的示例教程很简单,但是由于网络和环境的差异,导致实际操作的时候踩了很多坑,下面记录一下自己的操作步骤,方便需要的人参考,也方便以后的自己。 参考官网的资料…

uni-app+vue3 +uni.connectSocket 使用websocket

前言 最近在uni-appvue3websocket实现聊天功能,在使用websocket还是遇到很多问题 这次因为是app手机应用,就没有使用websocket对象,使用的是uni-app的uni.connectSocket 为了方便测试这次用的是node.js一个简单的dom,来联调模拟…

五分钟解决Springboot整合Mybaties

SpringBoot整合Mybaties 创建maven工程整合mybaties逆向代码生成 创建maven工程 1.通过idea创建maven工程如下图 2.生成的工程如下 以上我们就完成了一个maven工程,接下来我们改造成springboot项目。 这里主要分为三步:添加依赖,增加配置&…

Spring_概述

Spring 官网Spring Framework(Spring)文档位置重点内容Overview 官网 Spring官网 Spring Framework(Spring) 文档位置 重点 IoC容器AOP:面向切面编程AOT:ahead of time,提前编译Web 框架&…

20240507 ubuntu20.04+ros noetic 跑通lioslam

任务:跑通lioslam 主要参考博客 IMU激光雷达融合使用LIO-SAM建图学习笔记——详细、长文、多图、全流程_ubuntu_AIDE回归线-GitCode 开源社区 (csdn.net) 1.不要用这一句 wget -O ~/Downloads/gtsam.zip https://github.com/borglab/gtsam/archive/4.0.0-alpha2…

电商大数据的采集||电商大数据关键技术【基于Python】

.电商大数据采集API 什么是大数据? 1.大数据的概念 大数据即字面意思,大量数据。那么这个数据量大到多少才算大数据喃?通常,当数据量达到TB乃至PB级别时,传统的关系型数据库在处理能力、存储效率或查询性能上可能会遇…

Mac idea gradle解决异常: SSL peer shut down incorrectly

系统:mac 软件:idea 解决异常: SSL peer shut down incorrectly 查看有没有安装 gradle -v安装 根据项目gradle提示安装版本 brew install gradle7idea的配置 在settings搜索gradle,配置Local installation,选择自己的安装目录…

c++编程(10)——string

欢迎来到博主的专栏——c编程 博主ID&#xff1a;代码小豪 文章目录 <string>string类的接口构造、析构、与赋值重载构造函数赋值重载运算符 元素访问operator[] 容量修改器对string对象的操作迭代器 std::string是定义在c标准的一个类&#xff0c;定义在标准库<strin…

【SAP ME 34】POD操作面板打开内部异常500内部异常

解决方案&#xff1a; 切换到configtool目录&#xff0c;打开configtool可执行文件

win10使用问题

ThinkPad进入bios一种方式是F1 win10有了一个BitLocker&#xff0c;所以在更改bios里面的一些设置&#xff0c;会要求输入恢复密钥&#xff0c;才能生效。 恢复密钥在Microsoft账户里可以找到。 1. 坑爹的Secure Boot设置 坑爹的Secure Boot设置 - 简书 2. 在安装昆仑通态…

小程序搜索排名优化 三步操作提升

搜索排名优化最直接的一个目的就是为了提升小程序的排名和流量&#xff0c;获取用户的信任度。当用户在搜索关键词的时候&#xff0c;能让用户看到小程序&#xff0c;增加被发现和点击的机会。 一、关键词优化&#xff1a; 1.选择合适的关键词&#xff1a;选择与小程序内容高…

昂科烧录器支持Infineon英飞凌的三相电机驱动器TLE9877QXA40

芯片烧录行业领导者-昂科技术近日发布最新的烧录软件更新及新增支持的芯片型号列表&#xff0c;其中Infineon英飞凌的三相电机驱动器TLE9877QXA40已经被昂科的通用烧录平台AP8000所支持。 TLE9877QXA40是一款单芯片三相电机驱动器&#xff0c;集成了行业标准的ARMCortex™M3 内…

Poisson_Image-Editing

1.算法介绍 快速泊松图像编辑&#xff08;Fast Poisson Image Editing&#xff09;是一种图像处理算法&#xff0c;用于将源图像的某个区域无缝地嵌入到目标图像中。它基于泊松方程的性质&#xff0c;通过求解离散化的泊松方程来实现图像的融合。该算法的核心思想是&#xff0c…

[Linux][网络][TCP][四][流量控制][拥塞控制]详细讲解

目录 1.流量控制2.拥塞控制0.为什么要有拥塞控制&#xff0c;不是有流量控制么&#xff1f;1.什么是拥塞窗口&#xff1f;和发送窗口有什么关系呢&#xff1f;2.怎么知道当前网络是否出现了拥塞呢&#xff1f;3.拥塞控制有哪些算法&#xff1f;4.慢启动5.拥塞避免6.拥塞发生7.快…

【XR806开发板试用】阻塞式串口发送与接收教程

本文基于wsl2搭建的ubuntu18.04 vscode编辑器 很奇怪啊&#xff0c;找了半天居然没人发串口的教程&#xff0c;于是只能自己试一试了&#xff0c;在此发一个阻塞式的串口发送与接收的教程。并且&#xff0c;感谢.ACE彭洪权大佬在我配置环境遇到几十个报错的时候帮我远程搭建环…

校园论坛系统基于PHP的校园管理系统毕设校园好感度系统 校园文化建设系统APP小程序H5前后端源码交付支持二开,一次付款,终生使用

APP小程序H5前后端源码交付&#xff0c;支持二开&#xff0c;一次付款&#xff0c;终身使用&#xff0c;免费更新系统本身源码。 校园社交网络系统开发是一个复杂且综合性的项目&#xff0c;旨在为学生、教师和管理人员提供一个互动、分享和交流的平台。以下是一个关于校园社交…

燃料电池发电系统详解

目录 前言 组成结构 系统参数 常见问题 参考资料 前言 见《氢燃料电池技术综述》 见《燃料电池工作原理详解》 组成结构 燃料电池发电系统&#xff0c;由多个子系统和子模块组成&#xff0c;示例如下&#xff1a; 燃料处理系统&#xff08;fuel processing system&#xf…
最新文章