【论文阅读】用于遥感弱监督语义分割的对比标记和标签激活

【论文阅读】用于遥感弱监督语义分割的对比标记和标签激活

文章目录

  • 【论文阅读】用于遥感弱监督语义分割的对比标记和标签激活
    • 一、介绍
    • 二、联系工作
    • 三、方法
      • 3.1 对比token学习模块(CTLM)
      • 3.2 Class token对比学习
      • 3.3 标签前景激活模块
    • 四、实验结果

Contrastive Tokens and Label Activation for Remote Sensing Weakly Supervised Semantic Segmentation

  

弱监督语义分割(WSSS)取得了显著进展,视觉转换器(ViT)架构由于其利用全局注意力进行全面对象信息感知的固有能力,自然适合此类任务

ViT的特性可能会导致过度平滑的问题,特别是在遥感图像的密集场景中,这会显著损害类激活图(CAM)的有效性,并对分割提出挑战

现有的方法往往采用多阶段策略,增加了复杂性并降低了训练效率

  

提出了一个基于ViT架构的遥感图像WSSS综合框架CTFA(对比token和前景激活)

提出的方法包括一个对比令牌学习模块(CTLM),它结合了patch和class token学习来提高模型性能

  

在patch学习中,我们利用ViT中间层中保留的语义多样性,从这些层中导出关系矩阵,并使用它来监督最终的输出token,从而提高CAM的质量

确保全局和局部标记之间的表示一致性,从而揭示更多的整个对象区域

  

此外,通过使用双分支解码器激活生成的伪标签中的前景特征,我们进一步促进了CAM生成的改进

我们的方法在三个成熟的数据集上展示了出色的结果,为WSSS提供了更高效、更精简的解决方案

  
  

一、介绍

遥感图像数据蕴藏着大量有价值的信息,需要深入探索。语义分割是计算机视觉中的一项关键任务

然而,一个接一个地注释像素以获得分割标签的过程异常耗时耗力,严重阻碍了其实用性

  
因此,人们越来越关注植根于图像级监督的弱监督语义分割(WSSS)技术,这是最容易获得的标签

方法通常需要利用分类模型通过类激活图(CAM)生成伪标签,然后将这些伪标签作为基本事实[7]、[8]来训练分割模型

WSSS方法取得了进展,但遥感图像方面的挑战依然存在

  

包括前景-背景不平衡、大规模变化和多样化的多类别场景

独特的属性对精确估计CAM造成了相当大的障碍,导致分割结果不准确

  
随着数据集中前景比例的降低,分割性能显著下降。另一方面,目前遥感中的弱监督分割方法往往依赖于复杂的多级训练策略来提高伪分割的精度

这些策略虽然有效,但需要多次培训,从而导致更复杂的流程和更高的培训成本
  

  为了应对概述的挑战,我们提出了一种创新的解决方案,该解决方案利用基于视觉转换器(ViT)的架构进行单级WSSS,提供了一种更高效、更精简的方法。现有研究批评CAM的固有缺陷,因为它通常只识别最具鉴别力的语义区域,从而影响语义分割的整体性能。
  

  
现有研究批评CAM的固有缺陷,因为它通常只识别最具鉴别力的语义区域,从而影响语义分割的整体性能
  
传统的卷积神经网络(CNN)受到其归纳偏差的限制,主要捕捉局部特征,难以揭示对象的整体

基于ViT的模型受益于自我关注策略,自然地建立了全局特征交互,克服了CNN的局限性,并揭示了整个对象区域

  

增强了全局关系,从而更准确地生成CAM,有助于提高性能。然而,将基于ViT的方法直接应用于遥感数据的WSSS会带来两个具体挑战:
  

  • 过度平滑问题。如图6所示,基线ViT产生的CAM在整个区域表现出均匀激活的趋势,尤其是在拥挤的场景中,这表明存在过度平滑问题
  • 前台激活不准确。前景激活的不准确是显而易见的,对象的关键区域没有被准确地高亮显示,前景区域被错误地激活。这种不精确性对WSSS的有效性是有害的。

  

为了应对这些具体挑战,我们引入了对比令牌学习模块(CTLM)和标签前景激活模块(LFAM)
  

CTLM的主要目标是突出关键对象区域并抑制过度激活的背景区域,它包括逐块对比度模块和逐类对比度模块
  
由于观察到ViT早期层中的图像patch 表示通常更为多样,逐补丁对比度模块监督ViT的最终输出patch token

将不同的令牌基于其语义标签分离为正对和负对,并计算它们的余弦相似性来实现这一点

  

这有助于创建更多样的表示,解决过度平滑问题,并产生更准确的CAM。类对比模块用于增强局部非明显区域和全局对象之间的语义一致性

类对比模块用于增强局部非明显区域和全局对象之间的语义一致性。这是通过最小化类标记嵌入之间的差异来实现的,有助于激活CAM中的更多对象区域

  

ViT中的类标记聚合语义信息,这对于WSSS任务识别关键对象区域至关重要。为了进一步细化前景激活,在辅助CAM中随机裁剪局部图像以获得局部图像的类标记

通过最大化全局图像和局部背景图像的类标记之间的差异,在前景和背景之间引入差异,这有助于实现更准确的前景激活
  
考虑到空中场景中前景对象的尺寸明显较小,包括最小的区域,该模型在准确感知关键对象区域方面遇到了挑战,导致CAM不理想

  

基于中提出的有效激活与小物体相关的功能的概念,我们提出的解决方案结合了标签前景激活模块(LFAM)来应对这一特定挑战

该模块通过双分支解码器实现,包括分别产生语义级和二进制类输出的分割分支和前景分支

我们采用协作丢失机制来细化生成的伪标签,使模型能够更有效地识别前景区域

从而提高整体分割性能
  

通过使用图像级标签在单个训练周期内对具有这些模块的基于ViT的网络进行并行训练

  • 我们提出了一种新的、有效的基于ViT的框架CTFA(对比令牌和前景激活),用于多类遥感场景中的单级WSSS任务
  • 对比令牌学习模块(CTLM)是为了解决过度平滑的问题而提出的。该模块结合了逐块对比学习和逐类对比学习,从而提高了CAM的整体质量并提高了分割性能。
  • 标签前景激活模块(LFAM)旨在激活伪标签的前景区域,从而增强场景中关键对象的表示。

  

二、联系工作

卷积神经网络及其变体已被广泛用于遥感语义分割任务

  

例如,Kuo等人采用基于全卷积网络的深度聚合网络进行土地覆盖分类

He等人提出了一种结合UNet和Swin转换器的混合结构,Zhang等人利用具有定向窗口的转换器进行语义分割

  

不同的网络设计,还根据遥感图像的特点定制了先进的解决方案,如多尺度表示和注意力机制

鉴于完全监督学习已经达到了相对较高的水平,学者们越来越关注高质量注释数据有限的场景。这导致了对弱监督、半监督、无监督和少镜头学习的研究
  

使用图像级标签进行语义分割通常依赖于CAM来生成伪掩模并监督分割结果的学习

  

技术结合了从数据中提取的额外线索,如亲和度信息和共现矩阵

与像素级完全监督的分割任务相比,弱监督标签提供的监督信息较少,通常以涂鸦、点、边界框和图像级注释的形式出现

  

  • 采用基于全卷积网络的多阶段框架进行构建提取。
  • 提出了WSF-Net 采用了自监督连体网络,并进一步提出了多类别WSSS基准
  • 提出了一种显著性图生成器来生成位置信息,从而获得更准确的性能

  

虽然这些方法对遥感场景的WSSS的发展做出了重大贡献,但遥感领域的当前方法通常采用多阶段范式,以实现更准确的CAM生成和更好的性能
  
这些模型具有很高的复杂性,需要复杂的训练策略。为了简化训练过程并更好地满足现实世界的需求,我们的方法采用了单阶段范式,并利用对比学习来提高CAM的质量,从而缓解了与单阶段训练相关的挑战
  

许多WSSS方法不是精心构建网络架构,而是依赖于常见的CNN,如DeepLabv3+,作为基础特征提取器和CAM生成器
  
例如1stage,它在DeepLabv3+的框架内采用像素自适应掩模细化,以促进从图像中进行稳健学习

SLRNet利用跨视图监督并利用低秩属性来减轻监督错误的影响
  
徐等人介绍了MCTformer,利用多个类标记来增强定位图[55]。在此基础上,他们引入了MCTformer+[56],结合对比学习来增强类标记的学习

  

Ru等人提出了AFA[45],它利用了ViT框架内的亲和性信息

为了扩展他们的工作,他们引入了TOCO,通过在ViT的各个层强制执行成对的令牌相似性来解决过度平滑问题

  
  

三、方法

如图所示,CTFA框架建立在利用ViT架构的编码器-解码器分割网络上

  
在这里插入图片描述

  

操作步骤:

  • CTFA过程从原始输入图像I∈RH×W×3开始,其中H和W表示高度和宽度维度
  • 具有块大小P的ViT编码器将图像I划分为块并提取特征,得到长度为l=H×W/P2的标记序列
  • 该标记序列表示为Tenc=[T1 pat;T2 pat;··;Ti pat;T cls]
  • 我们使用CAM来导出初始伪标签Lpseudo

  

CAM是通过对从分类层中的输出块重新配置为2D形状的特征图F∈Rhw×d的权重W∈Rc×d求和而导出的

对于特定的c类,CAM定义为:
  

在这里插入图片描述

其中采用Relu函数来消除负激活。然后,基于CAM在所有类别中构建伪标签Lpseudo,利用两个背景阈值τl和τh(0<τl<τh<1)来区分前景、背景和不确定区域
  
对于位置x,y处的每个元素,使用CAM对总类别My(x,y) 进行如下计算:

  
在这里插入图片描述
  
0和255分别表示背景和不确定区域的索引,C分别表示数据集中的总类别
  
Lpseudo还采用了像素自适应细化模块(标准杆数),以进一步增强
  

使用交叉熵来计算分割损失Lseg,将该伪标签用作分割概率结果ps∈RH×W的监督

该框架还通过包括对比令牌学习模块(CTLM)和标签前景激活模块(LFAM)而得到进一步增强

  

3.1 对比token学习模块(CTLM)

基于补丁的令牌对比学习:利用ViT不同层中patch表示的多样性,基于patch的对比学习的主要目的是诱导不同的语义特征,从而缓解ViT中的过度平滑问题
  
这是通过在patch相似性S(Tenc)和从ViT的中间层提取的关系矩阵R(Tmid)之间引入对比损失来实现的。

观察到ViT的中间层仍然保留了一些语义多样性

  

ViT块的早期层的余弦相似性将低于后期层

  
在这里插入图片描述
  
补丁标记T=[T′1 pat;T′2 pat;··;T′l cls]来源于ViT的不同层

在从ViT编码器的最后一层获得patch token序列Tenc之后,我们将其重塑为2D特征图F。随后,根据等式构建绝对余弦相似性矩阵S(Tenc)

  
同时,基于从中间层导出的中间token Tmid生成辅助CAM Maux,该中间层被设置为遵循传统配置的第9层[20]

生成的CAM Maux转换为标签Lmid∈R×h′×w′,并平坦化为序列Smid∈R1×h′w′

通过重复h′w′次并将它们堆叠在一起,构造了标签矩阵
  

对该矩阵进行转置并将其与原始矩阵进行比较,得到关系矩阵R(Tmid),其中对于共享的类别信息,每个元素被标记为正,否则被标记为负

R(Tmid)的命题掩码M askpos和负掩码M askneg,以使正对的相似度最大化,而使负对的相似度最小化

  
在这里插入图片描述
  

3.2 Class token对比学习

类标记是ViT中的一个关键组件,因为它的表示整合了来自关键对象的语义信息。通过确保全局和局部类令牌表示之间的语义一致性,我们揭示了更多的语义区域,从而激活了更完整的对象

我们首先利用辅助CAM Maux,并使用等式将其转换为可靠的标签
  

在识别标签中的不确定区域和背景区域后,我们有意裁剪这些区域,以从原始输入图像I中收集局部图像Ic∈RHc×Wc×3

然后将这些裁剪的图像输入到ViT编码器中,生成包含额外cls的小维标记。为了确保局部和全局表示之间的一致性,由线性层组成的两个投影头Pl和Pg接收这两组标记
  

全局投影头Pg的梯度被停止,并且指数移动平均(EMA)被用于其更新

使用InfoNCE loss公式化损失函数如下:
  

在这里插入图片描述
  
通过等式中的对比学习

全局对象和局部不确定区域的类标记表示变得更加密切相关,而背景区域被抑制。这鼓励激活更多的对象区域

  

在这里插入图片描述
  

3.3 标签前景激活模块

前景和语义预测的双分支解码器概念的启发

优化了语义输出p s∈R H×W和前景输出p f∈R H×W的联合损失,以激活类不可知的前景对象,促进整个对象的揭示
  

由于WSSS任务中没有提供特定的标签,我们自然会专注于优化创建的伪标签Lpseudo

我们为提取的特征Tenc引入了额外的解码器Df,以生成前景输出p f。考虑到输出概率p f,背景概率表示为1−p f,因为它只预测这两类

η是归一化因子,表示不匹配预测输出的总和
  

在这里插入图片描述

  

四、实验结果

数据集描述

为了全面评估我们的方法的有效性,我们在三个常用的遥感数据集上进行了实验。关于这些数据集的详细信息和我们的实施策略描述如下
  

iSAID数据集:

设计用于航空图像中的实例分割和语义分割的iSAID数据集[23]是改编自目标检测数据集DOTA[58]的大量集合。

我们从每个图像中随机裁剪512×512个patch。

  

  • 包括7500个patch的训练集
  • 具有1653个patch的验证集
  • 具有1315个patch的测试集

  

Potsdam 数据集:

ISPRS Potsdam 是在波茨坦市拍摄的航空图像数据集。它包括38张正射校正图像,每张图像的尺寸为6000×6000像素

使用分配用于训练的23张图像

以及保留用于测试的14张图像

512×512像素的非重叠patch。

该过程产生2783个patch的训练集和1794个patch的测试集

  
DeepGlobe数据集:

DeepGlobe包括830张图像,每张图像的平均大小为2448×2448像素。

数据集包括七类:城市、农业、牧场、森林、水、贫瘠和未知。

图像裁剪成大小为512×512像素的非重叠块。

  • 包含9100个切片的训练集、
  • 包含2025个切片的测试集
  • 包含2150个切片的验证集

  

具体细节:

  • ViTB作为我们的基线
  • AdamW优化器进行20000次迭代
  • 批量大小恒定为8
  • 权重衰减设置为1e-2
  • 动量设置为0.9
  • DeepGlobe数据集使用2e-5的学习率外
  • 初始学习率设定为6e-5
  • 学习速率衰减遵循多项式调度器

  
对于解码器部分,我们实现了如中所述的简单分割头,由两个膨胀率为5的膨胀卷积层组成

在推理阶段,采用多尺度测试策略生成多尺度CAM,通过平均融合得到最终的伪标签。随后,采用密集CRF作为后处理步骤来细化最终结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/558528.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java实现chatGPT SDK

搭建一个 ChatGPT-SDK 组件工程&#xff0c;专门用于封装对 OpenAI 接口的使用。由于 OpenAI 接口本身较多&#xff0c;并有各类配置的设置&#xff0c;所以开发一个共用的 SDK 组件&#xff0c;更合适我们在各类工程中扩展使用 整个流程为&#xff1a;以会话模型为出口&#x…

websocket 连接,http 协议下用 ws, https 协议下必须要使用 wss

解决方案&#xff1a; https 相当于使用 httpssl 认证&#xff0c;使用 https 时 websocket 访问&#xff08;比如建立链接时&#xff09;必须要使用 wss。 详细解释&#xff1a; WebSocket 协议有两个主要版本&#xff1a;“ws”和“wss”。"ws"表示非加密的 Web…

对EKS(AWS云k8s)启用AMP(AWS云Prometheus)监控+AMG(AWS云 grafana)

问题 需要在针对已有的EKS k8s集群启用Prometheus指标监控。而且&#xff0c;这里使用AMP即AWS云的Prometheus托管服务。好像这个服务&#xff0c;只有AWS国际云才有&#xff0c;AWS中国云没得这个托管服务。下面&#xff0c;我们就来尝试在已有的EKS集群上面启用AMP监控。 步…

Linux搭建Discuz论坛

搭建一个论坛 —接上篇博客 改名/etc/httpd/conf.d/vhosts.conf 》/etc/httpd/conf.d/vhosts.conf.bak [rootlocalhost conf.d]# mv /etc/httpd/conf.d/vhosts.conf /etc/httpd/conf.d/vhosts.conf.bak此时的vhosts.conf是一个新创建的文件&#xff0c;之前的vhosts.conf已经…

代码+视频,R语言对数据进行多重插补后回归分析

我们在临床做回顾性研究分析中经常要面对数据缺失的问题&#xff0c;如果数据缺失量大就会对我们的研究结果产生影响&#xff0c;近年来&#xff0c;对数据进行多重插补广泛应用于SCI论文中。我们在之前的文章中已经演示了使用SPSS对数据进行多重插补并分析。今天&#xff0c;我…

【C语言】Dijkstra算法详解

一、引言二、Dijkstra算法原理三、Dijkstra算法的C语言实现四、Dijkstra算法的应用场景五、总结 一、引言 Dijkstra算法是一种著名的图论算法&#xff0c;用于解决单源最短路径问题。它是由荷兰计算机科学家Edsger W. Dijkstra在1956年提出的。本文将详细介绍Dijkstra算法的原理…

数仓建模—逻辑数据模型

数仓建模—逻辑数据模型 数据模型是数据元素及其基于现实世界对象之间的关系的可视化表示。数据模型揭示并定义数据在业务流程中的连接方式,并支持创建高效的信息系统或应用程序。例如,在商业智能中,数据模型定义用户可以在其分析中使用哪种数据。 逻辑数据模型 (LDM Logi…

qt设置TextEdit的提示性文字

提示性文字&#xff0c;就是用户在输入的时候自动消失的那种 比如&#xff1a; 可以这样设置&#xff1a; lineEdit->setPlaceholderText("我是提示性文字"); 但是我们觉的这样有点难看&#xff0c;可以用以下QSS来调整&#xff1a; 调整提示性文字的位置&…

【MATLAB源码-第193期】基于matlab的网络覆盖率NOA优化算法仿真对比VFINOA,VFPSO,VFNGO,VFWOA等算法。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 NOA&#xff08;Network Optimization Algorithm&#xff0c;网络优化算法&#xff09;是一个针对网络覆盖率优化的算法&#xff0c;它主要通过优化网络中节点的分布和配置来提高网络的整体覆盖性能。网络覆盖率是衡量一个无…

【学习】软件压力测试对软件产品的作用

在信息化高速发展的今天&#xff0c;软件产品已经成为各行各业不可或缺的一部分。然而&#xff0c;随着软件功能的日益复杂和用户需求的不断增长&#xff0c;软件产品的稳定性和可靠性问题也愈发凸显。在这样的背景下&#xff0c;软件压力测试作为软件质量保障的重要手段之一&a…

weblogic反序列化漏洞(CVE-2017-10271)复现

直接用vuluhub搭建现成的靶场做 访问靶场 打开是这样表示成功 想反弹shell 就先开启kali1的nc监听&#xff0c;这就监听2233端口吧 linux&#xff1a;nc -l -p 2233 抓包修改为攻击数据包 ip和端口可以任意修改 反弹的shell 还可以写入文件shell 只需要把提供的poc POS…

机器学习鸢尾花各种模型准确率对比

流程 获取数据集导入需要的包读取数据划分训练集和测试集调用各种模型比较准确率 获取数据集 链接&#xff1a;https://pan.baidu.com/s/1RzZyXsaiJB3e611itF466Q?pwdj484 提取码&#xff1a;j484 --来自百度网盘超级会员V1的分享导入需要的包 import pandas as pd impo…

ASP.NET基于WEB的选课系统

摘要 设计本系统的目的是对选课信息进行管理。学生选课系统维护模块主要完成的是系统管理与维护功能。课题研究过程中&#xff0c;首先对系统管理模块进行了详尽的需求分析&#xff0c;经分析得到系统管理模块主要完成如下的功能&#xff1a;用户基本信息、选课信息的录入,查看…

SpringBoot 配置 jedis 来连接redis

Maven依赖 首先配置 maven依赖&#xff0c;这个依赖&#xff0c;要结合自己的springboot 的版本去选&#xff0c; 如果想要看自己的springboot 版本 在 启动类中去 加入&#xff0c;这两行代码 String version SpringBootVersion.getVersion(); log.info("***SpringBo…

Node.js 基础学习

文章目录 1. Node.js1.1 是什么&#xff1f;1.2 作用 2. 命令行工具2.1 命令的结构2.2 常用命令 3. Node.js 注意点3.1 Node.js 中不能使用DOM 和BOM 的API3.2 Node.js 中顶级对象叫做global 4. Buffer4.1 Buffer 特点4.2 Buffer 创建方式4.3 Buffer 操作与注意点 5. 计算机基础…

Flask:URL与视图的映射

默认端口号80、443 blog_id 限制数据类型的话&#xff08;int&#xff09; 除此之外别的数据类型也可以&#xff0c;或者多个&#xff08;用any&#xff09; /book/list?page6

spring boot后端开发基础

spring boot后端开发基础 Spring Boot一、开发步骤二、Web分析三、跨域问题四、HTTP协议五、Web服务器六、响应前端请求七、springboot常用注解创建一个简单的RESTful API服务层和数据访问层配置类和Bean定义响应体和路径变量 Spring Boot 一、开发步骤 创建项目 添加依赖 项…

三大层次学习企业架构框架TOGAF

前言 对于一名架构师来讲&#xff0c;如果说编程语言是知识库层次中的入门石&#xff0c;那么企业架构框架则相当于知识库层次中的金字塔尖。如果想成长为企业级的架构师&#xff0c;企业架构框架是必须要攀登的高塔。 目前国内绝大多数企业采用TOGAF标准&#xff0c;因此我们…

浅谈rDNS在IP情报建设中的应用

在当今数字化世界中&#xff0c;互联网已经成为人们日常生活和商业活动中不可或缺的一部分。在这个庞大而复杂的网络生态系统中&#xff0c;IP地址是连接和识别各种网络设备和服务的基础。然而&#xff0c;仅仅知道一个设备的IP地址并不足以充分理解其在网络中的角色和行为。为…

wps屏幕录制怎么用?分享使用方法!

数字化时代&#xff0c;屏幕录制已成为我们学习、工作和娱乐中不可或缺的一部分。无论是制作教学视频、分享游戏过程&#xff0c;还是录制网络会议&#xff0c;屏幕录制都能帮助我们轻松实现。WPS作为一款功能强大的办公软件&#xff0c;其屏幕录制功能也备受用户青睐。本文将详…
最新文章