【弱监督点云分割】All Points Matter:用于弱监督三维分割的熵细化分布对齐

All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation

摘要: 

        伪标签被广泛应用于弱监督三维分割任务中,在这种任务中,只有稀疏的地面真实标签可供学习使用。现有方法通常依赖经验标签选择策略(如置信度阈值法)来生成有益的伪标签,用于模型训练。然而,这种方法可能会妨碍对无标签数据点的全面利用。我们假设,这种选择性使用的原因是在未标记数据上生成的伪标签中存在噪声。伪标签中的噪声可能会导致伪标签与模型预测之间存在显著差异,从而混淆模型并对模型训练造成很大影响。为了解决这个问题,我们提出了一种新颖的学习策略,对生成的伪标签进行正则化处理,有效缩小伪标签与模型预测之间的差距。更具体地说,我们的方法为三维分割任务中的弱监督学习引入了熵正则化损失和分布对齐损失,从而形成了 ERDA 学习策略。有趣的是,通过使用 KL 距离来制定分布对齐损失,它可以简化为一种基于交叉熵的损失,从而同时优化伪标签生成网络和三维分割网络。尽管简单,但我们的方法有望提高性能。代码和模型将在 https://github.com/LiyaoTang/ERDA 上公开。

介绍:

        在探索弱监督[85]的过程中,一个重要的挑战是高度稀疏的标签所提供的训练信号不足。为了解决这个问题,有人提出了伪标签方法 [85、94、32],利用对未标签点的预测作为标签,促进分割网络的学习。尽管取得了一些很有前景的结果,但这些伪标签方法的性能已被最近一些基于一致性正则化的方法[47, 87]所超越。我们倾向于将其归因于在伪标签上使用的标签选择,如置信度阈值法、这可能会导致未标记点被浪费和探索不足。我们假设,标签选择的必要性来自于分配给未标注点的低置信度伪标签,众所周知,伪标签具有噪声[21]和潜在的意外偏差[60, 100]。这些可靠性较低、噪声较大的伪标签可能会造成伪标签与模型预测之间的差异,从而在很大程度上混淆和阻碍学习过程。

        针对上述弱监督三维分割中的标签选择问题,我们在本研究中提出了一种基于学习的新方法。我们的方法旨在利用所有未标记点的信息,减轻伪标签噪声和分布差异的负面影响

        具体来说,我们为伪标签生成过程引入了两个学习目标。首先,我们引入了熵正则化(ER)目标,以减少伪标签中的噪声和不确定性。这种正则化可以促进生成信息量更大、更可靠和更有信心的伪标签,从而有助于减轻噪声和不确定性伪标签的局限性。其次,我们提出了一种分布对齐(DA)损耗,它能使伪标签与模型预测之间的统计距离最小化。这可以确保在对伪标签的熵进行正则化时,生成的伪标签的分布仍然接近模型预测的分布。

        特别是,我们发现使用 KL 距离计算分布对齐损失可以将我们的方法简化为交叉熵式学习目标,从而同时优化伪标签生成器和三维分割网络。这使得我们的方法易于实施和应用。通过整合熵正则化和分布对齐,我们实现了 ERDA 学习策略,如图 1 所示。

相关工作: 

        点云分割。点云语义分割旨在为三维点分配语义标签。最先进的方法基于深度学习,可分为基于投影的方法和基于点的方法。基于投影的方法将三维点投影到网格状结构,如二维图像 [84, 55, 39, 12, 4, 45] 或三维体素 [15, 71, 67, 28, 22, 23, 76]。另外,基于点的方法可直接对三维点进行操作 [56, 57]。最近的研究重点是增强点特征的新型模块和骨干,如三维卷积[3, 48, 78, 68, 51, 58]、注意力[34, 26, 97, 79, 42, 59]、基于图的方法[74, 44]以及其他模块,如采样[18, 86, 88, 7]和后处理[54, 35, 66]。虽然这些方法已经取得了重大进展,但它们依赖于大规模数据集的点式注释,在标签较少的情况下很难发挥作用[85]。为了满足点标注的苛刻要求,我们的工作探索了三维点云分割的弱监督学习。

        弱监督点云分割。与弱监督二维图像分割[99, 49, 75, 1, 64]相比,弱监督三维点云分割的探索较少。一般来说,弱监督三维分割任务的重点是高度稀疏的标签:在大型点云场景中只有少数零散的点被标注。Xu 和 Lee [85] 首次提出使用少 10 倍的标签来实现与全监督点云分割模型相当的性能。后来的研究探索了更先进的方法,以利用不同形式的弱监督 [77, 14, 40] 和人类注释 [53, 69]。最近的方法倾向于引入扰动自馏分[95]、一致性正则化[85, 62, 80, 81, 43],并利用基于对比学习[29, 10]的自监督学习[62, 37, 47, 87]。伪标签是利用无标签数据的另一种方法,其方法包括在着色任务中预先训练网络[94],使用迭代训练[32],采用单独的网络在学习伪标签和训练三维分割网络之间进行迭代[53],或使用超级点图[44]与图注意模块在超级点上传播有限标签[13]。然而,这些现有方法往往需要昂贵的训练费用,因为需要手工制作三维数据增强[95, 87, 80, 81]、迭代训练[53, 32]或附加模块[87, 32],从而使骨干模型从完全监督学习到弱监督学习的适应性变得复杂。相比之下,我们的工作旨在通过直接的动机和简单的实现,为三维分割任务实现有效的弱监督学习。

        伪标签细化。伪标签法[46]是熵最小化[24]的一种通用方法,已在各种任务中得到广泛研究,包括半监督二维分类[82, 60]、分割[64, 89]和领域适应[98, 73]。为了产生高质量的监督,人们提出了基于学习状态[72, 91, 20]、标签不确定性[60, 98, 73, 50]、类平衡[100]和数据增强[64, 89, 100]的各种标签选择策略。我们的方法与解决监督偏差的工作关系最为密切,在这些工作中,讨论了相互学习 [20, 70, 92] 和分布对齐 [100, 31, 41]。不过,这些研究通常侧重于类不平衡 [100, 31],并依赖于迭代训练 [70, 20, 92, 41]、标签选择 [20, 31]和强数据增强 [100, 31],而这些方法可能并不直接适用于三维点云。例如,常见的图像增强[64],如裁剪和调整大小,可能会转化为点云上采样[96],这仍然是相关研究领域的一个未决问题。我们认为,与其引入复杂的机制,不如使用一种专为弱监督三维点云分割任务设计的非常简洁的学习方法,对伪标签进行适当的正则化处理,并将其与模型预测相匹配,从而带来显著的优势。 

        此外,相互学习中的数据扩充和重复训练[70, 38]对于避免特征坍塌(即生成的伪标签与模型预测一致或相同)非常重要。我们怀疑原因可能来自于他们使用原始统计距离的经验结果中的熵项,这可能会使伪标签与噪声和混乱的模型预测相匹配,这将在第 3.2 节中讨论。此外,在基于聚类[5]和蒸馏[6]的自我监督学习中,也有研究表明,如果与具有高熵的接近均匀分布的聚类分配或教师输出相匹配,就会导致特征崩溃,这与我们的ER项的直觉是一致的

模型方法:

Formulation of ERDA

        如前所述,我们提出了 ERDA 方法来减轻生成的伪标签中的噪声,并减少它们与分割网络预测之间的分布差距。一般来说,我们的ERDA引入了两个损失函数,包括用于伪标签学习的熵正则化损失和分布对齐损失。我们将这两个损失函数分别记为 LER 和 LDA。那么,ERDA 的总体损失如下:

Lp = λLER + LDA

        在详细介绍 LER 和 LDA 的公式之前,我们首先介绍一下术语。虽然损失是针对所有未标记点计算的,但为了便于讨论,我们只关注一个未标记点。我们用 p 表示分配给这个未标记点的伪标记,用 q 表示相应的分割网络预测。

        熵正则化损失。我们假设伪标签的质量可能会受到噪声的影响,而噪声反过来又会影响模型学习。具体来说,我们认为当伪标签无法提供有把握的伪标签结果时,伪标签可能更容易受到噪声的影响,从而导致 p 中出现高熵分布。 

        为了缓解这一问题,我们建议通过最小化 p 的香农熵来降低其噪音水平,这也有助于获得信息量更大的标注结果 [61]。因此,我们有:

LER = H(p)

        其中,H(p) = 求和 -pi log pi,i 在向量上迭代。通过最小化上述定义的伪标注熵,我们可以提高标注结果的可信度,帮助抵御标注过程中的噪声 。

分布对齐损失。除了伪标签中的噪声,我们认为伪标签与分割网络预测之间的显著差异也会混淆学习过程,导致不可靠的分割结果。一般来说,差异可能来自多个方面,包括噪声导致的伪标签不可靠已标注数据和未标注数据之间的差异 [100],以及伪标签方法和分割方法的差异 [92,20]。虽然熵正则化可以减轻伪标签中噪声的影响,但伪标签与分割网络的预测之间仍可能存在显著差异。为了缓解这一问题,我们建议对伪标签和网络进行联合优化,以缩小这种差异,使生成的伪标签不会与分割预测相差太远。因此,我们引入了分布对齐损失。

        为了正确定义分布对齐损失(LDA),我们测量了伪标签(p)与分割网络预测(q)之间的 KL 发散,并力求将该发散最小化。具体来说,我们对分布对齐损失的定义如下:

                                                        LDA = KL(p||q)

其中 KL(p||q) 指的是 KL 分歧。使用上述公式有几个好处。例如,KL 发散可以将整体损失 Lp 简化为一种具有欺骗性的简单形式,这种形式不仅具有理想的特性,而且比其他距离测量方法性能更好。下文将介绍更多细节。

        简化的 ERDA。根据上述 LER 和 LDA 的计算公式,考虑到 KL(p||q) = H(p, q) - H(p) 其中 H(p, q) 是 p 和 q 之间的交叉熵,我们可以简化 ERDA 的计算公式:

                                                Lp = H(p, q) + (λ − 1)H(p).

特别是,当 λ = 1 时,我们得到最终的 ERDA 损失:

                                                 Lp = H(p, q) = 求和 −pi log qi

上述简化的 ERDA 损失说明,熵正则化损失和分布对齐损失可以用单一的基于交叉熵的损失来表示,该损失可以同时优化 p 和 q。

        我们要强调的是,公式 (5) 与传统的交叉熵损失不同。传统的交叉熵损失利用一个固定标签,只优化对数函数内的项,而公式 (5) 中提出的损失同时优化 p 和 q。

Delving into the Benefits of ERDA

        除了 KL 发散外,还有其他距离测量方法,如用于替换的均方误差 (MSE) 或詹森-香农 (JS) 发散。虽然许多互学方法 [20, 92, 41, 38] 已经证明了 KL 发散的有效性,但目前文献中还缺乏 KL 发散与其他测量方法的详细比较。在本节中,在提出的 ERDA 学习框架下,我们通过比较表明 KL(p||q) 是更好的选择,而且 ER 对于弱监督三维分割是必要的。

        为了研究不同距离测量(包括 KL(p||q)、KL(q||p)、JS(p||q)和 M SE(p||q))的特点,我们研究了 ERDA 损失 Lp 的形式及其在训练过程中两种情况下对伪标签生成网络学习的影响。

        更正式地说,我们假设总共有 K 个类别,并定义伪标签 p = [p1, ..., pK] 基于置信度分数 s = [s1, ..., sK],且 p = softmax(s)。类似地,我们对同一个点也有一个分割网络预测 q = [q1, ..., qK ]。我们以各种形式重写 ERDA 损失 Lp,并从梯度更新的角度研究学习,如表 1 所示。

        情况 1:给定可信伪标签 p 的梯度更新。我们首先专门研究了 p 非常确定且可信的情况,即 p 接近于one-hot向量。如表 1 所示然而,在这种情况下,KL(q||p),而不是我们方法中的 KL(p||q),会产生非零梯度,这实际上会在其学习过程中增加伪标签之间的噪声,这对我们的动机不利。 

        此外,我们还感兴趣的是,如果分割模型产生了令人困惑的输出,即 q 趋于一致,那么距离和 λ 的不同选择会如何影响伪标签的学习。与 ERDA 学习的动机一致,我们的目标是对伪标签进行正则化处理,以减少潜在的噪声和偏差,同时抑制信息量小的不确定标签。然而,如表 1 所示,大多数实现方法都会产生非零标签。1 中,大多数实现都会对伪标签生成网络进行非零梯度更新。这种更新会使 p 更接近混淆的 q,从而增加噪声并降低训练性能。相反,只有 KL(p||q) 与 λ = 1 的熵正则化整合时才会产生零梯度。此外,当 q 的噪声较小但仍接近于均匀向量时,表明 ERDA 的梯度面上有一个很大的近零高原,这有利于通过抵抗 q 中噪声的影响来学习 p。

        除上述情况外,公式(5)中的ERDA梯度一般可被视为同时了解伪标签p和相应预测q的噪声水平和可信度。因此,我们的方案在实现同时降噪和分布对齐的动机方面显示出了其优越性,在这种情况下,LER 和基于 KL 的 LDA 都是必要的。我们将在补充资料中提供更多的消融实证研究(第 4.3 节)和详细分析。

Implementation Details on Pseudo-Labels

        在我们的研究中,我们使用原型伪标签生成过程,因为它既流行又简单[94]。具体来说,原型 [63] 表示特征空间中的类中心点,伪标签是根据未标记点与类中心点之间的特征距离估算的。

        如图 2 所示,我们使用了基于动量的原型伪标签生成过程,因为它既流行又简单[94, 85, 93]。具体来说,原型[63]表示特征空间中的类中心点,它是根据标记数据计算得出的而伪标签则是根据未标记点与类中心点之间的特征距离估算得出的。为了避免昂贵的计算成本和每个语义类的折衷表示[94, 87, 47],动量更新被用作全局类中心点的近似值。

        在动量更新原型的基础上,我们附加了一个基于 MLP 的投影网络,以帮助生成伪标签,并使用我们的方法进行学习。与我们的动机一致,我们没有引入基于阈值的标签选择或单次转换[46, 94]来处理生成的伪标签。更多详情请参见补充资料。

更正式地说,我们将点云 X 作为输入,其中有标签的点为 X l,无标签的点为 X u。对于有标签的点 x∈X l,我们用 y 表示其标签:

        其中,Ck 表示第 k 个类别的全局类别中心点,N l k 是第 k 个类别的标记点数,g ◦ f = g(f (-)) 是通过骨干网络 f 和投影网络 g 进行的变换,m 是动量系数,我们使用余弦相似度 d(-, -) 来生成分数 s。默认情况下,投影网络 g 使用 2 层 MLP,并设置 m = 0.999。 

        此外,由于ERDA的简单性,我们可以按照基线的设置进行训练,这样就可以在各种骨干模型上直接实施和轻松适应,而开销很小。

        总体目标最后,通过公式(5)中的 ERDA 学习,我们可以最大化有标签和无标签点、分割任务和伪标签生成的相同损失,其中我们允许梯度通过(伪)标签反向传播。最终损失为:

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/573592.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用立创EDA实现一个小项目

项目介绍 名称:蓝牙音响 功能:按键切换 蓝牙控制 语音控制 项目流程 市场调研产品立项----老板--经理硬件(外观、尺寸、大小、使用环境)软件(代码开发环节)产品测试 以管理员身份运行 新建文件夹&…

Python学习从0开始——项目一day02数据库连接

Python学习从0开始——项目一day02数据库连接 一、在线云数据库二、测试数据库连接三、数据库驱动介绍四、SQL执行4.1插入测试数据4.2安装数据库连接模块4.3测试SQL语句执行4.4执行SQL的固定步骤及示例 一、在线云数据库 找了一个在线数据库,需要邮箱注册&#xff…

使用Docker搭建Redis主从集群

文章目录 ☃️前言☃️搭建❄️❄️架构❄️❄️实例说明❄️❄️搭建第一个服务器上的两个实例❄️❄️搭建第二个服务器上的一个实例 ☃️开启主从❄️❄️改配置❄️❄️重启从节点 ☃️验证 欢迎来到 请回答1024 的博客 🍓🍓🍓欢迎来到 …

《MATLAB科研绘图与学术图表绘制从入门到精通》示例:绘制婴儿性别比例饼图

在MATLAB 中可以使用 pie 函数来创建饼图。饼图是一种展示不同部分占总体的相对比例的图表。 本示例从“婴儿出生数据.csv”文件读取婴儿出生数据,然后计算男性和女性婴儿的数量,使用MATLAB绘制饼图。 配套图书链接:https://item.jd.com…

【ruoyi-vue】axios的封装理解和基本使用

axios的配置 ruoyi的前端对axios进行了封装,让我们发get请求或者是post请求更加方便了。 ruoyi对axios的封装在下面文件中:打开文件,可以看到它有三个显眼的方法,分别是request拦截器、response拦截器和通用下载方法。ruoYi接口地…

MySQL主从的应用

说明:本文介绍MySQL主从在实际中的应用。主从搭建和问题参考下面两篇文章: MySQL主从结构搭建 搭建MySQL主从结构时的问题 数据迁移 当我们搭建完MySQL主从,第一步当然是把历史数据导入到主从结构中。有以下两种方式: 开启主从…

Linux 网络操作命令Telnet

Telnet 尽管 Telnet 已经逐渐被更安全的 SSH 协议所取代,但在某些特定场景下,如对旧系统的维护或教育目的,Telnet 仍然有其使用价值。本文将介绍如何在 Linux 系统中安装 Telnet 客户端,以及如何使用它进行远程登录。 用户使用 t…

什么是DTU和串口服务器的区别

在工业物联网的快速发展中,数据传输单元(DTU)和串口服务器作为两种关键设备,各自扮演着重要的角色。对于传统行业来说,了解它们的基本概念和区别,有助于更好地选择和应用这些技术,提升生产效率和…

Rust基本数据类型-切片

一、切片是什么,怎么用 1、切片是什么 切片并不是 Rust 独有的概念,在 Go 语言中就非常流行,它允许你引用集合中部分连续的元素序列,而不是引用整个集合。 对于字符串而言,切片就是对 String 类型中某一部分的引用&…

基于单片机的空气质量检测系统设计

摘要:随着社会经济的不断发展,人们的生活水平日益提高,健康与养生成为了全民关注的热点话题,空气质量地不断下降也引起了社会的广泛关注,如何了解家居内空气质量的情况也成了亟需解决的问题。在此背景下,本文针对室内空气的质量问题设计了基于单片机的空气质量检测系统,…

Mysql个人总结

前言 又来水字数啦,这次主要讲一下MySQL的常用概念,难点的就必须上项目讲解了,而且比较基础面试基本都会问一些,用的话,不少优化都从这里入手 操作数据库 1、创建数据库 CREATE DATABASE [IF NOT EXISTS] 数据库名;…

【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》 斯蒂芬沃尔弗拉姆 这本书用了两天就一口气读完了,通篇读完后,这本书主要是介绍了ChatGPT怎么能做到生成内容的一些背后的原理逻辑,总结一下这本书是ChatGPT通过大量的数据(这些数据来自网络、书籍等等类似于数据…

Linux多进程(二)进程通信方式三 共享内存

共享内存提供了一个在多个进程间共享数据的方式,它们可以直接访问同一块内存区域,因此比使用管道或消息队列等通信机制更高效。在多进程程序中,共享内存通常与信号量一起使用,以确保对共享内存的访问是线程安全的。 一、打开/创建…

2024年达索系统智能制造核心合作伙伴会议圆满成功

2024年4月23日,达索系统在上海雅乐万豪侯爵酒店举办“2024年达索系统智能制造核心合作伙伴会议”,作为达索系统合作伙伴的百世慧也应邀出席了本次会议,并荣获“2023年度最佳销售业绩奖”,总经理冉恒奎先生还受邀在会上做出了精彩分…

电磁兼容(EMC):静电放电(ESD)抗扰度试验深度解读(八)

目录 1. 第一步 确定电磁环境 2. 第二步 确认设备工作状态 3. 第三步 制定试验计划 4. 间接施加的放电 4.1 水平耦合板 4.2 垂直耦合板 静电抗扰度的试验测试细节对测试结果影响比较大,本文详细介绍静电抗扰度试验的测试程序和注意事项。 1. 第一步 确定电磁…

Vision Pro“裸眼上车”,商汤绝影全新舱内3D交互亮相

2023年,Apple Vision Pro的横空出世让人们领略到了3D交互的魅力,商汤绝影通过深厚的技术研发实力和高效的创新迭代效率,带来两大全新座舱3D交互:3D Gaze高精视线交互和3D动态手势交互。 作为全球首创的能够通过视线定位与屏幕图标…

CST Studio初级教程 一

本教程将详细介绍CST Studio Project创建。 新建Project 1. 点击New and Recent,然后点击New Template。 然后依据我们的仿真属类,在下图中做选择需要的模板。 如果做高频连接器信号完整性(SI)仿真,我们就选Microwaves…

人工智能技术应用实训室解决方案

一、背景与意义 人工智能,作为新兴的技术科学领域,致力于模拟、延伸和扩展人类智能,其涵盖范围广泛,包括机器人技术、语言识别、图像识别、自然语言处理及专家系统等多元化领域。实际应用层面,人工智能已渗透到机器视…

【初阶数据结构】——循环队列

文章目录 1. 什么是循环队列?2. 结构的选择:数组 or 链表?链表结构分析数组结构分析判空判满入数据出数据取队头队尾元素 3. 代码实现(数组结构)C语言版本C版本 这篇文章我们来学习一下如何实现循环队列 那力扣上呢有一…

应用层协议 -- HTTPS 协议

目录 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 2、理解“加密” 二、对称加密 1、理解对称加密 2、对称加密存在的问题 三、非对称加密 1、理解非对称加密 2、中间人攻击 3、CA 证书和数字签名 四、总结 一、了解 HTTPS 协议 1、升级版的 HTTP 协议 HTTPS 也是…
最新文章