TD损失:用于鲁棒医学图像分割的Dice损失泰勒展开文献速递/基于多模态的医学影像分割与理解

📅 2026/7/3 6:44:10 👁️ 阅读次数 📝 编程学习
TD损失:用于鲁棒医学图像分割的Dice损失泰勒展开文献速递/基于多模态的医学影像分割与理解

2026.7.2

本文将Dice loss泰勒展开为多阶多项式TD loss,并用动态权重TD loss+提升医学图像分割在噪声标签下的鲁棒性。

Title题目

01

TD损失:用于鲁棒医学图像分割的Dice损失泰勒展开

TD loss: Taylor expansion of Dice loss for robust medical image segmentation

文献速递介绍

02

论文从医学图像分割对高质量像素级标注的依赖出发,指出人工勾画器官和病灶既耗时又依赖专家经验,容易受到主观差异、模糊边界、低对比度和小目标等因素影响而产生标签噪声。Dice loss因直接优化预测区域与真实区域重叠度,能缓解前景背景类别不平衡,是医学分割中最常用的目标函数之一。作者首先分析Dice loss的梯度特性:对前景像素而言,预测值越接近正确值,其梯度贡献越小;其他前景像素总体预测越充分,单个像素的梯度也会相应减弱,这有助于模型避免过度偏向前景或背景。然而Dice loss的函数形式较固定,缺少可调的高阶多项式结构,且在噪声标签增多时性能显著下降。受交叉熵泰勒展开和PolyLoss思想启发,作者提出将Dice loss展开为多阶多项式并截断得到TD loss,再通过动态权重形成TD loss+。引言最后概括了贡献:提出新的噪声鲁棒分割损失,给出对称与非对称噪声鲁棒性的理论证明,分析梯度性质,并在多数据集和多架构上验证有效性。

相关工作

相关工作首先回顾医学图像分割模型的发展,包括UNet、UNet++、MultiResUNet、CE-Net、Attention-UNet、CA-Net、TransUNet和SwinUNet等编码器解码器或Transformer架构。这些模型虽在结构上不断增强特征表达、长程依赖和注意力机制,但通常仍依赖交叉熵、Dice loss或二者组合进行优化,因此面对标签噪声时仍可能脆弱。随后论文总结医学图像噪声标签学习方法,包括显式建模标注者可靠性和噪声转移矩阵、利用训练动态进行标签纠正、估计噪声像素并细化标签、空间自适应标签平滑以及基于少量干净标注的重加权等。这些方法通常需要额外模块、干净数据或复杂训练机制。最后作者讨论鲁棒损失函数,如MAE、GCE、SCE、归一化损失和Jensen-Shannon类损失,这些方法主要面向分类任务,而本文则从医学分割常用的Dice loss本身出发,构造适合密集预测任务的鲁棒目标,并扩展噪声鲁棒性理论到分割场景。

TD loss用于医学图像分割

这一节是论文的核心方法与理论部分。作者先给出多类别分割中的Dice loss定义,并在像素独立假设下将某一类某个像素的Dice loss写成关于该像素预测值的分式形式,其中C1表示除当前像素外预测与真实前景重叠相关的项,C2表示预测总量与真实区域大小相关的项。通过分析C2减C1的上下界,论文解释了Dice loss如何反映其他前景和背景像素对当前像素梯度的影响。作者进一步推导Dice loss关于当前像素预测值的一阶与高阶导数,说明其梯度绝对值随当前预测值增大而单调减小,并且会随其他前景预测总量增大而下降。接着,作者证明Dice loss要成为MAE和GCE等鲁棒损失的下界需要较强条件,例如C2等于C1加1,这在实际训练中几乎等价于其他像素预测完全匹配标签,因此原始Dice loss的鲁棒性受限。

Dice loss的泰勒展开与TD loss定义

作者在前景像素的正确预测点附近,即预测值等于1处,对Dice loss进行泰勒展开。去掉常数项后,保留前t项得到TD loss:对于前景像素,损失由若干个关于1减预测值的幂次项组成;对于背景像素,则由预测值的幂次项组成。每一阶多项式的系数由C1、C2以及阶数决定,因此TD loss不仅继承Dice loss对全局前景背景信息的感知,还引入了可通过截断阶数t调节的多项式结构。t越大,表达能力越强,更有利于拟合干净数据;t越小,理论风险差界更紧,噪声鲁棒性更强。论文后续实验也验证了这一折中:无噪声时较大t通常更好,而在40%高对称噪声下,t等于2更稳定。

TD loss的梯度分析

在梯度分析中,作者重点考察前景像素的TD loss梯度。TD loss的梯度绝对值同样随当前像素预测值增大而单调减小,这与Dice loss一致,意味着容易分类的点会逐渐降低更新贡献,困难点则获得更多关注。论文将梯度分解为与当前预测误差相关的多项式求和项和一个由C1、C2决定的梯度权重。该权重会随其他前景像素预测总量增大而减小,从而避免模型过拟合前景;同时在较弱条件下,它会随背景误预测总量增加而增大,使模型在背景混淆严重时加大修正力度。这说明TD loss并非简单削弱所有梯度,而是在保留Dice loss全局平衡机制的基础上,对噪声不匹配区域提供更可控的梯度响应。

噪声鲁棒性分析与损失边界

作者将医学分割视为像素级分类问题,基于有界损失的鲁棒学习理论,分别分析对称噪声与非对称噪声。对于对称噪声,如果每个像素上跨类别累计损失存在上下界,则干净标签最优分割器与噪声标签最优分割器之间的风险差可由上界和下界之差控制;对于非对称噪声,在正确类别保持概率高于任一错误类别的条件下,也可得到类似的风险差上界。随后作者证明TD loss满足这种有界性,并且上界与下界之差显式依赖截断阶数t,较小t带来更紧的风险差界,因而更适合强噪声环境。论文还证明TD loss在较弱条件下可作为MAE、GCE的下界,并且一般情况下被TCE loss上界约束。这些结果共同说明TD loss的惩罚尺度不高于典型鲁棒损失,同时又保留Dice类分割损失的区域重叠优化优势。

动态多项式权重调整

由于TD loss由多个阶数的多项式项组成,不同任务和数据集可能需要不同阶项组合。为避免人工指定固定权重,作者提出TD loss+,将每个多项式阶项看作一个子任务,并通过min-max优化动态平衡各阶损失。内层最大化在非负且二范数归一的权重约束下寻找最需关注的多项式项,KKT条件给出闭式权重解:每阶权重与该阶损失值成正比,并由所有阶损失的平方和归一化。最终优化可转化为最小化各阶多项式损失平方和的形式。该动态多项式权重估计策略DPWE能够让训练过程根据任务、数据集和当前迭代状态自适应调整阶项贡献,从而形成更稳定、更具任务适应性的TD loss+。

实验设置

实验覆盖四类医学分割场景:ISIC2018皮肤镜皮损分割、BUSI乳腺超声肿瘤分割、LA钆增强MRI左心房分割和Pancreas-CT腹部增强CT胰腺分割。ISIC2018和BUSI用于全监督实验,并人为加入0%、20%、30%、40%、50%的对称标签噪声;LA和Pancreas-CT用于半监督实验,通过Self-Training和CPS中的伪标签错误模拟非对称噪声。评价指标包括DSC和JI,三维数据还使用95HD与ASD衡量边界误差。实现方面,二维全监督实验采用Adam优化器,学习率0.0001,batch size为16,训练500个epoch;三维半监督实验采用SGD、多项式学习率衰减和15K最大迭代。除超参数消融外,TD loss默认截断阶数t设为2。

超参数t与动态权重消融

在ISIC2018上,作者用UNet和Attention-UNet研究截断阶数t的影响。结果显示,在干净数据下,t增大通常带来更高DSC,因为高阶多项式增强了损失函数的表达灵活性;但在40%强对称噪声下,较小t尤其是t等于2表现更稳定,较大t会使模型更容易拟合噪声。这与理论中较小t带来更紧风险差界的结论一致。动态权重实验则比较固定多项式权重与DPWE,在ISIC2018和BUSI上,不同固定权重组合的验证曲线波动和优劣随任务变化明显,而DPWE曲线整体更平滑,在不同t和数据集上表现更稳定,说明TD loss+能减少手工权重选择的不确定性。

对称噪声下的比较实验

在ISIC2018和BUSI上,作者将Dice loss、TD loss和TD loss+应用于UNet、UNet++、Attention-UNet和SwinUNet四种网络。结果显示,无论干净标签还是不同噪声率,TD loss与TD loss+几乎都优于Dice loss,并且噪声越强优势越明显。在ISIC2018上,以UNet为例,50%噪声下Dice loss的平均DSC降至82.43%,而TD loss和TD loss+分别保持在86.01%和86.43%。在SwinUNet上,50%噪声下TD loss相对Dice loss也提升约2.37个DSC点。在BUSI上趋势更突出,例如UNet在50%噪声下Dice loss平均DSC为65.46%,TD loss和TD loss+分别达到69.18%和70.47%。可视化结果显示,TD loss能减少Dice loss常见的过分割、欠分割和伪前景岛,使预测边界更贴近真实病灶轮廓。

非对称伪标签噪声下的比较实验

半监督医学分割中,Self-Training和CPS依赖伪标签训练未标注数据,而伪标签通常由argmax生成,错误并非均匀随机,更可能发生在解剖相邻或强度相似类别之间,因此属于非对称噪声。作者在LA和Pancreas-CT上将Dice loss替换为TD loss,形成Self-Training*和CPS*。在LA数据集上,TD loss在10%和20%标注比例下均提升DSC和JI,并改善边界误差;例如20%标注比例下,CPS的DSC为87.04%,CPS*提升至88.48%。在Pancreas-CT上,TD loss同样在Self-Training和CPS中提高分割完整性和稳定性;例如10%标注比例下,CPS从68.13% DSC提升到70.33%,20%标注比例下CPS从76.08%提升到76.95%。可视化结果显示TD loss在左心房和胰腺任务中生成更连续、更接近解剖结构的预测。

与其他鲁棒损失及计算效率比较

论文进一步将TD loss与MAE、GCE、TCE等典型鲁棒损失比较。作者指出这些损失主要来自分类任务,未必适合分割中的密集预测、类别不平衡和空间一致性要求;TD loss则从Dice loss出发,更自然地继承前景背景平衡和区域重叠优化特性。箱线图结果显示,在ISIC2018对称噪声和LA非对称伪标签噪声下,TD loss的DSC分布更集中,离群点更少,整体稳定性优于其他鲁棒损失。计算效率方面,TD loss和TD loss+相对Dice loss仅带来小幅训练开销;随着t增大,每个epoch耗时逐渐上升但幅度有限,同一t下TD loss与TD loss+的时间差通常很小。由于损失函数只在训练阶段使用,推理阶段耗时不变。

Aastract摘要

03

医学图像分割常受到主观标注、边界模糊、低对比度和小目标等因素影响,训练标签中不可避免存在噪声,而常用Dice loss在高噪声下性能明显退化。本文提出TD loss,即在像素独立假设下对Dice loss进行泰勒展开并截断前t项,从而保留Dice loss有利于前景背景平衡的梯度特性,同时降低噪声标签对参数更新的影响。作者进一步提出TD loss+,通过基于min-max优化的动态多项式权重估计策略自适应调整不同阶项贡献。理论上,论文用有界风险差分析证明TD loss对对称噪声和非对称伪标签噪声均具有鲁棒性,并说明其在较弱条件下可作为MAE、GCE、TCE等鲁棒损失的下界。实验在ISIC2018、BUSI、LA和Pancreas-CT四个数据集及多种分割网络和半监督框架上验证,TD loss和TD loss+在不同噪声水平下普遍优于原始Dice loss。

Conclusion结论

04

论文总结认为,TD loss通过对Dice loss进行泰勒展开,在医学图像分割中提供了一种兼具Dice梯度特性和标签噪声鲁棒性的目标函数。理论分析表明,它对对称噪声和伪标签非对称噪声都有风险差界保证,并可与MAE、GCE、TCE等鲁棒损失建立边界关系;实验则显示其在多数据集、多模型和多监督范式下均能提升分割性能。TD loss+进一步通过DPWE增强任务适应性。局限方面,第一,计算成本会随多项式阶数t上升,可能影响大规模三维分割训练;第二,当前推导假设像素独立,未显式建模解剖结构中的空间相关性;第三,非对称噪声分析假设正确类别概率仍高于任一错误类别,尚不能覆盖强类别偏置噪声。作者计划引入类别相关多项式权重、可学习噪声转移估计、不确定性感知和空间自适应扩展,并将方法推广到更多分割任务。

Figure

05

图1.

该图展示在一个包含101个前景像素的图像中,当前前景像素预测值变化时Dice loss梯度幅值的变化。曲线表明,当前像素预测值越高,梯度幅值越小;其他前景像素预测值越大,当前像素梯度也越小。这解释了Dice loss为何能在一定程度上避免模型过度更新已较好预测的前景区域,并为TD loss保留类似梯度结构提供动机。

图2.

该图比较UNet在BUSI和ISIC2018数据集上使用Dice loss和TD loss时,随对称标签噪声率升高的DSC变化。两者性能都会下降,但TD loss下降更慢,尤其在高噪声率下优势明显,直观说明泰勒展开后的TD loss比原始Dice loss更抗噪。

图3.

该图用前景区域、背景区域和预测区域的关系说明C1与C2的组成。C1主要对应预测与真实前景重叠的部分,C2则包含预测总量和真实区域大小等信息。该图帮助理解TD loss系数为何能感知全局前景背景状态,而不只是对单个像素独立施加惩罚。

图4.

该图在固定C1等于2、C2等于3时,对前景像素预测值处于0到0.3的严重不匹配区域,比较Dice loss与不同t值TD loss的损失曲线和梯度响应。TD loss的惩罚和梯度幅值整体低于Dice loss,说明它能减小噪声标注像素对参数更新的破坏性影响。

图5:

该图展示UNet和Attention-UNet在ISIC2018上使用不同t值时,在干净、20%噪声和40%噪声条件下的DSC。干净数据中较大t有利于拟合并略提升性能,而高噪声条件下较小t更鲁棒,尤其t等于2表现更稳定,验证了理论中t控制风险差界和优化动态的作用。

图6:

该图比较不同固定多项式权重组合与DPWE动态权重策略在ISIC2018和BUSI上的验证曲线。固定权重在不同数据集和t值下波动较大,而DPWE对应曲线更平滑、更稳定,说明TD loss+能根据任务自动调整阶项贡献,减少人工调参依赖。

图7.

该图展示UNet、UNet++、Attention-UNet和SwinUNet在皮肤病灶分割任务中分别使用Dice loss和TD loss的预测边界。绿色为预测边界、红色为真实边界。TD loss通常能减少过分割和欠分割,使边界更贴近真实病灶,体现其在二维皮肤镜图像中的实际分割改进。

图8.

该图展示不同网络在BUSI乳腺超声图像上使用Dice loss和TD loss的分割结果。超声图像噪声强、边界模糊,Dice loss结果更容易出现伪前景和边界偏移,而TD loss预测区域更紧凑、更贴近肿瘤轮廓,说明其对困难边界和噪声标签更稳健。

图9.

该图比较Self-Training和CPS框架在LA左心房分割任务中使用Dice loss和TD loss的结果。TD loss得到的三维结构更完整,DSC明显更高,表明它能缓解伪标签带来的非对称噪声影响,提高半监督分割质量。

图10.

该图展示Pancreas-CT任务中Self-Training和CPS使用不同损失的预测。胰腺形态细长且边界模糊,Dice loss容易产生断裂或缺失,TD loss能得到更连续完整的胰腺结构,说明其在复杂三维器官分割和伪标签噪声下具有优势。

图11.

该图在ISIC2018对称噪声和LA非对称伪标签噪声下比较TD loss、MAE、GCE和TCE的DSC分布。TD loss整体分布更集中,离群点更少,说明它相比分类任务中常用鲁棒损失更适配医学分割的密集预测场景。

图12.

该图比较Dice loss、不同t值TD loss和TD loss+在ISIC2018与BUSI上、不同网络中的平均每epoch训练时间。TD loss相对Dice loss只增加小幅训练开销,t越大耗时略增,TD loss+与TD loss差异很小;由于只影响训练,推理时间不变。