Attention-Challenging Multiple Instance Learning for Whole Slide Image（ACMIL）

问题：

在这里插入图片描述

我们的工作可能与这些工作有着相似的动机。然而，我们的解决方案是基于热图的观察和分析，而现有的方法更多地依赖于直觉。

我们的工作是独立完成的，并与MHIM-MIL[45]同时进行。

重要的是要认识到热图在将实例特征聚合为袋级特征方面发挥着核心作用，这会显著影响模型的泛化能力。本文率先使用热图作为分析过拟合挑战的工具，从而脱颖而出。

Baseline: ABMIL

为了捕捉更多的预测性实例，我们设计了由多个注意力分支组成的MBA。每个分支负责捕获具有特定模式的实例，确保更多的预测模式有助于最终预测。

在这里插入图片描述

为了保证模式之间的预测语义和语义多样性，分别提出了语义正则化和多样性正则化：

在这里插入图片描述

$\hat Y_i=g_i(z_i)$ 是第i个模式的预测结果。

在这里插入图片描述

$a_i=\{a_{i1},...,a_{iN}\}$ 是第i个模式的所有注意力值。（被定义为热图（heatmap））

通过使热图多样化，每个分支的嵌入可以集中于不同的预测模式。(按理说最佳预测模式应该只有一种???)

在这里插入图片描述

均值注意力池化==注意力池化的均值

在这里插入图片描述

在这里插入图片描述

当M为1时，MBA本质上等于ABMIL的特征聚合过程，它只能识别一个单一的模式。
将MBA视为用于捕获更多样化预测模式的ABMIL的扩展
我们强调在我们的MBA和最近的工作DTFD-MIL中使用平行注意力模块的不同目标。DTFD-MIL的目标是通过将袋随机分成几个子袋来增强袋，并使用并行的注意力模块来捕获每个子袋中的判别实例。对于MBA，平行注意力模块用于从整个包中捕获不同的预测模式。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

其中p和K是两个控制掩蔽强度的超参数。

STKIM和MHIM-MIL之间存在显著的技术差异
区别一：
- MHIM-MIL采用两阶段训练过程，使用第一阶段获得的最佳检查点初始化第二阶段训练的模型。
- STKIM是一个单阶段框架，不需要预先训练的检查点，从而提供更好的可伸缩性。
区别二：
- MHIM-MIL在动量教师模型上使用实例掩蔽，使用掩蔽的实例来训练学生模型。这涉及计算注意力值和产生袋预测的两种前向传播。
- STKIM利用单一模型，只需要一次前向传播，因此与MHIM-MIL相比，执行速度更快。
区别三：
- MHIMMIL采用了三种掩蔽策略，并引入了五个掩蔽超参数，这可能是一个复杂且耗时的试错过程，以达到最佳性能。
- STKIM主要涉及两个超参数p和K。
- 消融研究表明，设置p = 0.6和K = 10在所有数据集上都能实现近乎最佳的性能，显著减少了与试错调优相关的工作量和时间。
- STKIM具有更好的可伸缩性、更快的执行速度和更低的试错成本。

Camelyon16（public）训—验：9 : 1
BRACS（public）不用重新划分，官方已划分为395个训练集，65个验证集和87个测试集。
LBC（液体细胞学）（private）：
- 收集了1989例wsi，包括4类，即阴性、ASC-US、LSIL和ASC-H/HSIL。
- 随机分成训练集、验证集和测试集，比例为6 : 2 : 2。

WSI 3级分类的挑战:良性肿瘤、非典型肿瘤和恶性肿瘤。