【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】

【核心思想】

本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的提示令牌(prompt tokens)来适应新的下游任务,例如在语义分割中识别新的类别。这种方法的关键在于,它允许在不改变预训练模型主体(backbone)的情况下,通过少量参数的调整来适应新任务。文章中提出了一个名为PUNet(Prompt-able UNet)的架构,这是一个在预训练后固定不变,但通过类依赖的可学习提示令牌在整个网络中可调整的结构。PUNet通过一种基于在线生成原型的密集自监督方案进行预训练,这种方案结合了学生-教师模型和同时进行的分割损失。研究表明,这种方法能够在CT成像数据集上有效地缩小全面微调模型与参数高效适应模型之间的性能差距。此外,文章还探讨了不同的训练阶段、提示令牌的使用方式(如二元预测或多类预测)以及不同的网络架构变体对模型性能的影响。实验结果表明,这种提示调整方法在医学图像分割任务中,即使在标注数据稀缺的情况下,也能达到令人满意的性能,同时大大减少了所需调整的参数数量。

主要贡献如下:

  1. 提示可调的UNet(PUNet)架构的提出:文章提出了一种新的神经网络架构,即提示可调的UNet(PUNet)。这种架构在预训练后固定不变,但可以通过类依赖的可学习提示令牌在整个网络中进行调整。这种设计使得模型能够在保持预训练网络主体不变的情况下,通过调整相对较少的参数来适应新的下游任务。
  2. 密集自监督预训练方案:文章提出了一种基于在线生成原型的密集自监督预训练方案。这种方案结合了学生-教师模型和同时进行的分割损失,旨在建立解剖学表示,同时避免对比学习中吸引和排斥的硬性分离。
  3. 参数高效的适应性:研究表明,通过使用提示令牌,PUNet能够以参数高效的方式适应新的分割任务。这意味着,相比于传统的完全微调方法,PUNet只需调整相对较少的参数即可达到类似的性能。
  4. 广泛的实验验证:文章通过在两个医学成像数据集上的实验,验证了PUNet架构的有效性。实验结果表明,即使在标注数据稀缺的情况下,这种方法也能达到令人满意的性能。
  5. 对不同训练策略和网络变体的探讨:文章不仅提出了PUNet架构,还探讨了不同的训练阶段、提示令牌的使用方式(如二元预测或多类预测)以及不同的网络架构变体对模型性能的影响。

【模型结构】

image-20240113150352884

1.提示可调的UNet (PUNet) 架构:PUNet是一种为医学图像分割设计的网络架构,其核心特点是在网络中引入了可学习的提示令牌(prompt tokens),以实现对预训练模型的高效微调。以下是对这一部分的详细解读:

  • 架构设计:PUNet基于流行的UNet架构,但进行了重要的修改,使其能够整合额外的类依赖提示令牌。这些提示令牌被视为一组可学习的指令,它们聚集了所有任务依赖的信息,以实现参数高效的微调。在PUNet中,预训练后的主干网络(backbone model)被冻结,而提示令牌则在整个网络中进行调整。

    • Prompt-able SWin (PSWin) blocks:
      • 结合移位窗口和提示令牌:PSWin块是一种特殊的网络块,它结合了移位窗口(SWin)的概念和可调节的提示令牌。这种设计允许网络在处理图像内容的同时,考虑到与特定任务相关的提示信息。
      • 窗口化内容的处理:在PSWin块中,输入图像被分割成较小的区块(窗口化的内容),这些内容随后与提示令牌一起被送入变压器块中进行处理。
      • 提示令牌的作用:提示令牌为注意力层提供了关于目标任务的额外信息。在PSWin块中,这些令牌与每个窗口化内容一起被处理,从而使注意力层能够根据任务相关的信息调整其对图像内容的处理方式。
      • 注意力机制的调整:PSWin块通过计算窗口化内容和提示令牌之间的相似性分数来调整注意力权重,确保网络能够根据提示令牌中的信息调整其对图像内容的处理。
      • 灵活性和适应性:PSWin块的设计提供了极大的灵活性和适应性,使得PUNet能够有效地适应不同的医学图像分割任务。通过在网络的不同层级中插入PSWin块,可以实现对编码图像内容的深度和细粒度调整。
      • 记忆效率:PSWin块在设计时也考虑到了记忆效率。通过限制自注意力到局部非重叠窗口,并在后续的块中进行移位,PSWin块能够在保持线性复杂度的同时,有效地应用注意力机制。
    • Heterogeneous Bias Scores:
      • 异质偏差得分的概念:异质偏差得分是一种机制,用于在网络的不同部分引入额外的偏差,以增强模型处理不同类型数据的能力。这些偏差得分允许网络更好地区分和处理来自不同源的信息,例如图像内容和提示令牌。
      • 增强注意力机制:通过在注意力层中引入异质偏差得分,网络能够更有效地结合来自图像和提示令牌的信息。这种机制有助于提高模型对于不同任务特征的敏感性和适应性。
      • 提高模型的灵活性:异质偏差得分的引入增加了模型的灵活性,使其能够更好地适应不同的任务和数据类型。这对于处理复杂的医学图像分割任务尤其重要,因为这些任务通常涉及到多种类型的图像特征和标签。
      • 优化任务适应性:异质偏差得分使得PUNet在适应新任务时更加高效,尤其是在处理具有不同特征和标签的医学图像时。这种优化的适应性对于提高分割精度和减少训练时间至关重要。
      • 提升分割性能:通过更好地理解和处理图像内容与提示令牌之间的关系,异质偏差得分有助于提升医学图像分割的整体性能,特别是在精确度和鲁棒性方面。
    • Cosine Similarity Aggregation:
      • 余弦相似度聚合的目的:余弦相似度聚合是一种机制,用于评估和聚合网络中不同部分的特征相似度。这种方法特别用于处理提示令牌和图像特征之间的关系,以提高医学图像分割的准确性。
      • 工作原理:在PUNet中,余弦相似度聚合通过计算提示令牌和图像特征之间的余弦相似度来工作。这种方法允许模型评估不同类别的特征与提示令牌之间的相似性,并据此进行有效的分类。
      • 提高分割精度:通过使用余弦相似度聚合,PUNet能够更准确地将图像区域分配给正确的类别。这种精细的相似度评估对于提高医学图像分割的精度至关重要。
      • 增强模型适应性:余弦相似度聚合增强了模型对不同任务特征的适应性。这意味着PUNet可以更有效地处理多样化的医学图像数据,适应不同的分割任务。
      • 优化特征表示:通过聚合相似度信息,余弦相似度聚合有助于优化网络中的特征表示。这种优化的特征表示对于提高分割任务的整体性能非常重要。
  • 提示令牌的作用:提示令牌在网络中起到关键作用,它们使得模型能够根据不同的任务进行适应。每个任务都有一组新的提示令牌,其中每个类的子集代表二元或多类情况。这意味着,通过更换提示令牌,PUNet可以灵活地适应不同的分割任务。

  • 深度集成:作者在PUNet中深度集成了提示令牌,这允许在网络中对编码的图像内容进行中间级别的调整。特别是,注意力层提供了一种结构化的方式来组合和处理异质编码的图像和提示信息。

    image-20240114104317803

    生成嵌入,利用对比学习,其中解剖学上相似的区域彼此靠近地表示。它结合了动量模型和 EMA 更新的教师和学生,将两名学生纳入其中,其中一名学生处理比教师输入 更小的输入,第二名学生 进行更严格的裁剪,以强化鲁棒嵌入,两个学生都共享权重。

    • Contrastive Prototype Assignments (CPA):
      • 原型的生成:CPA方法首先涉及生成一组原型,这些原型是数据特征的代表性集合。在医学图像分割的上下文中,这些原型可以被理解为代表不同解剖结构或图像模式的特征集合。
      • 特征与原型的对比:网络通过将输入图像的特征与这些原型进行对比来学习。这种对比不是简单的匹配,而是通过计算特征与原型之间的相似度来进行的。通常,这种相似度是通过余弦相似度或其他相关度量来计算的。
      • 自监督学习:在CPA中,网络被训练以最大化输入特征与相应原型之间的相似度。这种方法是自监督的,因为它不依赖于外部标注,而是依赖于数据本身的结构和内在模式。
      • 对比学习:CPA利用对比学习的原理,即通过比较不同的特征表示来学习区分不同的数据点。在这种情况下,网络被训练以区分不同的原型,并将图像特征正确地与这些原型对齐。
      • 促进特征区分性:通过这种方法,网络学习生成更加区分性和信息丰富的特征表示。这对于后续的图像分割任务至关重要,因为它提供了更精确的特征来指导分割过程。
      • 适应性和泛化:CPA通过强调数据内在结构的学习,提高了模型的适应性和泛化能力。这意味着模型能够更好地处理在训练数据中未见过的新图像或结构。
    • Online Prototype Generation
      • 在线原型生成的目的:在线原型生成旨在实时创建和更新代表数据特征的原型。这些原型用于指导网络学习过程中的特征提取和表示。
      • 动态原型更新:与传统的静态原型不同,在线原型生成涉及到在训练过程中不断更新原型。这意味着原型能够适应训练数据中出现的新模式和变化,从而更准确地反映数据的当前状态。
      • 自监督学习的加强:通过在线更新原型,网络能够更有效地进行自监督学习。这种动态的学习过程有助于提高特征表示的质量和模型对新数据的适应能力。
      • 实时特征对齐:在线原型生成允许模型实时地将输入特征与最新的原型进行对齐和比较。这种实时对齐机制对于处理复杂和变化多端的医学图像尤其重要。
      • 提高模型的灵活性和准确性:由于原型能够动态更新,模型在处理多样化的医学图像时更加灵活和准确。这对于提高图像分割的性能至关重要。
      • 减少对大量标注数据的依赖:在线原型生成作为一种自监督方法,减少了对大量标注数据的依赖。这使得PUNet在标注数据有限的情况下仍能有效学习。
  • 提示令牌的插入:在PUNet中,提示令牌被深入地插入到网络中,这允许对编码的图像内容在网络的不同层次上进行调整。这种深度集成的方法有助于更有效地适应下游任务。

  • 记忆效率:为了提高记忆效率,PUNet架构中包括了记忆效率较高的移位窗口(SWin)注意力块。这些块在网络的编码器和解码器中被使用,以进一步节省内存。

  • 适应性:PUNet的设计允许网络通过非冻结的(可学习的)提示令牌进行适应,这对于医学成像数据的分割任务来说是足够的。这种方法在保持主干网络任务不变的同时,实现了对特定任务的高效适应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/319139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Flutter开发进阶之动画

Flutter开发进阶之动画 在Flutter中,动画是至关重要的一个部分,它能够为应用程序提供更加丰富和生动的用户体验,Flutter中的动画系统是UI框架的核心功能之一,也是开发者学习Flutter框架的重要部分,由于动画原理在所有…

实时时钟芯片DS1302单片机C语言驱动程序

实时时钟RTC相关索引 1.单片机RTC及时钟芯片的时间到底从哪一年起始? 2.STM32F103单片机内部RTC实时时钟驱动程序 3.实时时钟芯片DS1302单片机C语言驱动程序 一、DS1302简介 DS1302 是 DALLAS(达拉斯)公司推出的一款涓流充电时钟芯片。 主…

Aigtek超声功率放大器的选型技巧及参数指标有哪些

超声功率放大器是一种广泛应用于声学测量、医疗成像、声纳等领域的装置,其作用是将输入信号的功率放大到需要的水平。在选型超声功率放大器时,需要考虑一些关键的技巧和参数指标,以确保选择合适的设备来满足特定的需求。 首先,需要…

【java八股文】之Spring系列篇

1、你怎么理解Spring? Spring是个轻量级的框架,简化了应用的开发程序,提高开发人员的系统维护性,不过配置消息比较繁琐,所以后面才出选了SpringBoot的框架。 Spring的核心组件 : Spring Core 、 Spring Con…

【Python数据可视化】matplotlib之设置子图:绘制子图、子图共享x轴坐标

文章传送门 Python 数据可视化matplotlib之绘制常用图形:折线图、柱状图(条形图)、饼图和直方图matplotlib之设置坐标:添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

CDSP和CISP证书,选择哪个?

🎯CDSP和CISP是两种与信息安全领域相关的专业认证。它们有一些相似之处,但也存在一些显著的区别。本文将详细介绍CDSP认证和CISP认证的相同点和区别。 👑CDSP和CISP的相同点: 1.行业认可:CDSP和CISP都是行业广泛认可的…

机器视觉系统选型-参数—景深

镜头在垂直方向上,能清晰成像的空间距离(清晰成像范围),称为景深

强化学习应用(八):基于Q-learning算法的无人车配送路径规划(通过Python代码)

一、Q-learning算法介绍 Q-learning是一种强化学习算法,用于解决基于环境的决策问题。它通过学习一个Q-table来指导智能体在不同状态下采取最优动作。下面是Q-learning算法的基本步骤: 1. 定义环境:确定问题的状态和动作空间,并…

MyBatis第二课,灰度发布,@Results注解,使用xml书写mysql

目录 打印MyBatis的日志配置: 灰度发布:指发布环境,比如发布环境有200台机器,发布的时候是一批一批的机器的发布 2.删除与修改 使用Results注解,这样就和上面的别名一个意思,column是数据库的列 自动转驼峰&#…

H5网站封装成App的高效转换之旅

在移动互联网时代,App(应用程序)和H5(HTML5网站)是两种常见的移动解决方案。App通常提供更流畅的用户体验和更丰富的功能,而H5网站则以其开发成本低、更新快捷和无需安装等优势受到青睐。尽管如此&#xff…

Apache-Common-Pool2中对象池的使用方式

最近在工作中,对几个产品的技术落地进行梳理。这个过程中发现一些朋友对如何使用Apache的对象池存在一些误解。所以在写作“业务抽象”专题的空闲时间里,本人觉得有必要做一个关于对象池的知识点和坑点讲解。Apache Common-Pool2 组件最重要的功能&#…

【快速解决】保姆级Anaconda安装教程

目录 第一步 ​编辑第二步 ​编辑第三步 第四步 第五步 第六步 ​编辑 第七步 第八步 第九步 第一步 在anaconda清华大学开源软件镜像站下载anaconda。点击这里进入 我这里选的是windows-x86_64。 第二步 下载好以后进行安装 第三步 第四步 第五步 选择…

【操作系统】在阅读论文:OrcFS: Orchestrated file system for flash storage时需要补充的基础知

在阅读论文:OrcFS: Orchestrated file system for flash storage是需要补充的基础知识 这篇论文是为了解决软件层次之间的信息冗余问题 To minimize the disk traffic, the file system buffers the updates and then flushes them to the disk as a single unit, …

通达信波动指数指标公式,识别盘整还是趋势

波动指数(Choppiness Index)是由澳大利亚商品交易员E.W. Dreiss开发的技术指标,用来判断市场是盘整还是趋势。该指标属于非方向性指标,不用于判断市场方向,而仅用于识别市场趋势。 指标的取值范围为0到100,数值越高,表…

[足式机器人]Part2 Dr. CAN学习笔记-Advanced控制理论 Ch04-12+13 不变性原理+非线性系统稳定设计

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记-Advanced控制理论 Ch04-1213 不变性原理非线性系统稳定设计 1. Invariance Princilpe-LaSalle;s Theorem不变性原理2. Nonlinear Basic Feedback Stabilization 非线性系统稳定设计 1. Invarianc…

Visual Studio Code1.67版本已正式发布,新增Rust指南

Visual Studio Code1.67版本已正式发布,该版本包含大量增强生产力的更新项: 资源管理器文件嵌套 通过这次更新,用于浏览和管理文件和文件夹的Visual Studio Code的资源管理器工具现在支持基于名称嵌套相关文件。 资源管理器现在支持根据文…

python学习笔记10(选择结构2、循环结构1)

(一)选择结构2 1、if……else……语句 #(1)基本格式 numbereval(input("请输入您的6位中奖号码:")) if number123456:print("恭喜您,中奖了") else:print("未中奖")#&…

JVM内存结构 vs. Java对象模型 vs. Java内存模型

文章目录 0.三者的区别1.JVM内存结构2.Java对象模型3.Java内存模型(JMM)3.1 为什么需要JMM3.2 JMM是规范3.3 JMM是工具类和关键字的原理3.4 最重要的三点内容 0.三者的区别 JVM内存结构:和Java虚拟机的运行时区域有关。 Java对象模型&#…

负荷预测 | Python基于CEEMDAN-VMD-BiGRU的短期电力负荷时间序列预测

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 提出一种分解去噪、重构分解的 CEEMDAN-VMD-BiGRU组合预测方法: 1 采用CEEMDAN将原始电力负荷数据分解成一组比较稳定的子序列,联合 小波阈值法将含有噪声的高频分量去噪,保留含有信…

竞赛练一练 第29期:GESP和电子学会相关题目练习

CIE一级2021.09_无奈的Jaime 小宝在房间吵闹,妈妈让Jaime想办法安抚小宝。Jaime在房间来回走动思考方法。最后也没想出方法只能摊开双手说 “sorry!”。 1. 准备工作 (1)添加背景:Bedroom 3; &#xff0…