FreMIM:傅里叶变换与遮罩的图像建模在医学图像分割中的应用

代码链接:GitHub - Rubics-Xuan/FreMIM: This repo holds the official code for the paper "FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation".

论文链接:https://arxiv.org/abs/2304.10864

收录于 WACV2024

摘要

研究界已经见证了自监督蒙面图像建模(MIM)的强大潜力,它使模型能够从未标记的数据中学习视觉表示。为了将关键的全局结构信息和局部细节信息结合到密集预测任务中,我们将视角转移到频域,提出了一种新的基于mimm的自监督预训练框架FreMIM,以更好地完成医学图像分割任务。在观察到详细的结构信息主要存在于高频成分中,而低频成分中高层次语义丰富的基础上,我们进一步在预训练阶段引入多阶段监督来指导表征学习。在三个基准数据集上进行的大量实验表明,我们的FreMIM比以前最先进的MIM方法具有优越的优势。与从头开始训练的各种基线相比,我们的FreMIM可以持续地为模型性能带来相当大的改进。

背景

Masked Autoencoders (MAE)[26],它通过掩盖图像中的部分区域并重建它们来预训练模型。MAE仅将原始像素作为重建目标,主要依靠局部特征表示,而没有充分利用全局信息。

因此,为了在训练样本有限的情况下充分发挥基于mima的医学图像分割方法的潜力,如何在获取全局信息的同时尽可能保留详细的局部特征成为关键问题。

正如之前的许多研究[5,7,14,30,45]所示,详细的纹理信息主要存在于高频分量中,低频分量中包含丰富的全局信息。根据这一观察,一个直观的解决方案将是探索MIM与傅里叶变换相结合的强大潜力。

由于同一器官的医学图像本质上对应相似的特征,我们进行了困难的跨域重建任务,避免了走捷径的学习,实现了较强的表征能力。

同时,借鉴前人[49]的研究结果,即详细的结构信息主要存在于高频分量中,而低频分量中具有丰富的高级语义,本文提出的双边聚合解码器对原始图像依次进行傅里叶变换,并在变换后的傅里叶谱上使用低/高通滤波器,得到预期的重构目标。

相关工作

Masked Image Modeling

通过重建图像的被屏蔽部分,模型可以学习到有利于各种视觉下游任务的信息特征表示。

之前使用的随机掩蔽策略是粗糙的,可能会在无用的背景上造成计算浪费。考虑到医学图像中信息前景和无用背景的区分,我们设计了前景像素之间的掩蔽策略,以获得更有效的掩蔽,帮助模型更好地进行表征学习。此外,我们的方法可以摆脱对特定模型结构的预训练范式的依赖,并持续提高模型性能,这与以往的工作不同(例如,Swin Transformer和基于cnn的模型不能直接与MAE集成)。

Fourier Transform

[43]利用快速傅里叶变换(Fast Fourier Transform, FFT)替代原始Transformer中的自关注模块,以较低的计算成本成功获取全局信息。[29]为傅里叶频谱监督设计了一种新的焦频率损失,以提高流行的图像生成模型的性能

我们对原始图像进行随机掩码,重建图像频域中的傅里叶谱去帮助模型以跨域掩码重建的方式学习更广义的全局表示此外,还提出了结合FFT特定特性(即高通和低通频率分量)的多级监督,以更好地指导不同阶段之间的模型表示学习。

贡献

1) 我们首次研究了在医学图像分割任务中利用频域掩膜图像建模的强大潜力。被提议的
FreMIM是一个通用的自监督预训练框架,可以与不同的模型体系结构集成
(即cnn和transformer)。

2)通过设计一个多阶段监督方案和一个设计良好的双边聚合解码器,我们提出了一种新的跨域掩码重建框架,用于掩码图像建模范式。

3)提出了一种简单而有效的前景像素间(foreground pixels)masking 策略,作为原始随机掩蔽像素策略的更好替代方案,为后续的自监督表示学习提供更精确和信息丰富的掩蔽

方法

Preliminary: Fourier Transform

由于离散傅里叶变换(DFT)在我们提出的方法中起着至关重要的作用,我们首先简要回顾了作为传统信号分析不可或缺的技术的二维DFT。给定一个2D信号F∈RW×H,其对应的2D- dft可以定义为:

其中F(h,w)表示位于F中(h,w)的信号,u和v是傅里叶频谱中水平和垂直空间频率的指标。相应的,二维逆DFT (2D- IDFT)表示为:

DFT和IDFT都可以使用它们的快速版本FFT算法进行加速[39]。对于具有多种模态的医学图像,傅里叶变换在每个通道上独立进行。此外,如先前的研究[5,7,14,30,45]所示,图像的详细结构纹理信息主要存在于傅里叶谱的高频部分,而全局信息则丰富于低频部分。图2展示了这一有趣特征的可视化。

The Proposed FreMIM

Overall Architecture

给定空间分辨率为H×W和C通道(模态数)的输入医学图像切片X∈RC×H×W,首先对原始图像采用所提出的前景掩蔽策略生成掩蔽图像。然后,通用编码器(即根据各种预训练要求,cnn和Transformers编码器都可以很容易地集成到我们的框架中)将被屏蔽的图像作为输入,通过分层结构捕获被屏蔽的视觉特征。然后,将不同阶段的编码特征表示联合馈送到我们精心设计的双边聚合解码器中,逐渐产生具有低级细节信息和高级语义表示的重构傅立叶谱。

通过顺序应用傅里叶变换在原图片上,在转换后的傅里叶频谱上采用低/高通滤波器获取期望重建目标,将重建损失应用于重建频谱与期望低/高通频谱目标的相似度,实现端到端低阶和高阶表示的有益多阶段监督方案。

Masking Strategy

医学图像的前景和背景像素分布极不平衡。因此,随机选择医学图像的空间位置,不可避免地会导致生成的掩模大部分覆盖背景像素,保留了太多物体的前景像素,不利于模型的重建能力。
为此,我们提出了一种简单而有效的前景掩蔽策略来解决这种不均匀分布问题。

具体来说,给定一个初始化为零的二进制掩码M∈{0,1}H×W,其在每个空间位置的值取决于对应的像素值是否属于前景。如果一个像素属于前景区域,在自监督预训练中,它将被滤除作为被遮罩的候选点之一。

由于医学图像通常由不同的通道组成,每个通道强调不同的前景区域,因此我们将它们的重叠部分作为最终的掩码区域。整体前景掩蔽策略可以定义为↓,式中⊙为Hadamard积,Pn(x, y)表示对应位置(x, y)的特定像素值,Mn表示生成的特定图像模态Mn的掩模。

M和XM分别表示原始图像的最终掩码,以及将被掩码后的图像馈入模型进行后续重建任务。

 

Generic Encoder

至于我们框架中编码器的选择,由于我们的逐像素前景掩蔽策略,FreMIM不限于任何特定类型的结构。网络编码器以上述掩膜图像为输入,对掩膜图像切片进行分层结构的逐步编码,产生不同层次(即从底层细节信息到高层语义)的特征表示。

Multi-stage Supervision Scheme

对有效SSL范例的期望是引导可视化主干通过分层结构学习不同级别的所需表示。根据这种直觉,我们提出设计一个多阶段监督方案,以充分监督分层阶段的表示学习。

图像的高阶和低阶信息分布在傅里叶谱的不同频段。因此我们提出分别利用低通和高通傅里叶频谱作为监督信号(即重构目标)。最直观的方法之一是利用相同的高通傅立叶谱直接监督多个low level stages ,反之亦然。然而,这种直观的方式主要有两个缺点。一方面,违背了模型在各个低级阶段学习的初衷,因为不同低级阶段学习到的特征表征自然不应该是相同的,而应该是不同的。另一方面,这种监督方法过于直接和简单,没有充分利用层次结构捕获的多阶段特征之间的相关性来帮助模型更好地执行MIM pretext 任务。

为此,我们提出了一种设计良好的双边聚合解码器 bilateral aggregation decoder,以更好地解决频域重构任务,进一步帮助编码器学习更广义、更有意义的特征表示。具体而言,在所提出的双边聚合解码器内部,将不同阶段的编码特征分别以自下而上和自上而下的方式收敛到最低阶段(即最大空间分辨率)和最高阶段(即最小空间分辨率)。换句话说,BAD将不同阶段的特征图分别聚合为最低和最高分辨率。具体来说,对于ViT,第4层、第8层和第12层的特征映射分别上采样8次、4次和2次,然后按照UNETR中的反卷积模块馈送到BAD。为了明确起见,每个相邻阶段的捕获特征将被馈送到卷积块中,以实现空间分辨率和通道维度的严格对齐,可以表示为↓其中Ahigh和allow分别表示双边聚合的高级和低级特征表示,C、Dc和Cat分别表示卷积块、反卷积块和拼接操作,Si表示阶段i输出的特征映射。

然后,通过引入的频率映射块(如图3所示),将最低级和最高级的聚合特征表示映射到频域,然后通过低通和高通滤波器,得到所采用重构损失对应的高通和低通预测谱。具体来说,频率映射块(FMB)由2D-DFT、频域感知器(FDP)和2D-IDFT组成,其计算公式为↓ 其中DFT和IDFT分别表示快速傅里叶变换和快速傅里叶反变换。W和b都是可学习的参数,⊙是哈达玛积。通过这种方式,利用傅里叶变换的独特特性,构建了一个强大的SSL跨域重建框架。

 

虽然这样的跨域重建任务比域内重建任务更加困难,但它也可以帮助模型学习更鲁棒的特征表示

Pre-training Strategy

Frequency Loss

为了缓解不同频带频谱间的权重不平衡,便于对困难频带进行重构,我们采用焦频损失[29]作为损失函数lfrequency,对低频和高频映射进行权重梯度更新,定义为↓式中f(u, v)为空间频率坐标(u, v)的预测2D-DFT,而f^(u, v)为其对应的Ground truth。γ(f, f^)计算实际值和预测值之间的欧几里得距离的平方作为它们的频率距离。

ω是给定位置的频谱权矩阵,它抑制了简单频率的权值。计算公式如下,其中β是灵活性的缩放因子(默认β=1)。

Overall Loss

在预训练期间,我们的FreMIM通过从高通和低通频率中求解内容格式塔来学习表示:式中FH和FL分别为高通和低通频率滤波器。T表示原始图像。如图3所示,P low由最高级得到,而P high则相反。α是高级语义信息分支的权重(默认α = 3)。

实验

数据集:

BraTS 2019, [2,3,36],

ISIC 2018 [16,48] 

ACDC 2017

实验结果

总结

在本文中,我们首次研究了基于频域的MIM在医学图像分割任务的预训练深度学习模型上的强大潜力。针对二维医学图像分割问题,提出了一种利用傅里叶谱中丰富的全局信息和局部细节的新框架FreMIM。不同于以往MIM方法的传统范式,在频域实现重构使框架具有更强的表示学习能力。此外,多阶段监督方案充分利用了不同频段所包含的特定特性,大大提高了分割性能。在三个基准数据集上进行的综合实验,定量和定性地验证了我们的FreMIM的有效性,显著提高了从头训练的基线分割性能,并显示出优于最先进的自监督方法的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/454373.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C#重新认识笔记_ FixUpdate + Update

C#重新认识笔记_ FixUpdate Update Update: 刷新频率不一致,非物理对象的移动,简单的刷新可用, FixedUpdate: 刷新频率一致,按照固定频率刷新,一般调用FixedUpdate之后,会立即进入必要的物理计算中,因此,任何影响刚…

springboot3 打包报错32-bit architecture x86 unsupported或者 returned non-zero result

springboot3 打包异常情况处理记录 在测试springboot3 native打包时候遇到的异常,百度和谷歌上方法都无法解决我的问题,最后记录一下我最后的原因和解决方案。 前置要求:自己处理好vs的相关内容后 报错一: [1/7] Initializing…

回归测试,有什么高效的测试方法?

什么是回归测试? 回归测试(Regression testing) 指在发生修改之后重新测试先前的测试以保证修改的正确性。理论上,软件产生新版本,都需要进行回归测试,验证以前发现和修复的错误是否在新软件版本上再次出现…

跨境电子商务支付与结算的支撑系统

​1、跨境电子商务支付与结算的核心系统。 核心系统是用户执行跨境电子商务支付的核心模块,包括以下具体流程。 ​ ​①用户从跨境电子商务支付应用启动跨境电子商务支付流程。 ②跨境电子商务支付应用根据应用和用户选择的支付工具,来调用对应的支付产…

来吧伙计们,让AI教我们怎么说海盗语

“如果想伺机而动,就是这样。”——杰克船长提到海盗,我们往往联想到约翰尼德普在《加勒比海盗》中饰演的杰克船长。我们有什么理由不喜欢海盗呢?他们航行在海上,寻找埋藏的宝藏,痛饮朗姆酒,用自己独特的海…

24考研调剂 | 武汉纺织大学

教育部重点实验室招收24年调剂生,材料、化学、机械工程、计算机、力学等相关专业 考研调剂招生信息 学校:武汉纺织大学 专业:工学->材料科学与工程 年级:2024 招生人数:100 招生状态:正在招生中 联系方式:********* (为保护个人隐私,联系方式仅限APP查看)…

springboot的maven多模块如何混淆jar包

springboot的maven多模块如何混淆jar包 一.简介二. 示例2.1 基本配置2.2 结果 三. 错误3.1 错误13.2 错误2 四. 参考文章 前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 一.简介 …

王道机试C++第6章 数学问题和22年蓝桥杯省赛选择题Day34

6.1 进制转换 二进制数(十转二) 习题描述 大家都知道,数据在计算机里中存储是以二进制的形式存储的。 有一天,小明学了C语言之后,他想知道一个类型为unsigned int 类型的数字,存储在计算机中的二进制串是…

个人博客系统(测试报告)

一、项目背景 一个Web网站程序,你可以观看到其他用户博客也可以登录自己的账号发布博客,通过使用Selenium定位web元素、操作测试对象等方法来对个人博客系统的进行测试,测试的核心内容有用户登录、博客列表及博客数量的展示、查看全文、写博客…

Vue-Vben-Admin:中大型项目后台解决方案及如何实现页面反向传值

Vue-Vben-Admin:中大型项目后台解决方案及如何实现页面反向传值 摘要: Vue-Vben-Admin是一个基于Vue3.0、Vite、Ant-Design-Vue和TypeScript的开源项目,旨在为开发中大型项目提供一站式的解决方案。它涵盖了组件封装、实用工具、钩子函数、动…

Python逆向:pyc字节码转py文件

一、 工具准备 反编译工具:pycdc.exe 十六进制编辑器:010editor 二、字节码文件转换 在CTF中,有时候会得到一串十六进制文件,通过010editor使用查看后,怀疑可能是python的字节码文件。 三、逆向反编译 将010editor得到…

链路聚合实验(思科)

华为设备参考: 一,技术简介 网络设备的链路聚合技术(Link Aggregation)是一种将多个物理链路捆绑在一起,形成一个逻辑链路的技术。这样做可以增加带宽、提高可靠性和实现负载均衡。 二,实验目的 橙色的阻…

使用Sourcetree推送本地仓库至远程仓库时报错The host key is not cached for this server

原因是SSH没配置好 点击工具→选项→ 改成OpenSSH,密钥改成配置Git和本地仓库时生成的.ssh文件夹下的id_rsa文件。

Spring boot 集成netty实现websocket通信

一、netty介绍 Netty 是一个基于NIO的客户、服务器端的编程框架,使用Netty 可以确保你快速和简单的开发出一个网络应用,例如实现了某种协议的客户、服务端应用。Netty相当于简化和流线化了网络应用的编程开发过程,例如:基于TCP和U…

力扣-[700. 二叉搜索树中的搜索]

递归法 确定递归函数的参数和返回值 递归函数的参数传入的就是根节点和要搜索的数值,返回的就是以这个搜索数值所在的节点。 代码如下: public TreeNode searchBST(TreeNode root, int val) 确定终止条件 如果root为空,返回null&#xff0c…

【前端】HTML常用标签

因为想当个全栈,所以巩固了一下HTML与CSS和JS基础,这一篇博客是HTML部分 文章目录 HTML 基础标签 1HTML 基础框架HTML 基础标签语义标签文本格式化标签div 与 span 标签图像标签超链接特殊字符 基础标签 2 | 表格表格的使用表格标签表格属性表格的头部与…

JavaEE:网络编程

网络编程:通过代码完成基于网络的跨主机通信 跨主机通信方式: 1.TCP/IP网络 2.蓝牙通信 3.近场通信NFC 4.毫米波通信:功率高,带宽高,抗干扰能力差 其中TCP/IP网络是日常编程中最常涉及到的,最通用的跨主机通…

蓝桥杯 2022 dp 背包

蓝桥杯 2022 dp 背包 题目链接&#xff1a; https://www.lanqiao.cn/problems/2186/learning/?subject_code1&group_code4&match_num13&match_flow2&origincup 题目&#xff1a; 代码&#xff1a; #include<bits/stdc.h> using namespace std;#defi…

代码随想录算法训练营第七天| 454.四数相加II、383.赎金信、15.三数之和、18.四数之和

系列文章目录 目录 系列文章目录454.四数相加II使用HashMap法 383.赎金信哈希解法&#xff08;数组&#xff09; 15.三数之和双指针法 18.四数之和双指针法 454.四数相加II 题解&#xff1a;该题和1.两数之和的方法是一样的&#xff0c;这个题的难点在于key和value分别是什么。…

网络建设与运维培训介绍和能力介绍

1.开过的发票 3.培训获奖的证书 4合同签署 5.实训设备