EfficientPhys

研究背景

基于相机的生理测量是一种非接触式方法,用于通过从身体反射的光捕获心脏信号。最常见的此类信号是通过光电体积描记图 (PPG) 测量的血容量脉搏 (BVP)。由此,可以推导出心率、呼吸率和脉搏传导时间。神经网络模型是当前最先进的 rPPG 测量方式。这些网络可以学习强大的特征表示,并有效地将由于潜在生理过程引起的像素的细微变化与由于身体运动、光照变化和其他“噪声”来源引起的像素变化区分开来。

问题

虽然之前的研究将架构定义为“端到端”方法,那些实现最先进性能的方法实际上需要几个预处理步骤,然后才能将数据用作网络的输入。例如,使用手工制作的归一化差异帧和归一化外观帧作为其卷积注意力网络的输入。或者使用一个复杂的模式来创建称为“MSTmaps”的特征图,他们的过程包括面部标志检测,使用这些标志提取几个感兴趣区域(ROI),然后平均像素值在两个RGB 和 YUV 颜色空间。这些预处理步骤有几个缺点:

  1. 它们对最佳归一化或表示做出假设,而不允许网络以数据驱动的方式学习这些特征。
  2. 它们的计算成本很高,并且在许多情况下会向视频处理管道添加大量操作。
  3. 这些操作通常难以实现,使复制和部署变得困难,甚至可能比“核心”网络本身具有更高的计算预算。

对比图

理想情况下,基于视频的生理测量方法即使在移动设备上也能以高帧率运行,易于在不同平台上实施,并实现状态-最先进的性能。解决上述挑战将有助于实现这些特性。
在本文中,作者提出了两种用于基于相机的生理测量的新型高效神经模型,称为 EfficientPhys,无需面部检测、分割、归一化、色彩空间变换或任何其他预处理步骤。使用原始视频帧的输入,模型在三个公共数据集上实现了很高的准确性。

方法

Convolution-based EfficientPhys

为了实现简单、快速和准确的基于设备摄像头的实时生命体征测量,本文作者提出了一种一站式解决方案架构,该架构将原始视频帧作为网络的输入并输出 PPG 信号。基于卷积的 EfficientPhys 是一个单分支网络,包含自定义归一化层、自注意力模块、张量移位模块和 2D 卷积运算,以执行高效准确的时空建模,同时使其易于部署。
架构图

Normalization Module

作者针对图片预处理阶段,提出了一个 Normalization 模块,它可以在每两个连续的 RGB 原始帧和规范化之间执行运动建模,以减少光照和运动噪声。更具体地说,所提出的归一化模块包括差异层和批归一化层。
差异层 通过减去每两个相邻帧来计算原始视频帧沿时间轴的第一个前向差异。在每两个连续帧之间执行运动建模和归一化更像是高通滤波,可以帮助减少来自光照和运动噪声的全局噪声,同时保持 PPG 的细微变化。
然而,不同的帧在尺度上可能大不相同,使网络难以学习平均特征表示,特别是当感兴趣的信号隐藏在沿时间轴的细微像素变化中时,噪声伪影会导致更大的相关变化。
为了解决这个问题,作者在差异层之后添加一个批量归一化层。添加批量归一化层有两个好处:

  1. 它在训练期间将批处理中的差分帧归一化为相同的尺度
  2. 与之前工作中固定归一化不同,batchnorm 提供了两个可学习的参数β和γ,用于缩放(到不同的方差)和移位(到不同的平均值)以及两个不可训练的参数,即平均μ和标准差σ。通过学习过程,批量范数层可以学习出最佳参数用于放大像素变化,同时最小化噪声。

如下图所示。如果没有批处理范数层,直接应用差分层意味着帧显示为“黑色”。因为每连续两帧中皮肤像素的细微变化相对非常小。另一方面,添加后续的批处理范数层将有助于它学习归一化函数,从而大幅放大皮肤像素的细微变化。其结果不仅仅是数值的放大,而是规范化和放大。
Normalization

Self-Attention-Shifted Network

为了有效地捕捉丰富的时空信息,作者提出了一个自注意力转移网络(SASN)。 SASN 建立在以前最先进的光学心脏测量-时移卷积注意网络 (TS-CAN) 中的设备上时空建模方法之上。 TS-CAN 有两个卷积分支,其中一个采用预处理的差异帧表示,另一个采用归一化外观帧。运动分支执行主要的时空建模和估计,外观分支提供注意掩码以指导运动分支更好地隔离感兴趣的像素(例如,皮肤像素)。(MTTS-CAN相关内容可以看我另一片博客:传送门)然而,作者认为注意力掩码不必通过单独的外观分支获得,它们也可以通过单个分支端到端网络学习。于是作者使用了一个自我注意模块,以帮助网络最大限度地减少由时间位移以及运动和光照噪声引入的负面影响。

Transformer-based EfficientPhys
Efficient Spatial-Temporal Video Transformer

由于 Vision Transformer 最近在图像和视频理解方面的成功以及注意力机械对这项任务的重要性,作者还提出了 EfficientPhys 的 Vision Transformer 版本。对于这项任务需要一个 Vision Transformer 来学习空间和时间表示。然而,计算复杂性使得这些不利于移动设备上的实时高效建模。在卷积版本中,作者使用了 TSM 的 2D 卷积,这些卷积已被证明可以实现与 3D 卷积相当的性能。受此启发,作者提出的基于 Swin Transformer 的 Efficient-Phys。由于 2D SwinTransformer 只能学习将原始单帧 RGB 值映射到潜在表示的空间特征和目标信号(脉冲)之间的关系,它没有能力对连续帧之外的时间关系进行建模。
SwinTransformer 的主要贡献之一是移动窗口模块,它具有线性计算复杂度,并通过移动窗口分区和将自注意力计算限制在不重叠的局部窗口来允许跨窗口连接。受空间窗口分区移动想法的启发,作者在每个 SwinTransformer 块之前添加一个张量移动模块 (TSM),以促进跨时间轴的信息交换。 TSM 首先将输入张量分成三个块,将第一个块向左移动一位(将时间提前一帧)并将第二个块向右移动一位(将时间延迟一帧)。所有移位操作都沿时间轴进行,并在张量被馈送到每个 Transformer 块之前执行。通过将 TSM 模块添加到 SwinTransformer,新的 Transformer 架构现在能够执行高效的时空变换通过在空间上组合移动窗口分区和在时间上移动帧来建模和注意。值得注意的是,TSM 没有引入任何可学习的参数,因此所提出的 Transformer 架构与原始 SwinTransformer具有相同数量的参数。最后,为了实现真正的端到端推理和学习,作者还在该架构中添加了卷积 EfficientPhys 中提出的相同归一化模块。

实验

尽管视觉变压器已经开始在某些视觉任务中实现最先进的性能,但基于视频的生命体征测量任务并非如此。Efficient-C 在 UBFC 中的 MAE 比 Efficient-T1 高 45%,在 MMSE 和 PURE 中的性能相似,而 Efficient-C 在延迟方面快 7 倍以上。当将基于 Transformer 的 EfficientPhys 缩小到与基于卷积的 EfficientPhys 相似的复杂度时,性能会显着降低。基于轻量级 Transformer 的 EfficientPhys-T2 的误差在 UBFC 中增加了 48% 的 MAE,在 PURE 中增加了 141% 的 MAE,在 MMSE 中增加了 15% 的 MAE。
UBFC, PURE

这些结果表明浅层Transformer架构难以对视频中皮肤像素的细微变化进行建模。这些发现提出了两个潜在的见解。首先,为了使 Transformer 在该领域中胜过甚至相对较浅的卷积模型,需要进一步优化,当没有大量高质量数据可用时,这个现象尤其明显。正如之前的研究所示,Transformers 通常需要更多的预训练样本才能获得最先进的精度。不幸的是,与其他视觉任务相比,目前基于相机的生命测量领域的数据量有限。作者在下表中的实验也支持这一假设,其中 EfficientPhys-C 仅在 PURE 上进行训练就超过了 EfficientPhys-T1 和 T2。作者相信合成数据是帮助解决这个问题的一种方式。其次,如果没有进一步的工作,Vision Transformer 的良好精度-效率权衡可能无法扩展到设备上的架构。由于许多设备上的神经网络需要更少的计算资源来执行实时操作,因此缩小 Transformer 架构并不理想,正如 EfficientPhys-T2 实验结果所显示的那样。

MMSE

Computational Cost and On-Device Latency

这里展现了EfficientPhys-C的优秀性能,处理单帧仅需 40 毫秒,并且执行预处理不需要任何额外的计算时间。另一方面,由于复杂的模型架构和计算手工标准化原始帧和差异帧的额外时间,TS-CAN 每帧需要 63 毫秒。如前所述,Dual-GAN 具有复杂的面部标志检测、分割、颜色变换和增强预处理过程。作者对Dual-GAN 的预处理模块进行了基准测试,每帧花费 275 毫秒,这已经是 EfficientPhys-C 整个计算时间的 7 倍。 Dual-GAN 中的估计网络还包括 12 个 2D 卷积运算和许多 1D 卷积运算。因此,作者相信它会在每帧 275 毫秒的预处理时间之上增加大量的计算时间。默认的基于 Transformer 的 EfficientPhys (T1) 由于其深度架构设计而具有不利的推理时间,并且需要 300 毫秒来处理每一帧。将深度降低到 EfficientPhys-T2 后,可以达到与 EfficientPhys-C 相同的推理时间。然而,EfficientPhys-T2 在所有三个基准数据集上的表现最差。
Computational Cost and On-Device Latency

总结

作者提出了一种称为EfficientPhys的新方法,以实现简单,快速,准确的基于相机的非接触式生命体征测量。并且通过使用显着减少的计算能力实现了强大的性能。凭借简洁优雅的一站式设计,EfficientPhys 还有助于解决上次机器学习部署的问题,并减少健康差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/167200.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Midjourney绘画提示词Prompt参考学习教程

一、工具 SparkAi: SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软…

nvm:轻松管理多个 Node 版本 | 开源日报 No.80

nvm-sh/nvm Stars: 67.6k License: MIT Node Version Manager,是一个 POSIX 兼容的 bash 脚本,用于管理多个活动 node.js 版本。nvm 可以让你通过命令行快速安装和使用不同版本的 Node。它可以在任何符合 POSIX 标准的 shell(sh、dash、ksh…

YOLOv8-seg改进:SEAM、MultiSEAM分割物与物相互遮挡、分割小目标性能

🚀🚀🚀本文改进:SEAM、MultiSEAM分割物体与物体相互遮挡性能 🚀🚀🚀SEAM、MultiSEAM分割物与物相互遮挡、分割小目标性能 🚀🚀🚀YOLOv8-seg创新专栏:http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1)手把手教你如何…

JSP协同办公eclipse定制开发mysql数据库BS模式java编程OA系统

一、源码特点 java 协同办公管理系统是一套完善的web设计系统 ,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,eclipse开发,数据库为Mysql5.0,使…

internet download manager2024中文绿色版(IDM下载器)

在现代互联网时代,文件下载已经成为我们日常生活中必不可少的一项技能。无论是下载软件、音乐、视频还是其他文件,一个高效的下载方法能够为我们节省时间和精力。本文将为您提供一份简明扼要的下载教程,让您轻松掌握文件下载的技巧。 intern…

【汇编】数据在哪里?有多长、div指令实现除法、dup设置内存空间

文章目录 前言一、汇编语言中数据位置的表达1.1 汇编中有哪几种数1.立即数(idata):2.寄存器(Register):3.内存(Memory):4.段地址(Segment Address&#xff0c…

NextJS开发:ssr服务器端渲染页面,添加加载进度提示

nextjs中ssr服务器端渲染的页面加载速度慢的时候,需要显示一个如下图的加载进度提示,来优化用户体验。 nextjs框架中已经预留了加载动画的接口页面,我们只需要提那家加载动画tsx,处理页面逻辑就可以实现。 page.tsx 同级目录创建…

ModernCSS.dev - 来自微软前端工程师的 CSS 高级教程,讲解如何用新的 CSS 语法来解决旧的问题

今天给大家安利一套现代 CSS 的教程,以前写网页的问题,现在都可以用新的写法来解决了。 ModernCSS.dev 是一个现代 CSS 语法的教程,讲解新的 CSS 语法如何解决一些传统问题,一共有30多课。 这套教程的作者是 Stephanie Eckles&am…

2023年中国中端连锁酒店分类、市场规模及主要企业市占率[图]

中端连锁酒店行业是指定位于中档酒店市场、具有全国统一的品牌形象识别系统、全国统一的运营体系、会员体系和营销体系的酒店。中端酒店通常提供舒适、标准化的房间设施和服务,价格较为合理,符合广大消费者的需求。其价格略高于经济型酒店,但…

【canvas】了解canvas,并实现会议预定记录钟表盘、页面水印

初识canvas Canvas 有什么用 Canvas 允许使用直线、曲线、矩形、圆形等基本图形绘制出复杂的图形 Canvas 可以加载图像,并进行各种处理,如裁剪、缩放、旋转等操作 Canvas 可以通过 JavaScript 控制,所以你可以利用帧动画原理,…

Latex学习

二 实例 1. \Delta_{w}\frac{\partial l}{\partial w_{i1}}weight:\frac{\partial l}{\partial x_{i1}} 效果如下 其中对于希腊字母的大小写来说,可以参考: 【LaTeX 语法】字母表示 ( 大写、小写、异体 希腊字母 | 粗体字母 | 花体字母 )_latex字母_韩…

大白话解释什么类加载机制

大家好,我是伍六七。 今天我们来聊聊一个 Java 面试必考基础题目:类加载机制和双亲委派机制。 Java 类的加载机制是 Java 虚拟机(JVM)中类加载(Class Loading)和链接(Linking)的过…

RT-DETR优化改进:SEAM、MultiSEAM分割物与物相互遮挡、分割小目标性能

🚀🚀🚀本文改进:SEAM、MultiSEAM分割物体与物体相互遮挡性能 🚀🚀🚀SEAM、MultiSEAM分割物与物相互遮挡、分割小目标性能 🚀🚀🚀RT-DETR改进创新专栏:http://t.csdnimg.cn/vuQTz 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; RT-DETR模型创新…

【cpolar】搭建我的世界Java版服务器,公网远程联机

🎥 个人主页:深鱼~🔥收录专栏:cpolar🌄欢迎 👍点赞✍评论⭐收藏 目录 前言: 1. 搭建我的世界服务器 1.1 服务器安装java环境 1.2 配置服务端 2. 测试局域网联机 3. 公网远程联机 3.1 安…

数字IC前端学习笔记:时钟切换电路

相关阅读 数字IC前端https://blog.csdn.net/weixin_45791458/category_12173698.html?spm1001.2014.3001.5482 有些时候我们需要在系统运行时切换系统时钟,最简单的方法就是使用一个MUX(数据选择器)选择输出的时钟,如下代码片所…

【C++】​——多态性与模板(其一)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

Kotlin学习——hello kotlin 函数function 变量 类 + 泛型 + 继承

Kotlin 是一门现代但已成熟的编程语言,旨在让开发人员更幸福快乐。 它简洁、安全、可与 Java 及其他语言互操作,并提供了多种方式在多个平台间复用代码,以实现高效编程。 https://play.kotlinlang.org/byExample/01_introduction/02_Functio…

MySQL数据库入门到大牛_基础_09_子查询(子查询分类方法;单行子查询,多行子查询;相关子查询)

前面的第三章到第八章中,我们讲的是查询,查询的基本结构已经进行了介绍,聚合函数学习完后已经介绍了查询语句的完整的执行流程。 子查询指一个查询语句嵌套在另一个查询语句内部的查询,这个特性从MySQL 4.1开始引入。本章也是查询…

【开源】基于JAVA的校园二手交易系统

项目编号: S 009 ,文末获取源码。 \color{red}{项目编号:S009,文末获取源码。} 项目编号:S009,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 二手商品档案管理模…

卫生纸标准及鉴别

一、标准分类及含义 (1)标准分类 ①GB——国家强制标准(即最低标准) ②GB/T——国家推荐标准 ③QB——轻工行业标准 ④QB/T——轻工行业推荐标准 (2)含义 ①国家标准是指国家标准化主管机构批准发布的。…