Simba:Mamba 增强了 U-ShiftGCN,用于视频中的骨骼动作识别

Simba:Mamba 增强了 U-ShiftGCN,用于视频中的骨骼动作识别

  • 摘要
  • Introduction
  • Related Works
  • Methodology
    • Down-sampling ShiftGCN Encoder
  • Experiments & Results
    • Datasets

Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos

摘要

骨架动作识别(SAR)涉及使用骨骼关节坐标及其互联来识别人类动作。尽管已经尝试将普通的Transformer应用于这项任务,但它们与基于图卷积网络(GCNs)的当前领先方法相比仍有不足,这是由于缺乏结构先验。

最近,一种新颖的选择性状态空间模型Mamba作为Transformer中注意力机制的强有力替代品出现,它有效地建模了长序列。在这项工作中,据作者所知,作者首次提出了一个结合了Mamba的SAR框架。

作者模型的每个基本块采用了新颖的U-ShiftGCN架构,以Mamba为其核心组件。U-ShiftGCN的编码器部分设计用于从骨骼数据中提取空间特征,使用下采样的普通Shift S-GCN块。这些空间特征随后通过Mamba块进行中间时间建模,然后进入包含普通上采样Shift S-GCN块的编码器部分。

此外,在每个基本块的输出之前,还采用了Shift T-GCN(ShiftTCN)时间建模单元来细化时间表示。这种下采样空间、中间时间、上采样空间和最终时间子单元的特定集成对于骨架动作识别产生了有希望的结果。

作者将这个模型命名为Simba,在三个知名的骨架动作识别基准数据集上均取得了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。

有趣的是,仅U-ShiftGCN(没有中间Mamba块的Simba)本身就能表现相当出色,并且超过了作者的 Baseline 。

Introduction

基于骨骼的人类动作识别因其计算效率以及能够抵抗环境波动和不同摄像机视角差异的能力而越来越受到关注。基于骨骼的动作识别的一个显著优势在于,通过像Kinect 这样的传感器或者可靠的姿态估计算法 获取身体关键点相对容易。因此,这使得姿态成为一种相对于传统的RGB、光流或基于深度的方法更为可靠的模态。

近年来,图卷积网络(GCNs)在建模非欧几里得数据方面得到了广泛应用。Yan等人是最早将关节及其相互连接视为图结构中的节点和边的人之一。他们在预定义的图上使用图卷积网络(GCN)来分析关节间的交互。从那时起,GCNs已成为骨骼基础动作识别任务的主导选择。包括多种模态(例如,关节、骨、关节速度和骨速度)或如MV-IGNet 中看到的多视图图表示的GCN的几种变体已被用于解决捕捉节点间关系的挑战。此外,基于图 Transformer 的方法如ST-TR 和DSTA 也已被用于随时间进行的骨骼动作识别。

然而,最近在建模长序列方面出现了重大范式转变。Mamba ,一种选择性的结构化状态空间序列模型(S6),在语言领域和基因组学中高效地建模长时序数据方面表现出了卓越的能力。

这自然引出了几个问题:

Mamba能否在封装图关系方面显示其有效性?
它是否可以进一步利用来高效地建模视频中图快照的时间序列?
在本研究中,据作者所知,作者首次引入了将Mamba应用于时间图数据的骨骼动作识别框架。作者新颖的Simba模型中的每个组成模块都采用了U-ShiftGCN架构,其中Mamba是其基本核心。U-ShiftGCN的编码器部分设计为使用降采样vanilla Shift S-GCN 块从骨骼数据中提取丰富的空间特征。然后,这些空间特征通过Mamba块进行中间时间建模,再进入由vanilla Upsampling Shift S-GCN块组成的编码器部分。

此外,在每个组成块的输出之前部署了Shift T-GCN(ShiftTCN) 时间建模单元以增强时间表示。有趣的是,U-ShiftGCN架构本身尚未被探索过,并且比作者的 Baseline 取得了更好的性能。这种融合了降采样空间Shift S-GCN、中间时间Mamba和升采样空间Shift S-GCN以及ShiftTCN最终时间聚合的方法为骨骼动作识别带来了有希望的结果,作者的实验结果证实了这一点。

值得注意的是,作者的模型在三个著名基准骨骼动作识别数据集上均达到了最先进的表现:NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA。

作者的主要贡献可以总结如下:

作者据作者所知首次提出了一个将Mamba用于图数据时间序列建模的骨骼动作识别(SAR)框架。
作者的模型Simba在三个流行基准数据集上的SAR任务上超过了之前的最先进水平。
值得注意的是,作者Simba框架的衍生物U-ShiftGCN本身就是一个全新的探索,显示出其能够超越 Baseline 性能。
本文的后续部分结构如下:在第2部分,作者深入研究与骨骼动作识别(SAR)相关的现有技术,并强调Mamba在高效促进长序列建模方面的重要性。作者提出的方法在第3部分进行详细阐述。第4部分展示了关于作者提出方法的实证发现,并与最先进(SOTA)方法进行了详尽的对比。最后,在第5部分,作者讨论了重要的观察结果,并描述了在作者提出研究范围内未来探索的未来方向。

Related Works

在本节中,作者概述了与作者的研究关于骨架表示相关的主要文献,以及在这些方向上进展显著的高效建模长序列数据的工作。

Skeleton-based action recognition
在以往的研究中,循环神经网络(RNNs) 和卷积神经网络(CNNs)[14, 22] 常被用于基于骨架的人类动作识别任务。然而,这些方法往往忽视了关节之间的空间相互作用。因此,图卷积网络(GCNs)在这一领域的突出性增加了,因为它们通过图建模巧妙地捕捉了空间配置。

基于GCN的方法 以Yan等人为首的GCN方法的开创性工作,他们最初使用GCNs[15]来捕捉关节关联,并强调了它们在动作识别中的有效性。随后,为了应对骨架动作识别(SAR)的挑战,引入了各种GCN的改编版本,如ShiftGCN[2]和ShiftGCN++[3]。与依赖繁重的常规图卷积不同,ShiftGCN集成了新颖的移位图操作和轻量级的点卷积。这些操作为空间和时间图提供了灵活的感受野。其后续版本ShiftGCN++是一种特别计算效率的模型,专为计算能力受限的低功耗和低成本设备设计。

基于Transformer的方法 最近,基于Transformer的策略作为一种替代方法出现,主要关注于管理额外的时间维度。例如,提出了一种双流模型,结合了空间和时间自注意力机制,分别捕捉帧内和帧间的关联。相比之下,DSTA-Net[30]使用了一种在空间和时间维度之间交替建模的Transformer。然而,这些方法并没有达到与最先进的基于GCN的方法相当的效果。这种性能上的不足归因于它们对传统Transformer设计的坚持,这些设计没有考虑到骨架数据的独特特性。

Long Sequence Modeling
自注意力机制的有效性归功于其在上下文窗口内的密集信息路由,这使得它能够模拟复杂的数据模式。然而,这一特性固有地存在限制:无法在有限窗口之外建模,并且与窗口长度成二次方增加的计算复杂度。近来,结构化状态空间序列模型(SSMs) 作为一类有前景的序列建模架构而出现。这些模型融合了循环神经网络(RNNs)和卷积神经网络(CNNs)的元素,从经典状态空间模型 [13] 中汲取灵感。它们展现出卓越的计算效率,在序列长度上呈线性或近线性扩展,并且可以作为循环或卷积操作实现。SSMs 作为独立的序列转换,可以无缝地整合到端到端的神经网络架构中。

H3[8] 利用 S4 扩展了这种循环,提出了一种具有两个门控连接的 SSM 的架构。此外,H3 还在主 SSM 层之前引入了一种标准的局部卷积,称为移位-SSM。同时,Hyena 采用了与 H3 类似的架构,但用由多层感知机(MLP) 参数化的全局卷积替换了 S4 层。在此基础上,[9] 引入了一种称为 选择性结构化状态空间序列模型(S6) 的新型模型类别,作为序列建模中与 Transformer 竞争的替代品。这一发展激发了作者将 Mamba 集成到骨架动作识别领域的兴趣,这需要大量的时间建模。

Methodology

在本节中,作者将熟悉将在整篇论文中使用的术语,并详细阐述作者提出的Simba模块的每个组成部分。

在这里插入图片描述

Down-sampling ShiftGCN Encoder

下采样ShiftGCN编码器包含一系列三个Shift S-GCN[2]块。在使用之前,输入张量经过初始Shift S-GCN操作,扩大了即将进入ShiftGCN编码器的张量的通道维度。这种增强使得编码器中的每个Shift S-GCN可以进行后续的2倍下采样(最后一个除外)。
ShiftGCN编码器的核心目标是在提取骨架中节点嵌入的复杂空间细节的同时,减少其通道维度。这种策略在准确性和计算效率之间实现了平衡,因为这一阶段的输出将被送入Mamba块,其中最佳的嵌入维度 ( (D_P \in \mathbb{R}^{V \times P}) ) 是必不可少的。这种维度确保了有效信息封装,同时不损害计算效率。从数学上讲,这一阶段可以用一个函数 ShiftGCNdoun (( a’ )) 表示,其中 ( a’ ) 是在进入当前块之前通过初始Shift S-GCN得到的张量。
在这里插入图片描述
在这一点上,a ∈ RN×DxTxV,其中N是有效的批处理大小,D是通道维度,T是时间维度,V对应于图中的顶点数量。作者对这个张量讲行置换和展平,得到形状为RNxTx(V*D)的输出。这随后被送入中间mamba块。

Experiments & Results

在本节中,作者首先将Simba架构与目前基于骨架的人类动作识别基准测试中的领先方法进行对比,以展示作者模型的卓越有效性。随后,作者进行消融研究,以更深入地探讨作者提出的方法,以获得更全面的理解。

Datasets

作者评估了作者提出的Simba在三个广泛认可的数据集上的有效性:NTU-RGB+D ,NTU-RGB+D 120 ,以及Northwestern-UCLA,以下是这些数据集的简要描述:

NTU-RGB+D 数据集是骨骼基础的人类动作识别的重要基准。它包含56,880个骨骼动作序列,每个序列由一个或两个人执行。这些序列由三个Microsoft Kinect-V2深度传感器同时捕捉,这些传感器高度相同但水平视角不同。

评估采用两个不同的基准:跨主体(X-Sub)和跨视角(X-View)设置。在X-Sub设置中,训练和测试数据集分别来自两个各有20个主体的独立队列。在X-View场景中,训练集由37,920个由摄像头视角2和3捕获的样本组成,而测试集由18,960个由摄像头视角1记录的序列组成。

NTU-RGB+D 120 数据集通过包括57,367个骨骼序列和60个补充动作类别来扩展NTU-RGB+D数据集。它是目前最大的带有3D关节标注的人类动作识别数据集,包含32个设置,每个设置代表不同的地点和背景。作者建议的两个基准评估包括跨主体(X-Sub)和跨设置(X-Setup)。

Northwestern-UCLA 数据集由三个Kinect传感器从不同视角捕捉,包含1,494个视频序列,跨越10个动作类别。

Implementation details
NTU RGB+D 60和NTU RGB+D 120. 作者的模型Simba和U-ShiftGCN进行了90个周期的训练,相较于之前研究中的典型140个周期,作者的模型更早地达到了收敛。学习率从0.025开始,在第75和85个周期时下降0.1。训练和测试批次分别包含64和512的大小。窗口大小(T),表示每个视频中采样的帧数,在数据预处理中设置为64,遵循中的方法。

Northwestern-UCLA. 训练和测试的批次大小分别设置为16和64。使用的窗口大小为52。作者的模型训练了400个周期以最大化其潜力,并且作者还遵循了[51]中概述的预处理策略。

对于NTU RGB+D 60和NTU RGB+D 120数据集,作者应用了0.0001的权重衰减,与之前的工作保持一致,而对于NW-UCLA,权重衰减设置为0.0004。在配置mamba块时,作者将嵌入维度(d-model)固定为500,与基于ViT-B[5]启发的 Baseline mamba架构紧密对齐,后者的嵌入维度为768。

为了确保一致性,作者根据NTU数据集和NW-UCLA数据集的骨骼节点数(分别为25和20)调整mamba相邻的Shift-GCN块的通道维度为20和25。作者还按照将模型的深度设置为(10)。有关实现的更多细节可以在附录材料部分找到。

Comparison with state-of-the-art
遵循该领域最近的进展,作者采用了多流融合方法。具体来说,作者整合了四个流,每个流针对不同的模态:关节、骨骼、关节运动和骨骼运动。关节模态包括原始骨架坐标,而骨骼模态捕捉空间坐标差分。另一方面,关节运动和骨骼运动模态分别关注关节和骨骼模态内的时间差分。为了整合这些流的信息,作者从每个流聚合softmax分数以得到融合分数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/555991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过vue完成表格数据的渲染展示和vue的生命周期及小结

案例 通过vue完成表格数据的渲染展示 把视图区展示的数据 死数据替换掉 从vue的数据模型中读取 展示在视图区 vue中的数据 模型是js中的自定义类型 形成的数组 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">&l…

NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解

NL2SQL进阶系列(1)&#xff1a;DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解 NL2SQL基础系列(1)&#xff1a;业界顶尖排行榜、权威测评数据集及LLM大模型&#xff08;Spider vs BIRD&#xff09;全面对比优劣分析[Text2SQL、Text2DSL] NL2SQL基础系列(2)&#xff1a;主流…

2024华中杯C题平面曲线重建思路

华中杯数学建模思路 光纤传感技术是伴随着光纤及光通信技术发展起来的一种新型传感器技 术。它是以光波为传感信号、光纤为传输载体来感知外界环境中的信号&#xff0c;其基本原理是当外界环境参数发生变化时&#xff0c;会引起光纤传感器中光波参量&#xff08;如波长、相位、…

IP-guard WebServer 权限绕过漏洞复现(QVD-2024-14103)

0x01 免责声明 请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;作者不为此承担任何责任。工具来自网络&#xff0c;安全性自测&#xff0c;如有侵权请联系删…

全球排名前十的搜索引擎,你猜百度排名在第几位?bing稳居二位!

通常情况下&#xff0c;营销人员在争夺其在线业务的流量时会非常关注Google&#xff0c;无论是通过他们的网站&#xff0c;博客文章还是其他形式的内容。考虑到谷歌无疑是最受欢迎的搜索引擎&#xff0c;拥有超过85%的搜索市场份额&#xff0c;这是有道理的。 但这种受欢迎程度…

【Qt】Qt Hello World 程序

文章目录 1、Qt Hello World 程序1.1 使用按钮实现1.1.1 使用可视化方式实现 1.1.2 纯代码方式实现 label创建堆&#xff08;内存泄漏&#xff09;或者栈问题Qt基础类&#xff08;Qstring、Qvector、Qlist&#xff09;乱码问题零散知识 1、Qt Hello World 程序 1.1 使用按钮实…

【代码随想录】【动态规划】day48:打家劫舍

打家劫舍1 def rob(self, nums):""":type nums: List[int]:rtype: int"""# 分为两个情况&#xff0c;偷还是不偷&#xff0c;# dp[i]为考虑到第i个房间时的最大值if len(nums) 0: # 如果没有房屋&#xff0c;返回0return 0if len(nums) 1: #…

QoS流量整形

流量整形是一种带宽技术形式&#xff0c;它延迟某些类型的网络数据包的流动&#xff0c;以确保更高优先级应用程序的网络性能&#xff0c;它主要涉及调整数据传输速率&#xff0c;以确保网络资源以最佳容量得到利用。流量整形的目的是防止网络拥塞并提高网络的整体性能&#xf…

穿越物联网的迷雾:深入理解MQTT协议

目录标题 1、MQTT简介核心特性 2、MQTT的工作原理通信过程 3、MQTT的消息质量&#xff08;QoS&#xff09;4、安全机制5、实践应用环境准备示例项目发布者客户端订阅者客户端 6、最佳实践7、结论8、参考资料 在物联网&#xff08;IoT&#xff09;的海洋中&#xff0c;数据像水流…

【深度学习】Attention、Self-Attention、Multi-Head Attention

一、Attention 在CV领域&#xff0c;注意力机制通常分为通道注意力和空间注意力或者两者结合。 一张图像经backbone得到的特征通常包括多个通道&#xff0c;每个通道是一个像素矩阵&#xff0c;每个通道对任务的贡献不尽相同&#xff0c;单个通道的特征图中每个像素对任务的贡…

Ansible在macOS上的安装部署

一、安装 Ansible&#xff08;使用 Homebrew&#xff09; 安装 Homebrew&#xff08;如果尚未安装&#xff09;&#xff1a; /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"使用 Homebrew 安装 Ansible&#x…

Hive进阶(1)----HDFS写入数据流程(赋图助君理解)

HDFS写入数据流程 1.理论流程描述 HDFS&#xff08;Hadoop分布式文件系统&#xff09;的数据写入流程是一个复杂但高效的过程&#xff0c;可以分为以下8个步骤&#xff1a; 1、client(客户端)发起文件上传请求&#xff1b; 2、通过发送RPC请求与NameNode建立通讯。NameNode…

从100美元到1亿美元,探究传奇交易员GCR的交易心得及其持仓

有史以来最“伟大”的交易员GCR终于回归。2022年&#xff0c;GCR的资金从100美元涨至1亿美元&#xff0c;通过做空LUNA成为有史以来最赚钱的交易员。 GCR又名Giant Cassock Revival&#xff0c;或许是从FTX和Luna崩盘事件中获利最多的人&#xff0c;其净资产达到1亿美元后便“…

lv_micropython for ESP32/S2/S3/C3

由于官方的lv_micropython编译ESP32S3/S2/C3会报错&#xff0c;因为这些芯片的esp-idf底层重写了接口&#xff0c;参照网友提供的方法修改lv_bindings/driver/esp32里的文件&#xff0c;解决编译错误。 问题列举&#xff1a;Issues lvgl/lv_binding_micropython GitHub 一…

视觉信息保真度VIF算法详细介绍

来源 算法核心思想来源该篇论文A VISUAL INFORMATION FIDELITY APPROACH TO VIDEO QUALITY ASSESSMENT;是2005年的一篇高引用文章; 是一种全参考的视频图像评价算法;在奈飞开源的视频质量评价工具vmaf中将其作为一个判断维度,具体关于vmaf介绍可以参考视频质量评价工具vmaf…

安全开发实战(2)---域名反查IP

目录 安全开发专栏 前言 域名与ip的关系 域名反查ip的作用 1.2.1 One 1.2.2 Two 1.2.3 批量监测 ​总结 安全开发专栏 安全开发实战http://t.csdnimg.cn/25N7H 这步是比较关键的一步,一般进行cdn监测后,获取到真实ip地址后,或是域名时,然后进行域名反查IP地址,进行进…

机器学习笔记 - 使用 OpenCV 的结构化森林进行边缘检测

一、简述 边缘检测是计算机视觉领域中一项非常重要的任务。这是许多纯计算机视觉任务(例如轮廓检测)的第一步。即使涉及深度学习,较深层也首先学习识别边缘,然后再学习图像的复杂特征。所以,我们可以说边缘检测在计算机视觉领域非常重要。拥有良好且高效的图像边缘检测算法…

微信小程序实现美食检索功能

1、打开浏览器搜索&#xff1a;腾讯位置服务 2、注册一个账号&#xff0c;有账号的直接登陆就行 3、注册登陆成功后&#xff0c;点击控制台 4、进入控制台后点击我的应用——>创建应用 5、添加key,注意看注释 6、key添加成功后&#xff0c;开始分配额度&#xff08;配额&…

复合机器人在磁钢上下料中的应用及其优势分析

复合机器人是一种集成了移动机器人和工业机器人功能的设备&#xff0c;其独特之处在于拥有“手、脚、眼、脑”的综合能力&#xff0c;从而实现了更高的灵活性和操作效率。在磁钢上下料的应用场景中&#xff0c;复合机器人能够发挥显著的优势。 首先&#xff0c;复合机器人可以根…

【 书生·浦语大模型实战营】作业(五):LMDeploy 量化部署

【 书生浦语大模型实战营】作业&#xff08;五&#xff09;&#xff1a;LMDeploy 量化部署 &#x1f389;AI学习星球推荐&#xff1a; GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系…
最新文章