DistilPose: Tokenized Pose Regression with Heatmap Distillation

论文名字:DistilPose:使用热图蒸馏的令牌化姿势回归

论文地址:2303.02455.pdf (arxiv.org)icon-default.png?t=N4HBhttps://arxiv.org/pdf/2303.02455.pdf项目地址:yshMars/DistilPose: Implementation for: DistilPose: Tokenized Pose Regression with Heatmap Distillation (CVPR2023) (github.com)icon-default.png?t=N4HBhttps://github.com/yshMars/DistilPose

摘要

       在人体姿态估计领域,基于回归的方法在速度方面占主导地位,而基于热图的方法在性能方面遥遥领先。如何利用这两种方案仍然是一个具有挑战性的问题。在本文中,我们提出了一种新的人体姿态估计框架,称为DistilPose,它弥合了基于热图和基于回归的方法之间的差距。具体来说,DistilPose通过令牌提取编码器(TDE)和模拟热图,最大限度地将知识从教师模型(基于热图)转移到学生模型(基于回归)。TDE通过引入标记化来对齐基于热图和基于回归的模型的特征空间,而模拟热图将教师热图的明确指导(分布和置信度)转移到学生模型中。大量的实验表明,提出的DistilPose可以显着提高基于回归模型的性能,同时保持效率.具体而言,在MSCOCO验证数据集上,DistilPose-S获得了71.6%的mAP,参数为5.36M,GFLOPs为2.38,FPS为40.2,节省了12.95倍,7.16倍的计算成本,比其教师模型快4.9倍,性能仅下降0.9点。此外,DistilPose-L在MSCOCO验证数据集上获得了74.4%的mAP,在主要的基于回归的模型中实现了新的最新技术水平。

1、介绍

        2D人体姿势估计(HPE)旨在检测给定图像中人体的解剖关节以估计姿势。HPE通常用作参与许多下游任务的预处理模块,例如活动识别、人体运动分析、运动捕获等。以往对2D HPE的研究主要分为两大主流:基于热图和基于回归的方法。基于回归的方法在速度上具有显著优势,并且非常适合于移动的设备。然而,回归模型精度不足会影响下游任务的性能。相比之下,基于热图的方法可以通过估计可能性热图来明确学习空间信息,从而实现HPE任务的高准确性。但似然热图的估计需要非常高的计算成本,这导致缓慢的预处理操作。因此,如何利用基于热图和基于回归的方法两者的优点仍然是一个具有挑战性的问题。

        解决上述问题的一种可能方法是将知识从基于热图的模型转移到基于回归的模型。然而,由于回归模型和热图模型的输出空间不同(前者是向量,后者是热图),在热图和向量之间传递知识面临以下两个问题:(1)回归头通常将主干输出的特征图矢量化。同时,通过全局平均池化(GAP)或平坦化操作会丢失大量的空间信息。因此,以前的工作未能将热图知识完全转移到回归模型。(2)与坐标回归相比,热图自然包含形状、位置和梯度信息。由于缺乏对这些信息的明确指导,基于回归的方法比基于热图的方法更难以学习特征和关键点之间的隐式关系。

        在本文中,我们提出了一种新的人体姿态估计框架,DistilPose,它学习从教师模型到基于回归的学生模型的热图为基础的知识。DistilPose主要包括以下两部分:

        (1)知识传递模块称为令牌蒸馏编码器(TDE)的设计是通过引入令牌化来对齐的热图模型和回归模型的特征空间,其中包括一系列的变换编码器。TDE可以捕获关键点和特征图/其他关键点之间的关系。

        (2)我们建议模拟热图,以获得基于回归的学生显式的热图信息。得到的模拟热图提供了两个明确的指导方针,包括每个关键点的2D分布和置信度。注意,所提出的模拟热图可以插入任何基于热图的方法和基于回归的方法之间,以将热图知识转移到回归模型。

        DistilPose以更少的计算成本实现了与基于热图的模型相当的性能,并超越了最先进的(SOTA)回归方法。具体而言,在MSCOCO验证数据集上,DistilPose-S实现了71.6%的mAP,参数为5.36M,GFLOP和40.3FPS。DistilPose-L在21.27M参数和10.33 GFLOPs的情况下实现了74.4%的mAP,在性能、参数和计算成本方面都优于其基于热图的教师模型。总之,DistilPose在实现有竞争力的精度的同时显著减少了计算量,带来了基于热图和基于回归的方案的优势。如图1所示,DistilPose的性能优于以前的基于SOTA回归的方法,例如RLE 和PRTR ,参数和GFLOP更少。

图1.SOTA方法和建议的DistilPose在MSCOCO瓦尔数据集之间的比较。左上角的红色圆圈表示蒸馏姿势。DistilPose在精度(AP)、参数和计算成本(GFLOPs)方面优于SOTA模型。

         我们的贡献概述如下:

  • 我们提出了一种新的人体姿态估计框架,DistilPose,这是第一个在基于热图和基于回归的模型之间无损地传递知识的工作。
  • 我们引入了一种新的令牌提取编码器(TDE),以利用基于热图和基于回归的模型。利用所提出的TDE,可以以标记化的方式促进热图的输出空间与坐标向量之间差距。
  • 我们提出模拟热图来对显式热图信息进行建模,包括2D关键点分布和关键点置信度。借助模拟热图,我们可以将基于回归的HPE任务转换为更直接的学习任务,充分利用本地信息。模拟热图可以应用于任何基于热图和基于回归的模型,以将热图知识转移到回归模型。

2、相关工作

2.1、 基于热图和基于回归的HPE

        基于热图的姿态估计在性能方面主导了人类姿态估计的领域。一些研究构建了新的网络来提取更好的特征。而其他人建立在试图减轻量化误差的优化视角上。综上所述,基于热图的方法充分利用了特征图的空间信息,获得了较好的性能。然而,效率仍然是基于热图的方法的某些缺点。对于基于回归的方法,Deeppose 首次被提出来直接回归关节坐标。CenterNet 和DirectPose被提出来在单阶段对象检测框架中完成多人人体姿态估计,该框架直接回归关节坐标而不是边界框。SPM引入了根关节来指示不同的人实例,并引入了分层的根人体关节表示,以更好地预测一些关节的长程位移。最近,RLE引入了流模型来捕获底层输出分布,并获得了令人满意的性能。虽然这些方法在寻找关键点的隐式关系方面做了很大的努力,但由于缺乏热图的显式指导,其性能改进仍然不够。

2.2、HPE中的变压器

        Transformer在中提出,并在自然语言处理(NLP)中取得了巨大成功。最近的视觉任务研究使用Transformer作为CNN的替代主干,因为它能够捕获全局依赖关系。在2D人体姿态估计的领域中,已经进行了许多努力以并入变压器。TFPose首先以基于回归的方式将Transformer引入姿态估计框架。PRTR 提出了一种使用级联变压器的两阶段和端到端回归框架,并在基于回归的方法中实现了SOTA性能。TransPose和TokenPose引入了Transformer,用于基于热图的人体姿势估计,实现了相当的性能,同时更轻便。在我们的工作中,我们引入了变压器模块,以帮助寻找关键点之间的潜在关系。

2.3、HPE中的蒸馏

        知识蒸馏(KD)其目的是将教师学到的知识转移到学生模型中。在2D人体姿势估计中,FPD 首先基于沙漏网络经典地使用知识蒸馏。OKDHP介绍了一种在线姿态蒸馏方法,该方法以一个阶段的方式蒸馏姿态结构知识。ViTPose还实现了从大到小的模型知识蒸馏,以证明其知识可转移性。然而,所有以前的蒸馏工作对人体姿态估计忽略了基于热图和基于回归的方法之间的知识转移。在这项工作中,我们第一次提出了一个热图回归蒸馏框架,以从这两个方案中获益。

3、方法

        在本节中,我们提出了一种基于蒸馏的人体姿态估计框架DistilPose,其总体框架如图2所示。在我们提出的DistilPose中,教师是基于热图的模型,而学生是基于回归的模型。我们在训练期间将教师模型的热图知识转移到学生模型,并且在推理阶段仅使用更快的学生模型。DistilPose主要由两个模块组成:令牌提取编码器TDE和模拟热图SH。

图2.国际货币基金组织DistilPose的整体架构。在培训过程中,训练有素的固定热图教师提供其知识,以帮助培训基于回归的学生与TDE和模拟热图。

3.1、Token-distilling Encoder【令牌提取编码器】

        以前的工作已经尝试在基于回归的方法中引入热图模型的优点,例如热图预训练,辅助热图损失等。然而,由于输出空间的未对准,预测头不能被对准。这就是为什么这些工作只能在主干上进行知识转移,这给模型带来了有限的性能改进。如图3(a)所示,热图辅助模型过于关注人体以外的区域。因此,我们提出了一个令牌提取编码器(TDE)对齐教师和学生的输出空间,通过引入令牌化。通过引入对齐的标记化特征,将热图知识无损地转移到学生模型。因此,学生模型学习更专注于人体本身的信息,如图3(a)所示。具体来说,对于输入图像I,我们根据pw\times ph的大小将其划分为若干块以形成视觉令牌。接下来,我们添加K个空节点作为keypointstoken,其与视觉令牌连接并发送到TDE的几个变压器编码器层。受LVViT 的启发,我们将学生和教师模型之间的视觉标记和关键点标记对齐,以获得教师模型的精细注意力矩阵。如图3(B)所示,TDE中的注意力矩阵可以学习关键点标记与对应位置的视觉标记之间的关系。至于性能改进,TDE使我们的学生模型能够实现比热图辅助训练更高的性能(图中的7.8% ↑)。

图3.骨干特征图和注意力矩阵的可视化。(a)第一行分别表示直接训练、热图辅助训练和我们提出的蒸馏训练(仅蒸馏TDE和蒸馏TDE和模拟热图两者)的主干特征图。而第二行表示具有不同骨架的基于热图的方法TokenPose的骨架特征图。在这里可以看出,与仅提取TDE的模型相比,DistilPose的完整结构更关注人体(前者的特征图背景更暗)。(b)这些是“右脚踝”(红点)的关键点标记和视觉标记之间的注意力矩阵。

 待续......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/21683.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

五、c++学习(加餐1:汇编基础学习)

经过前面几节课的学习,我们在一些地方都会使用汇编来分析,我们学习汇编,只是学习一些基础,主要是在我们需要深入分析语法的时候,使用汇编分析,这样会让我们更熟悉c编译器和语法。 从这节课开始&#xff0c…

SQL删除重复的记录(只保留一条)-窗口函数row_number()

文章目录 一、关于mysql表中数据重复二、聚合函数min(id)not in二、窗口函数row_number()四、补充:常见的窗口函数 一、关于mysql表中数据重复 关于删除mysql表中重复数据问题,本文中给到两种办法:聚合函数、窗口函数row_number()的方法。 (注…

UML类图画法及其关系

UML类图画法及其关系 本文主要是介绍 UML类图画法及其关系,方便今后温习!!! 一、类之间的关系汇总 泛化(Generalization)实现(Realization)关联(Association&#xff…

算法时间复杂度

参考视频&#xff1a;https://www.bilibili.com/video/BV14j411f7DJ 目录 1.常数阶O(1) 2.对数阶O(IogN) 3.线性阶O(n) 4.线性对数阶O(nlogN) 5.平方阶O(n^2) 6.立方阶O(n^3) 7.K次方阶O(n^k) 8.指数阶(2^n) 9.阶乘O(n!) 两层for循环 for (int i 1; i <…

Linux基本指令实现4及热键指令详解

目录 Linux热键补充&#xff1a; 1.bc指令&#xff1a; Tab键的智能补充&#xff1a; ctrlc键&#xff1a; uname指令&#xff1a; lscpu指令&#xff1a; lsmem指令&#xff1a; df -h指令&#xff1a; 关机指令&#xff1a; 扩展指令&#xff1a; Linux热键补充&#…

【Linux】驱动学习,先啃框架

目录 前言&#xff1a; 一、驱动设计 &#xff08;1&#xff09;面向对象&#xff1a; &#xff08;2&#xff09;分层&#xff1a; &#xff08;3&#xff09;分离&#xff1a; 二、驱动框架 &#xff08;1&#xff09;传统框架 &#xff08;2&#xff09;总线设备驱…

STM32单片机蓝牙APP自动伸缩遮阳棚雨伞雨滴角度温度光强控制

实践制作DIY- GC0130-蓝牙APP自动伸缩遮阳棚 一、功能说明&#xff1a; 基于STM32单片机设计-蓝牙APP自动伸缩遮阳棚 二、功能介绍&#xff1a; 基于STM32F103C系列&#xff0c;LCD1602显示器&#xff0c;光敏电阻采集光强&#xff0c;雨滴传感器&#xff0c;ULN2003控制步进…

chatgpt赋能Python-pythonddos

PythonDDoS&#xff1a;了解一下这种利用Python语言的攻击方式 PythonDDoS&#xff08;Python分布式拒绝服务攻击&#xff09;是一种利用Python语言编写的DDoS攻击技术&#xff0c;它利用了Python的强大处理能力&#xff0c;可以构建高效的攻击工具&#xff0c;让攻击者能够轻…

Linux基本指令3

目录 一.基本常用指令 指令1&#xff1a;find命令&#xff1a; 指令2&#xff1a;which命令&#xff1a; 指令3&#xff1a;alias命令&#xff1a; 指令4&#xff1a;whereis which&#xff0c;find&#xff0c;whereis这三个搜索命令的区别&#xff1a; 指令5&#xff…

扫眼球换“世界币” ChatGPT之父“剥削穷人”?

ChatGPT火爆全球后&#xff0c; 山姆奥特曼&#xff08;Sam Altman&#xff09;创立的加密项目Worldcoin&#xff08;世界币&#xff09;重回大众视野。这个项目诞生于2年前。那时&#xff0c;埋头迭代GPT模型的OpenAI还未如此知名&#xff0c;该公司的CEO 山姆奥特曼也位列科技…

【中医推荐】33部中医书籍,中医医书精品(在线免费阅读),值得珍藏的国粹,涵盖中药、针灸、推拿、按摩、拔罐、气功,食疗等诸多领域

中医诞生于原始社会&#xff0c;春秋战国时期中医理论已基本形成&#xff0c;之后历代均有总结发展。除此之外对汉字文化圈国家影响深远&#xff0c;如日本医学、韩国韩医学、朝鲜高丽医学、越南东医学等都是以中医为基础发展起来的。 中医承载着中国古代人民同疾病作斗争的经…

因为一个Bug,差点损失了100w

大家好&#xff0c;我是洋子 最近在做单接口的性能测试比较多&#xff0c;在压测过程发现了一个比较有意思的问题&#xff0c;拿出来和大家分享一下 背景是这样的&#xff0c;最近在搞线上的抽奖活动&#xff0c;压测的对象是一个抽奖接口&#xff0c;主要的逻辑见程序的流程…

Vmware Linux磁盘空间扩容

Linux磁盘空间扩容 VMware虚拟机中配置&#xff08;1&#xff09;进入虚拟机设置界面&#xff0c;选择扩展磁盘容量。&#xff08;2&#xff09; 本次是在原来30G的基础上扩展为50G。 Linux中设置&#xff08;1&#xff09; 可以看出sda3是根分区&#xff0c;下面按照博客提示&…

KVM(二)命令行新建虚拟机

目录 一、准备工作 二、新建虚拟机 2.1 文件准备 2.2 正式安装 2.3 时区设置 2.4 安装设置 2.5 设置root用户密码 2.6 vm2安装完成 三、进入虚拟机vm2 四、网络设置 五、参考链接 若还未部署KVM&#xff0c;请参考第一节&#xff1a; KVM&#xff08;一&#xff09;…

python数据可视化显示(附代码)

Python是一种非常流行的编程语言&#xff0c;具有广泛的应用领域&#xff0c;包括数据可视化。在数据可视化中&#xff0c;Python提供了多种工具来帮助用户创建各种类型的图表、图形和可视化效果。本文将介绍Python数据可视化的基本概念、工具和技术&#xff0c;并提供代码示例…

(转载)MATLAB智能算法30个案例分析(1)——遗传算法工具箱

以下内容大部分来源于《MATLAB智能算法30个案例分析》&#xff0c;仅为学习交流所用。 1理论基础 1.1遗传算法概述 遗传算法(genetic algorithm,GA)是一种进化算法,其基本原理是仿效生物界中的“物竞天择、适者生存”的演化法则。遗传算法是把问题参数编码为染色体,再利用迭代…

论文阅读_语音合成_Spear-TTS

论文信息 number headings: auto, first-level 2, max 4, _.1.1 name_en: Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision name_ch: 说话、阅读和提示&#xff1a;少量监督实现高保真文本转语音 paper_addr: http://arxiv.org/abs/2302.0354…

windows11下系统睡眠状态被UpdateOrchestrator唤醒的解决方案

windows11下系统睡眠状态被UpdateOrchestrator唤醒的解决方案 一、问题排查二、问题解决 一、问题排查 最近win11更新后发现会偶尔在睡眠状态下唤醒&#xff0c;CMD中输入powercfg -lastwake命令可以查看唤醒源程序 这里显示唤醒是按下了电源按钮&#xff0c;符合我此次唤醒操…

验证知识点总结

1、常用总线对比 AMBA (Advanced Microcontroller Bus Architecture) 高级处理器总线架构 AHB (Advanced High-performance Bus) 高级高性能总线 ASB (Advanced System Bus) 高级系统总线 APB (Advanced Peripheral Bus) 高级外围总线 AXI (Advanced eXtensible Interface) 高…

系统分析师(一)软考简介

目录 1.证书简介2.考试简介3.考试报名4.各地考试机构5.考试要求6.考试教程用书 考试时间&#xff1a; 每年5月的最后一个周六 1.证书简介 ​ 软考全称是计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试&#xff0c;是由国家人力资源和社会保障部、工业和信息化部…