1、Efficient Video Object Segmentation via Modulated Cross-Attention Memory
中文标题:通过调制交叉注意力记忆进行高效视频对象分割
简介:最近,基于Transformer的方法在半监督视频对象分割方面取得了出色的结果。然而,由于这些方法经常需要在每几帧扩展内存库,导致GPU内存需求增加,因此难以有效处理长视频。为此,我们提出了一种名为MAVOS的基于Transformer的方法,它引入了一种优化的和动态的长期调制交叉注意(MCA)内存,以模拟时间平滑性,而无需频繁扩展内存。
所提出的MCA方法有效地编码了不同粒度水平上的局部和全局特征,并在不同视频长度的情况下保持了一致的速度。通过在多个基准测试中广泛实验,包括LVOS、长时间视频和DAVIS 2017,我们证明了我们提出方法的有效性。MAVOS实现了实时推理,并显著降低了GPU内存需求,而不会降低长视频上的分割准确性。
与现有最佳的基于Transformer的方法相比,我们的MAVOS方法将速度提高了7.6倍,同时将GPU内存需求显著降低了87%,并在短视频和长视频数据集上展现了可比的分割性能。值得注意的是,在LVOS数据集上,我们的MAVOS在单个V100 GPU上实现了37帧每秒(FPS)的运行速度,并获得了63.3%的J&F分数。
我们将在以下网址https://github.com/Amshaker/MAVOS 上公开我们的代码和模型。
2、AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
中文标题:AiOS:多合一阶段富有表现力的人体姿势和形状估计
简介:表达人类姿势和形状估计(也称为3D全身网格恢复)涉及对人体、手部和面部表情进行估计。目前的大多数方法采用两阶段处理方式,首先使用现有的检测模型检测人体部位,然后单独推断不同的人体部位。尽管这些方法已经取得了令人印象深刻的结果,但仍存在以下问题:1)裁剪过程导致上下文信息丢失,2)引入干扰,3)缺乏对不同人和身体部位之间相互关联的建模,这不可避免地导致性能下降,特别是在拥挤的场景中。
为了解决这些问题,我们提出了一种全新的一站式框架,称为AiOS,用于恢复多种表达人类姿势和形状的方法,无需额外的人体检测步骤。具体而言,我们的方法基于DETR构建,将多人整体网格恢复任务视为一系列顺序检测和渐进集合预测问题。我们设计了解码器令牌,并将其扩展到我们的任务中。
具体而言,我们首先使用人体令牌在图像中检测人体位置,并为每个实例编码全局特征,从而提供粗略的位置信息。然后,我们引入关节相关令牌来检测图像中的人体关节,并编码细粒度的局部特征,与全局特征协同工作以恢复整个身体网格。这种简单而有效的模型在AGORA数据集上将NMVE降低了9%,在EHF数据集上将PVE降低了30%,在ARCTIC数据集上将PVE降低了10%,在EgoBody数据集上将PVE降低了3%,超过了先前最先进的方法。
通过我们的一站式框架AiOS,我们能够有效地解决表达人类姿势和形状估计的挑战,无需额外的人体检测步骤,并取得了显著的性能提升。
3、Track Everything Everywhere Fast and Robustly
中文标题:快速、稳健地跟踪任何地方的一切
简介:我们提出了一种创新的测试时优化方法,可以高效而稳健地跟踪视频中的任何时间的任何像素。最新的基于优化的跟踪技术OmniMotion需要极长的优化时间,这使得它在实际应用中不可行。OmniMotion对随机种子的选择非常敏感,导致不稳定的收敛。为了提高效率和稳健性,我们引入了一种新颖的可逆变形网络CaDeX ++,它将函数表示分解为本地空间-时间特征网格,并使用非线性函数增强耦合块的表达能力。
尽管CaDeX ++ 在其架构设计中融合了更强的几何偏差,但它也充分利用了视觉基础模型提供的归纳偏差。我们的系统利用单目深度估计来表示场景几何,并通过整合DINOv2长期语义来调节优化过程的目标。实验结果表明,在跟踪方面,相对于SoTA基于优化的方法OmniMotion,我们的方法在训练速度(提升了超过10倍)、稳健性和准确性方面都有显著的改进。
通过我们提出的新方法,我们能够以高效而稳健的方式跟踪视频中的任意时间的任何像素,并在训练速度、稳健性和准确性方面取得了显著的进展。