首页 > 编程学习 > 【第48篇】MaxViT:多轴视觉转换器

【第48篇】MaxViT:多轴视觉转换器

发布时间:2022/10/1 9:36:49

文章目录

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 方法
    • 3.1 注意
    • 3.2 多轴注意力
    • 3.3 架构变体
  • 4 实验
    • 4.1 ImageNet-1K上的图像分类
    • 4.2 目标检测和实例分割
    • 4.3 形象审美评价。
    • 4.4 图像生成
    • 4.5 消融研究。
  • 5 讨论与结论

摘要

Transformers 最近在计算机视觉界引起了广泛关注。然而,自注意力机制在图像大小方面缺乏可扩展性,这限制了它们在最先进的视觉骨干中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意力模型,我们称之为多轴注意力,它由两个方面组成:阻塞的局部注意力和扩张的全局注意力。这些设计选择允许在任意输入分辨率上进行全局-局部空间交互,仅具有线性复杂度。我们还通过将我们提出的注意力模型与卷积有效地融合在一起,提出了一个新的架构元素,并相应地提出了一个简单的分层视觉骨干,称为 MaxVi

Copyright © 2010-2022 mfbz.cn 版权所有 |关于我们| 联系方式|豫ICP备15888888号