一、概述
1、是什么
是一个目标检测器,通过结合CLIP文本编码器,拥有了开放检测(推理时识别训练时没有的目标)的能力。作者实验证明ap 指标上 zero shot能力YOLO-world L接近专门训练过的YOLOv6-8 S 模型的能力,finetune 后YOLO-world 均能提升8个点左右。
2、亮点
将文章的提到亮点按照逻辑重新组合后:
1)介绍了YOLO-World,这是一个前沿的开集目标检测器,它具有高效率,适用于实际应用场景。
2)提出了一个可重新参数化的视觉-语言PAN模型,用以连接视觉和语言特征,并针对YOLO-World设计了一套开集区域文本对比预训练方案。
3)YOLO-World在大规模数据集上的预训练展示了强大的零样本性能,在LVIS上达到35.4 AP的同时,还能保持52.0 FPS的速度。
4)预训练的YOLO-World可以轻松适应下游任务,例如,开集实例分割和指代目标检测。
5)YOLO-World的预训练权重和代码将开源,以促进更多实际应用。
PS
个人感觉这片文章主要看一下:
1)他通过引入CLIP 文本编码器,然后标签loss 是L2 拟合 对应label 的CLIP 文本embedding ,其实和RAM思路是一致