YOLOv10 vs YOLOv11 vs YOLOv12:Nature论文实测三代数模型在零售自助结账场景下的精度-速度权衡

📅 2026/7/6 6:08:51 👁️ 阅读次数 📝 编程学习
YOLOv10 vs YOLOv11 vs YOLOv12:Nature论文实测三代数模型在零售自助结账场景下的精度-速度权衡

引言:自助结账的“最后一公里”,为什么卡在目标检测上?

走进任何一家中型超市,你会发现自助结账区正在快速取代人工收银通道。根据艾瑞咨询数据显示,2025年中国无人零售市场规模已突破500亿元,自助智能终端部署量年复合增长率保持在28%以上。行业竞争已经从设备铺设数量,转向了数据运营效率与系统稳定性的比拼。

但现实是,大部分自助结账系统仍然依赖扫码——顾客需要逐一找到商品条形码、对准扫描窗口。这个过程看似简单,实则体验极差:瓶装饮料的条形码贴在曲面瓶身上、袋装零食的码被褶皱遮挡、水果蔬菜压根没有条码。真正的“无感结算”必须依靠计算机视觉——摄像头一拍,所有商品自动识别、一次结账。

然而,零售场景对目标检测模型的要求堪称“地狱级”:

  • 商品种类爆炸:一个中型超市的SKU动辄上万,包装、规格、颜色千差万别;
  • 摆放极度密集:货架上的商品紧挨着甚至重叠,模型很容易把多个物体误识别为一个;
  • 光线条件恶劣:超市灯光、自然光、货架阴影交织,同一商品在不同光照下视觉特征完全不同;
  • 实时性零容忍:顾客不愿意在结账台前等超过2秒钟;
  • 硬件成本敏感:不可能在每个收银台后面放一台A100服务器,边缘设备(Jetson、ARM盒子)是标配。

过去三年,目标检测领域陷入了一种隐性困境: