【YOLO v5 v7 v8 v9小目标改进】辅助超推理SAHI：分而治之，解决高分辨率图像中小物体检测的问题

辅助超推理SAHI：分而治之，解决高分辨率图像中小物体检测的问题

设计思路
结构
小目标涨点
YOLO v5 魔改
YOLO v7 魔改
YOLO v8 魔改
YOLO v9 魔改

论文：https://arxiv.org/pdf/2202.06934.pdf

代码：https://github.com/obss/sahi

设计思路

用一个超高清的相机拍摄一片风景，而你想在这张大照片里找到一些非常小的物体，比如远处的小鸟或花朵。

因为这些物体在整张照片中占的比例非常小，所以直接找它们会很困难，而且需要非常强大的算力。

你有一张大拼图，它由成百上千的小拼图块组成。

如果你试图一次性理解整张图的内容可能会感到困难和压力，特别是如果这张图非常复杂，细节丰富。

但是，如果你将拼图分成几个部分，一块一块地完成，每一块拼好之后再把所有的小块合并起来，最终得到的将是一幅完整的图画。

这种方法不仅使任务变得更加管理和操作上可行，而且每完成一小块就能带来成就感，激励你继续前进。

在科学和工程领域，这种思路同样适用。

例如，在计算机科学中，大型软件项目往往会被分解为多个小模块或组件，每个部分由不同的团队独立开发。

只有当这些独立开发的模块都完成并通过测试后，它们才会被集成在一起，形成完整的软件系统。

这样做的优点包括提高了开发效率，降低了错误和问题的复杂性，使得更容易定位和修复问题。

我们提出了一个办法来解决这个问题：

把大照片切成小块：就像用剪刀把一张大照片切成很多小片一样。这样，每个小块里的小物体相对于这个小块就变得更大了，更容易被找到。
在每个小块上做“练习”：我们有一些事先训练好的模型，它们擅长找东西，但主要是在比较小的图片中找。我们用这些模型在每个小块上找我们想要的小物体。
再把找到的东西放回原位：当我们在所有小块中都找完后，就把找到的小物体的位置标记起来，再放回到原来的大照片中相应的位置。

这样做的好处是，我们既没有错过任何小物体，又没有需要非常强大的计算力去一次性处理整张大照片。

这个方法可以用在任何需要找小物体的场景中，比如用监控摄像头监视一片区域，或者用无人机拍摄的大面积地图上寻找特定的小目标。

为了解决高分辨率图像中小物体检测的问题，我们提出了一个基于切片的通用框架，在模型的微调和推理阶段使用。

结构

在这里插入图片描述
这张图是一幅流程图，展示了基于切片的模型微调（Slicing Aided Fine-tuning, SF）和基于切片的高效推理（Slicing Aided Hyper Inference, SAHI）两种方法。

流程图的上半部分（Slicing Aided Fine-tuning, SF）说明了以下步骤：

从预训练数据集中，选取图片（例如 $I_{F1}$ 和 $I_{F2}$ ）进行微调。
图片被切割成较小的重叠片段或补丁（例如 $P_{F1}$ 和 $P_{F2}$ ），然后这些片段被调整大小到一个更大的尺寸。
这些增强后的图片片段（例如 $I'_{0}$ ）被用于微调预训练好的模型，生成了微调后的模型。

流程图的下半部分（Slicing Aided Hyper Inference, SAHI）描述了推理阶段的以下步骤：

原始查询图像（例如 ( I )）被切割成多个重叠的小片段（例如 $P_{I1}$ 到 $P_{Il}$ ）。
每个小片段大小调整后，单独进行物体检测推理，并生成预测。
接着，所有小片段的预测结果通过非极大值抑制（NMS）转换回原始图像的坐标尺度。
可选地，可以加入从原始图像的全尺寸推理中得到的预测结果。

这个框架包含以下两个主要部分：

切片辅助微调 (SF)：使用流行的物体检测框架（如Detectron2、MMDetection和YOLOv5）的预训练权重，我们通过将高分辨率图像切割成重叠的小块（称为切片）来增强数据集。

这些切片相对于原图中的小物体具有更大的像素面积，使得小物体在网络训练时变得更明显，从而提高了模型对小物体的检测性能。
- 子特征：选择切片尺寸作为超参数，然后在微调过程中将切片调整大小以保持宽度在800到1333像素之间，从而相对于原始图像扩大了物体的相对尺寸。
之所以采用这种方法，是因为预训练的模型通常在低分辨率图像上表现良好，但对高分辨率图像中的小物体检测效果不佳。
切片辅助高效推理 (SAHI)：在推理步骤中，也采用了切片方法。

首先，将原始查询图像切割成多个重叠的M×N尺寸的切片，每个切片在保持宽高比的情况下调整大小。

然后，独立地对每个切片进行物体检测推理。

此外，可以选择使用原始图像进行完整推理以检测较大的物体。

最后，将所有重叠切片的检测结果（如果使用了完整推理，还包括完整推理的结果）通过非极大抑制（NMS）合并回原始图像大小。

在NMS过程中，删除那些IoU比预定义匹配阈值低的检测框。
- 子特征：通过这种方法，可以优化小物体的检测效率和准确性，同时保留了对大物体检测的能力。
之所以使用切片辅助推理，是因为直接对高分辨率图像进行全图推理对于小物体而言效果不佳，而且计算成本高。