目标检测——SPPNet算法解读

论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
链接:https://arxiv.org/abs/1406.4729

目录

  • 1、算法概述
  • 2、Deep Networks with Spatial Pyramid Pooling
    • 2.1 SPP Layer
    • 2.2 网络训练
  • 3、实验结果
    • 3.1 分类
    • 3.2 检测
  • 4、创新点和不足

1、算法概述

之前的工作,神经网络都要求固定尺寸的输入,比如:224x224,这就限制了输入图像的宽高比,当对于其他任意尺寸图像时,基本都是通过裁剪或直接拉伸的方式变换到固定尺寸。但是裁剪有可能不能完全包含目标,直接拉伸也会造成目标的形变及失真,这都会造成识别精度下降。
在这里插入图片描述
为什么卷积神经网络需要固定尺寸的输入?CNN由两部分组成:卷积层和全连接层,实际上卷积层不需要固定尺寸的输入,它可以对任意尺寸的图像生成任意尺寸的特征图;而全连接层根据其定义来看才需要固定尺寸的输入。全连接层通常在CNN的深层阶段,所以本文作者提出空间金字塔池化(SPP, Spatial Pyramid Pooling)层用于固定CNN中最后一层卷积层的输出,使得全连接层的输入得到统一。这一操作使得CNN可以接受任意尺寸的输入,不必经过裁剪(crop)和扭曲拉伸(warp)。在目标检测方面,加入这一操作的SPP-Net比R-CNN快24到102倍,全过程下来速度为0.5s/image。
SPP的优势有:
1、针对不同尺寸的输入可以得到相同维度的输出,而siding window pooling 做不到;
2、SPP使用multi-level spatial bins, 而siding window pooling采用的单一的窗口,multi-level对目标变形非常鲁棒;
3、由于输入尺寸的可变性,SPP可以提取不同尺度的特征。
4、SPP-Net能使得我们在训练中使用多尺度训练,避免过拟合,使得最终的精度相比固定尺寸训练有所提升。

2、Deep Networks with Spatial Pyramid Pooling

2.1 SPP Layer

作者首先可视化了网络特征图,表明了特征图不仅反映了相应的强度和涉及到它们的空间位置。卷积层可以接受任意大小的输入并输出任意尺寸的特征图,但分类器(SVM/softmax)或者全连接层只能接受固定尺寸的输入。
在这里插入图片描述
为了让CNN适应任意大小的图像,作者将最后一个池化层(例如,在最后一个卷积层之后的pool5层)替换为空间金字塔池化层。如上图所示,空间金字塔池化的输出是kM维向量,桶(bins)的数量记为M,k是最后一个卷积层的输出特征图数量,图中k为256。每个特征图的尺寸为axa,被切分为nxn的bins,那么采用窗口为win=ceil(a/n)和步长为str=floor(a/n)的max-pooling。最后将所有的特征级联起来(固定维度kM)作为全连接层的输入。这样就保证了无论输入图像的尺寸,输入全连接层的输入都有同样的大小。
网络处理流程如下:
在这里插入图片描述

2.2 网络训练

单尺度训练,固定裁剪输入图像为224x224,最后一层卷积层输出特征图大小为13x13,设置三个级别的空间金字塔池化操作,SPP设置如下:
在这里插入图片描述
多尺度训练,采用两个尺度训练,180x180,224x224;180尺寸的图片是224尺寸的直接resize得到,而不是通过裁剪得到,所以两种尺度的区域只在分辨率上不同,而在内容/布局上没有区别。对于180x180的输入图像,最后一层卷积层输出特征图大小为10x10,通过SPP层,180x180的输入大小和224x224的输入大小得到相同维度的全连接层输入。
以上单/多尺度训练主要应用于训练阶段,在测试推理阶段,SPPNet可以接受任意大小的输入图像。

3、实验结果

3.1 分类

数据集采用ImageNet 2012,输入图片固定为224x224,Baseline model的结构如下
在这里插入图片描述
将网络最后一个池化层替换成SPP层后,对应的结果分别为:
在这里插入图片描述
可见多尺度训练对模型也有提升
ILSVRC2014分类竞赛的结果如下,SPP-Net取到第三名的结果,第一名是GoogLeNet,第二名VGG
在这里插入图片描述

3.2 检测

SPP-Net也可以用于目标检测。相较于R-CNN的2000次提取特征,SPP-Net只从整个图像中提取一次特征映射(可能在多个尺度上)。然后对特征图上的每个候选框应用空间金字塔池操作,该候选框对应的特征通过SPP操作将变成固定长度的向量,如下图所示。由于只应用一次卷积操作,所以我们的方法可以运行速度提高几个数量级。
在这里插入图片描述
实验设置:相对于R-CNN,SPP-Net还是用selective search提出区域候选框(测试阶段2000个),SPP-Net的backbone部分采用ZF-5,SPP层采用4级空间金字塔(1x1,2x2,3x3,6x6,共50个bins),这样每个候选框区域这就会生成12800维(256x50)的特征向量用于全连接层的输入。后面训练每个类别的SVM分类器也是用这个12800维的特征。训练SVM的样本设置方案和R-CNN一致,也采用负样本难度挖掘技术。
在这里插入图片描述
因为SPP-Net和R-CNN采用的方式差不多,只是SPP-Net将R-CNN的2000次提取特征的过程集中到一次完成,所以它们最终的mAP区别不大,但SPP-Net的速度比R-CNN的快非常多。

4、创新点和不足

  • 创新点:
    1、针对不同尺寸的输入可以得到相同维度的输出,实现了多尺度训练的可能,能让网络见到多尺度图片,增加鲁棒性。
    2、首次提出单尺度/多尺度交替训练。
    3、改进R-CNN的提取特征方式,合并2000次提取为一次提取,大大提升了速度。
  • 不足:
    1、还是没有改进候选框区域生成;
    2、特征提取、SVM分类、边框回归这三个阶段是独立的,需分别进行训练和推理,效率较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/206104.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

11月30日作业

设计一个Per类&#xff0c;类中包含私有成员:姓名、年龄、指针成员身高、体重&#xff0c;再设计一个Stu类&#xff0c;类中包含私有成员:成绩、Per类对象p1&#xff0c;设计这两个类的构造函数、析构函数和拷贝构造函数 #include <iostream>using namespace std;class …

20个Python源码项目下载

20个很不错的Python项目源码&#xff0c;其中包括适合毕业设计的项目。这些资源中涵盖了Django 3版本的项目&#xff1a; DjangoMysqlBulma实现的商场管理系统源码 PythonDjango实现基于人脸识别的门禁管理系统 PythonFlaskMySQL实现的学生培养计划管理系统 Python大熊猫主题人…

qt 5.15.2压缩和解压缩功能

qt 5.15.2压缩和解压缩功能 主要是添加qt项目文件.pro内容&#xff1a; 这里要先下载quazip的c项目先编译后引入到本项目中/zip目录下 INCLUDEPATH ./zip CONFIG(debug, debug|release) {win32:win32-g: PRE_TARGETDEPS $$PWD/zip/libquazipd.awin32:win32-g: LIBS -L$$PWD…

文件格式扩展名转换:将图片png扩展名批量改为jpg的方法

在处理大量图片文件时&#xff0c;可能会遇到需要将文件格式扩展名进行转换的情况。比如&#xff0c;将图片文件从PNG格式转换为JPG格式。这不仅可以节省存储空间&#xff0c;还可以提高图片加载速度&#xff0c;特别是在网页设计中。本文详解如何将PNG图片批量转换为JPG格式的…

2023-11-30 LeetCode每日一题(确定两个字符串是否接近)

2023-11-30每日一题 一、题目编号 1657. 确定两个字符串是否接近二、题目链接 点击跳转到题目位置 三、题目描述 如果可以使用以下操作从一个字符串得到另一个字符串&#xff0c;则认为两个字符串 接近 &#xff1a; 操作 1&#xff1a;交换任意两个 现有 字符。 例如&…

LeetCode Hot100 3.无重复字符的最长子串

题目&#xff1a; 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长子串 的长度。 代码&#xff1a; class Solution {public int lengthOfLongestSubstring(String s) {char[] arr s.toCharArray(); // 转换成 char[] 加快效率&#xff08;忽略带来的空间…

[操作系统] 文件管理

文章目录 5.1 磁盘调度算法1. 先来先服务算法( First Come First Served, FCFS) 算法2. 最短寻道时间优先算法( Shortest Seek Time First, SSTF) 算法3. 扫描算法( SCAN ) 算法4. 循环扫描算法( Circular Scan, CSCAN ) 算法5. LOOK 与 CLOOK 算法 5.2 进程写文件时&#xff0…

Goby 漏洞发布| CrushFTP as2-to 认证权限绕过漏洞(CVE-2023-43177)

漏洞名称&#xff1a; CrushFTP as2-to 认证权限绕过漏洞&#xff08;CVE-2023-43177&#xff09; English Name&#xff1a;CrushFTP as2-to Authentication Permission bypass Vulnerability (CVE-2023-43177) CVSS core: 9.8 影响资产数&#xff1a; 38695 漏洞描述&…

【Web】UUCTF 2022 新生赛 个人复现

目录 ①websign ②ez_rce ③ez_upload ④ez_unser ⑤ezsql ⑥ezpop ⑦funmd5 ⑧phonecode ⑨ezrce ①websign 右键打不开&#xff0c;直接抓包发包看源码 ②ez_rce “反引号” 在PHP中会被当作SHELL命令执行 ?codeprintf(l\s /); ?codeprintf(ta\c /ffffffffffl…

商家门店小程序怎么做?门店小程序的优势和好处

生活服务类商家在当前数字化时代&#xff0c;越来越认识到门店小程序的重要性。门店小程序不仅为商家提供了一个在线展示的窗口&#xff0c;更为其打造了一个与消费者直接互动的平台。有了门店小程序&#xff0c;商家可以更加便捷地管理商品信息、订单流程&#xff0c;同时还能…

Linux常用命令----history命令

文章目录 在Linux中&#xff0c;history命令是一个极其有用的工具&#xff0c;它可以帮助用户查看和管理之前执行过的命令历史。这个功能对于快速查找和重用之前的命令特别有帮助。下面&#xff0c;我们将通过一些实例&#xff0c;详细介绍history命令的使用方法。 1. 基本使用…

【稳定检索|投稿优惠】2024年经济管理与安全科学国际学术会议(EMSSIC 2024)

2024年经济管理与安全科学国际学术会议(EMSSIC 2024) 2024 International Conference on Economic Management and Security Sciences(EMSSIC 2024) 一、【会议简介】 2024年经济管理与安全科学国际学术会议(EMSSIC 2024)&#xff0c;将于繁华的上海城召开。这次会议的主题是“…

前端:实现div的隐藏与显示

效果 完整代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-widt…

WSL2 docker GUI 界面

在 WSL2 docker 中运行GUI界面。 具体流程和远程显示Ubuntu界面类似&#xff0c;链接, 更简单一点&#xff0c; 少了 ssh 的部分。 安装好wsl2 和 docker wsl2 运行GUI程序&#xff0c;windows 会默认弹出窗口。 可以安装 gedit 测试一下 windows 下载并运行 Xlaunch. 运行 d…

力扣202题 快乐数 双指针算法

快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为&#xff1a; 对于一个正整数&#xff0c;每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1&#xff0c;也可能是 无限循环 但始终变不到 1。如果这个过程 结果为 1&#…

LLM 分布式训练框架 | DeepSpeed与Accelerate

&#x1f680; 简单记录下根据网上资料&#xff08;如Reference中所列&#xff09;所学到的一些知识&#xff0c;这里主要介绍的是deepspeed分布式训练框架相关概念。 &#x1f604;小日记&#xff1a;今天太舒服了&#xff0c;早上跑了6km&#xff0c;晚上吃了养生菌菇火锅~ …

亚马逊云科技re:Invent Peter DeSantis演讲,数据规模拓展无极限引领Serverless构建之路

re:lnvent 2023 Peter DeSantis主题演讲&#xff0c;数据规模拓展无极限引领Serverless构建之路&#xff08;Road to Serverless&#xff09;。 Logical Qubit全新发布&#xff1a;量子计算硬件&#xff0c;6倍的量子纠错效率提升。 Amazon全新发布Redshift Serverless&#xf…

通过C#获取Windows设置的夏令时开关

C#获取Windows夏令时开关 // 获取所有的时区信息 var allTimeZones TimeZoneInfo.GetSystemTimeZones().ToList();通过接口可以看到, 字段SupportsDaylightSavingTime代表是否支持配置夏令时 // 获取当前Window设置的时区 var tmpLocal TimeZoneInfo.Local;但是取Local 信息…

kafka中的常见问题处理

文章目录 1. 如何防⽌消息丢失2. 如何防⽌重复消费3. 如何做到消息的顺序消费4. 如何解决消息积压问题4.1 消息积压问题的出现4.2 消息积压的解决⽅案 5. 实现延时队列的效果5.1 应用场景5.2 具体方案 1. 如何防⽌消息丢失 ⽣产者&#xff1a;1&#xff09;使⽤同步发送 2&…

如何查看电脑内存?Windows 和 Mac 方法不同

Windows 系统查看内存方法 在 Windows 操作系统中我们查看电脑内存在哪里查呢&#xff1f;下面总结的 3 种查看电脑内存的方法都可以使用&#xff1a;使用任务管理器&#xff1a;任务管理器是 Windows 中一个强大的工具&#xff0c;可用于监视和管理计算机的性能和资源使用。使…
最新文章