目标检测——PP-PicoDet算法解读

PP-YOLO系列,均是基于百度自研PaddlePaddle深度学习框架发布的算法,2020年基于YOLOv3改进发布PP-YOLO,2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet,2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列,所以放一起解读,方便对比前后改进地方。


PP-YOLO系列算法解读:

  • PP-YOLO算法解读
  • PP-YOLOv2算法解读
  • PP-PicoDet算法解读
  • PP-YOLOE算法解读
  • PP-YOLOE-R算法解读

YOLO系列算法解读:

  • YOLOv1通俗易懂版解读
  • SSD算法解读
  • YOLOv2算法解读
  • YOLOv3算法解读
  • YOLOv4算法解读
  • YOLOv5算法解读

文章目录

  • 1、算法概述
  • 2、PP-PicoDet细节
    • 2.1 Better Backbone
    • 2.2 CSPPAN and Detector Head
    • 2.3 Label Assignment Strategy and Loss
    • 2.4 Other Strategies
  • 3、实验
    • 3.1 消融实验
    • 3.2 与其他检测算法对比


PP-PicoDet(2021.11.1)

论文:PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices
作者:Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji, Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
链接:https://arxiv.org/abs/2111.00902
代码:https://github.com/PaddlePaddle/PaddleDetection


1、算法概述

从论文标题可以看出来,该算法主要是针对移动端设备提出来的,所以该算法特点是模型小推理速度快。本文中,作者致力于研究目标检测的关键优化和神经网络架构选择,以提高准确性和推理速度。作者研究了无锚框策略在轻量级目标检测模型中的适用性,并且增强了主干结构,设计了颈部轻量化结构,提高了网络的特征提取能力。改进了标签分配策略和损失函数,使训练更加稳定和高效。通过这些优化,作者建立了一个新的实时目标检测器系列,名为PP-PicoDet,它在移动设备的目标检测上实现了卓越的性能。与其他流行的模型相比,该模型在准确性和延迟之间实现了更好的权衡。只有0.99M个参数的PicoDet-S实现了30.6%的mAP,与YOLOX-Nano相比,mAP值提高了4.8%,同时将移动CPU推理延迟降低了55%;与NanoDet相比,mAP提高了7.1%。当输入大小为320时,它在移动ARM CPU上达到123 FPS(使用Paddle Lite时为150 FPS)。仅使用330万个参数的PicoDet-L实现了40.9%的mAP, mAP提高了3.7%,比YOLOv5s快44%。在COCO数据集上的表现为:
在这里插入图片描述
PP-PicoDet的贡献如下:

  • 1、neck中改进PAN结构,采用CSP-PAN,用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积(depthwise separable convolution)替换了3x3的可分离卷积,提升了感受野的大小。
  • 2、采用SimOTA动态标签分配策略,对部分计算细节进行优化。具体来说,使用了变焦损失(VFL)的加权求和与GIoU loss来计算成本矩阵,在不损害效率的前提下提高了准确性。
  • 3、提出了基于ShuffleNetV2改进的Enhanced ShuffleNet(ESNet),性能比原版ShuffleNetV2好。
  • 4、提出一种改进的单次神经网络检测架构搜索(NAS)流水线,自动查找最优的架构进行目标检测。

2、PP-PicoDet细节

PP-PicoDet网络结构图如下所示:
Backbone:基于shuffleNetV2改进,ESNet,输出C3,C4,C5特征图进入neck;
Neck:CSP-PAN,接受C3,C4,C5输入,输出P3,P4,P5,P6;
在这里插入图片描述

2.1 Better Backbone

手工设计的backbone: 基于之前的经验,作者发现ShuffleNetV2在移动端设备上比其他网络更强大,为了进一步提高ShuffleNetV2的性能,作者遵循了PPLCNet的一些方法优化网络结构,构建新的骨干网络,即Enhanced ShuffleNet(ESNet)。ESNet主要由ES Block组成,其结构如下:
在这里插入图片描述
神经网络结构搜索: 作者首次提出了单次搜索目标探测器的方法。配备了用于分类的高性能主干的对象检测器可能不是最优的,因为分类和检测是两个不同的任务。所以作者不是搜索更好的分类器,而是直接在检测数据集上训练和搜索检测超级网络(the detection supernet),这可以节省大量的计算量并优化检测任务而不是优化分类任务。该框架包括两个步骤:(1)在检测数据集上训练单次超级网络;(2)在训练好的超级网络上使用进化算法(EA)进行架构搜索。为了方便起见,作者在这里简单地使用通道搜索主干网。具体来说,作者提供了灵活的比率选项来选择不同的通道比率。比如:[0.5, 0.675, 0.75, 0.875, 1]。

2.2 CSPPAN and Detector Head

本文使用PAN结构获得多层次特征图,使用CSP结构进行相邻特征图之间的特征拼接和融合。具体的使用用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积提升感受野大小。具体参考上图CSP-PAN结构图。
在detector head部分,作者也使用5x5的深度可分离卷积提升感受野大小,不像YOLOX解耦了回归分支和分类分支,PP-PicoDet没有将两者解耦,获得的性能相同。

2.3 Label Assignment Strategy and Loss

作者采用了SimOTA动态分配标签策略(和YOLOX一样),SimOTA首先通过中心先验确定候选区域,然后计算预测框和候选区域中gt框的IoU,最后通过对每个gt框的n个最大IoU求和得到参数k。成本矩阵(The cost matrix)是通过直接计算所有预测框的损失与候选区域内的gt框得到的。原始的SimOTA是CEloss和IoUloss加权求和得到成本矩阵。为了使SimOTA中的代价与目标函数保持一致,作者使用Varifocal损失和GIoU损失的加权和作为成本矩阵。公式为:
在这里插入图片描述
实验中λ设置为6
在检测头中,对于分类任务,作者利用Varifocal损失将分类预测和质量预测结合起来;对于回归任务,作者利用GIoU损失和Distribution Focal Loss,公式如下:
在这里插入图片描述

2.4 Other Strategies

激活函数: 作者将检测算法中的激活函数从ReLU替换为H-Swish,在保持推理时间不变的情况下,性能显著提高。
学习率下降策略: 采用Cosine learning rate decay,余弦学习率平稳下降,在batchsize比较大时,有利于训练过程。
数据增强: 过多的数据增强往往会增加正则化效果,使训练更难以收敛。所以在这项工作中,作者只使用随机翻转、随机裁剪和多尺度调整来进行训练中的数据增强。


3、实验

在COCO-2017 training集上训练,在COCO-2017 test-dev集上评估。

3.1 消融实验

关于改进措施的消融实验,如下表所示:
在这里插入图片描述
Base模型为与NanoDet相似的基础模型,主干采用ShuffleNetV2-1x,颈部采用无卷积的PAN,Loss采用标准GFL损失,标签分配策略采用ATSS。所有激活函数都使用LeakyRelu。得到的mAP(0.5:0.95)为25.3%。可以看到PAN经过改进变成CSP-PAN后,性能提升很大。

3.2 与其他检测算法对比

与其他先进检测算法对比,作者使用NCNN库进行延迟测试,并为PP-PicoDet模型添加了Paddle Lite推理延迟,实验结果如下所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/470725.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式学习41-数据结构2

今天学习了链表的增删改查 (暂定!!后续再补内容) 高内聚 :一个函数只实现一个功能 …

klipper源码分析之simulavr测试

分析Klipper源码,有时需要结合下位机一起分析,这样才能更加全面的了解Klipper的工作原理。如果手头上有打印机主板,电脑当做上位机运行Klipper,这样是比较方便。如果手头上没有打印机主板,可以用simulavr模拟AVR下位机…

ECharts绘制盒须图

一、箱线图 反应一组数据的分布情况,通过四分位数以图形的方式展示数值数据的局限性、分布和偏度组的方法。 四分位数:即把所有数值由小到大排列并分成四等份,处于三个分割点的数值就是四分位数。 下四分位:第一四分位Q1&#…

Android TransactionTooLargeException排查定位

Android TransactionTooLargeException排查定位 工具: https://github.com/guardian/toolargetoolhttps://github.com/guardian/toolargetool android TransactionTooLargeException问题的修复,一种简单的修复就是在Fragment的onCreate里面&#xff0…

Nginx实现原理全解析:构建高效Web服务器的关键

1、Nginx是什么 Nginx(engine X)是一个开源的轻量级的HTTP服务器,能够提供高性能的HTTP和反向代理服务。与传统的Apache服务器相比,在性能上Nginx占用系统资源更小、支持高并发,访问效率更高;在功能上&…

uniapp uni-file-picker @delete删除时候不知道删的是第几个,真坑,用着他的组件写着代码还得改着他的源码

正常删除触发事件中返回个文件地址那些东西 根本没什么用 因为这个项目是上传阿里云oss的,所以上传之后获取网络地址就可以给后端传参了,所以本地地址一点用没有,我只是想在删除的时候知道删了第几个就行。 于是、改源码吧 组件源码中找到这…

Ubuntu双系统/home分区扩容

一、Windows系统中利用磁盘管理分出空闲区域,如果多就多分一些 二、插入安装Ubuntu的U盘启动盘,lenovo电脑F12(其他电脑可选择其他类似方式)选择U盘启动项,然后选择ubuntu,出现安装界面,再选择t…

Basic RNN

文章目录 回顾RNNRNN CellRNNCell的使用RNN的使用 RNN例子使用RNN Cell实现使用RNN实现 嵌入层 Embedding独热向量的缺点Embedding LSTMGRU(门控循环单元)练习 回顾 DNN(全连接):和CNN相比,拥有巨大的参数量,CNN权重共…

【Godot4.2】自定义简单的参数化2D网格节点

概述 在某些情况下我们可能需要在Godot中自定义2D网格,因为此时可能用TileMap会显得太“重”,因为我们可能只需要其作为网格的功能却不需要它的其他功能,比如绘制瓦片地图。而且我们可能需要在网格功能的基础上,添加更多自定义的…

服务器版本命令查看

1、# uname -a (Linux查看版本当前操作系统内核信息) 2、# cat /proc/version (Linux查看当前操作系统版本信息) 3、# cat /etc/issue 或 cat /etc/redhat-release (Linux查看版本当前操作系统发行版信息&…

jmeter打开文件报异常无法打开

1、问题现象: 报错部分内容: java.desktop does not export sun.awt.shell to unnamed module 0x78047b92 [in thread "AWT-EventQueue-0"] 报错部分内容: kg.apc.jmeter.reporters.LoadosophiaUploaderGui java.lang.reflect.Invo…

MPI4.1文档2:MPI术语与MPI操作过程

第2章 MPI术语与约定 MPI Terms and Conventions 这一章节解释了MPI文档中使用的符号术语和惯例,以及其中所做的一些选择和背后的原因。 2.1 文档符号表示 Document Notation Rational. 在整个文档中,对界面规范中所做设计选择的理由以这个格式(首尾包…

Modbus TCP转Profinet网关如何实现Modbus主站与多设备通讯

在工业控制领域中,Modbus TCP转Profinet网关(XD-ETHPN20)扮演着连接不同设备间通讯的重要角色。当将Modbus主站与十几台服务器进行通讯时,通过modbus tcp转profinet网关(XD-ETHPN20)设备将不同协议间的数据…

LabVIEW NV色心频率扫描

LabVIEW NV色心频率扫描 通过LabVIEW软件开发一个能够实现对金刚石氮空位(Nitrogen-Vacancy,NV)色心的频率扫描系统。系统通过USB协议与硬件设备通信,对NV色心进行高精度的频率扫描,满足了频率在2.6 GHz到3.2 GHz范围…

python与excel第一节

python与excel第一节 由于excel在日常办公中大量使用,我们工作中常常会面对高频次或者大量数据的情况。使用python语言可以更加便捷的处理excel。 python与vba的比较 python语法更加简洁,相较于vba冗长复杂的语法,python更加容易学习。 p…

阅读笔记(CVPR2020)Warping Residual Based Image Stitching for Large Parallax

基于变形残差的大视差图像拼接 K. -Y. Lee and J. -Y. Sim, "Warping Residual Based Image Stitching for Large Parallax," 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020, pp. 8195-8203, doi: 10.1109/…

Grok-1:参数量最大的开源大语言模型

Grok-1:参数量最大的开源大语言模型 项目简介 由马斯克领衔的大型模型企业 xAI 正式公布了一项重要动作:开源了一个拥有 3140 亿参数的混合专家模型(MoE)「Grok-1」,连同其模型权重和网络架构一并公开。 此举将 Gro…

行业模板|DataEase制造行业大屏模板推荐

DataEase开源数据可视化分析平台于2022年6月发布模板市场(https://templates-de.fit2cloud.com),并于2024年1月新增适用于DataEase v2版本的模板分类。模板市场旨在为DataEase用户提供专业、美观、拿来即用的大屏模板,方便用户根据…

智能合约语言(eDSL)—— 使用rust实现eDSL的原理

为理解rust变成eDSL的实现原理,我们需要简单了解元编程与宏的概念,元编程被描述成一种计算机程序可以将代码看待成数据的能力,使用元编程技术编写的程序能够像普通程序在运行时更新、替换变量那样操作更新、替换代码。宏在 Rust 语言中是一种功能&#x…

Nginx可视化管理实战攻略:提升管理效率新途径

nginx-proxy-manager 是一个反向代理管理系统,它基于 Nginx,具有漂亮干净的 Web UI。还可以获得受信任的 SSL 证书,并通过单独的配置、自定义和入侵保护来管理多个代理。 特征 基于 Tabler(https://tabler.github.io/) 的美观安全的管理界面…
最新文章