伪装目标检测模型论文阅读之:Zoom in and out

论文链接:https://arxiv.org/abs/2203.02688
代码;https://github.com/lartpang/zoomnet

1.摘要

最近提出的遮挡对象检测(COD)试图分割视觉上与其周围环境融合的对象,这在现实场景中是非常复杂和困难的。除了与它们的背景具有高度的内在相似性之外,这些对象通常在尺度上是多样的,外观上是模糊的,甚至严重遮挡。为了解决这些问题,我们提出了一种混合尺度三元网络,ZoomNet,模仿人类观察模糊图像时的行为,即放大和缩小。具体来说,我们的ZoomNet采用缩放策略,通过设计的尺度集成单元和分层混合尺度单元来学习区分性混合尺度语义,充分挖掘候选对象和背景环境之间的不可感知线索。此外,考虑到不可区分的纹理所带来的不确定性和模糊性,我们构造了一个简单而有效的正则化约束,即不确定性感知损失,以促进模型在候选区域中准确地产生具有更高置信度的预测。我们提出的高度任务友好的模型在四个公共数据集上始终超过现有的23种最先进的方法。此外,在SOD任务上优于最近的尖端模型的上级性能也验证了我们模型的有效性和通用性。

2.主要贡献

1.在COD任务中,我们提出了一种混合尺度的三元组网络ZoomNet,它通过描述和统一不同“缩放”尺度下的特定尺度的外观特征以及有针对性的优化策略,可以有效地捕获复杂场景中的对象。
2.为了获得被捕获对象的区分性特征表示,我们设计了SIU和HMU进行提取,聚合和加强特定于尺度和微妙的语义表示,以获得准确的COD。
3.我们提出了一种简单而有效的优化增强策略,UAL,该模型在不增加额外参数量的情况下,可以有效地抑制背景的不确定性和干扰
在4个COD数据集上对7种度量标准下的方法进行了比较,并在SOD任务中表现出了很好的泛化能力,与现有的SOD方法相比具有上级性能。

3.模型结构图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.模型组成

HMU迭代式构造,iteration struction in the HMU

共享三元组特征编码器用于提取对应不同输入“缩放”尺度的多级特征,由分别用于特征提取和压缩的E-Net和C-Net组成,在尺度合并层采用SIU对不同尺度的关键线索进行筛选和融合,然后通过自顶向下的方式逐步融合特征。
求助于图像金字塔,具体来说基于单尺度输入定制了一个图像金字塔来识别被遮挡的物体,将尺度分为单尺度和两个辅助尺度,

4.1 三重特征编码器

由特征提取和通道压缩网络组成,E-net和C-net,E-net由常用的Resnet50组成,删除了layer4之后的结构,C-net进行级联,进一步优化计算,找到更紧凑的特征。

4.2 缩放合并图层

对于f_i1.5,使用“max-pooling+average-pooling”的混合结构下采样,有助于在高分辨率特征中保留对被封装对象的有效和多样的响应,对于f_i0.5,直接通过双线性插值进行上采样,然后这些特征被馈送到注意力生成器中,通过一系列卷积层计算三通道特征图,在softmax激活层之后,可以获得每个尺度对应的注意力图A^k (k∈{0.5,1.0,1.5}),并将其用作最终积分的各个权重。
Attention generator :
在这里插入图片描述
将不同大小的图片信息concat,然后经过attention generator,是一系列的conv,用sequential函数,是一系列的,所以是串联的关系。对attn结果进行softmax操作并按通道数切成三部分,最后根据各个尺度的权重将三个尺度的特征加权求和得到lms。
这些涉及旨在选择性地聚合特定于尺度的信息,以探索不同尺度的微妙但是关键的语义线索,从而提高特征表示。

4.3 分层混合尺度解码器

4.3.1 分组迭代

在这里插入图片描述
〖g’〗_j1用于与下一组进行信息交换,〖g’〗_j2与〖g’〗_j3 用于信道调制,这种迭代混合策略努力从不同通道学习关键线索并获得强大的特征表示。从这个角度来看,HMU中的迭代结构可以等效于核金字塔结构。

4.3.2 通道式调制

〖〖〖{g〗'〗_j2}〗(j=1)^G,
被级联并通过一个小卷积网络转化为特征调制向量α,该特征调制向量α对另一个级联特征〖〖〖{g〗'〗_j3}〗
(j=1)^G进行加权,然后加权特征由卷积层处理:
在这里插入图片描述

4.4. Loss functions

损失函数:

在这里插入图片描述

引入置信感知损失
调整后发现λ发现余弦策略可以获得更好的性能

收拾回家行李,很着急,挤出时间日更,公式格式问题,以及复现细节后面会来填坑!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/325042.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

漏洞复现-金和OA jc6/servlet/Upload接口任意文件上传漏洞(附漏洞检测脚本)

免责声明 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…

【RT-DETR有效改进】ShapeIoU、InnerShapeIoU关注边界框本身的IoU(包含二次创新)

前言 大家好,我是Snu77,这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进,内容持续更新,每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本,同时修改内容也支持Re…

【Linux】Linux系统编程——pwd命令

文章目录 1.命令概述2.命令格式3.常用选项4.相关描述5.参考示例 1.命令概述 pwd(Print Working Directory)命令用于显示用户当前工作目录的完整路径。这是一个常用的命令,帮助用户确定他们目前所在的目录位置。 2.命令格式 基本的 pwd 命令…

基于Redis+Lua的分布式限流

本文已收录至我的个人网站:程序员波特,主要记录Java相关技术系列教程,共享电子书、Java学习路线、视频教程、简历模板和面试题等学习资源,让想要学习的你,不再迷茫。 前面我们了解了如何利用Nginx做网关层限流&#xf…

2024年AMC8历年真题练一练和答案详解(9),以及全真模拟题

“熟读唐诗三百首,不会作诗也会吟”,反复做真题、吃透真题、查漏补缺并举一反三是在各类考试、比赛中得高分的重要学习方法之一,参加AMC8竞赛也是如此。 六分成长继续为您分享AMC8历年真题,最后几天,通过高质量的真题来体会快速思…

爬虫-8-数据存储-mysql

#mysql占空间最小吧,数据存储没问题吧 (//∇//)

23111 网络编程 day2

思维导图 重打代码 #include<myhead.h> #define SER_IP "192.168.122.150" //服务器ip #define SER_PORT 8888 //服务器端口int main(int argc, const char *argv[]) {//1.创建用于连接的套接字int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd-1){perror("…

压缩编码之JPEG变换编码不同压缩率的模拟的实现——数字图像处理

原理 离散余弦变换&#xff08;DCT&#xff09;和量化是图像压缩中的两个关键步骤&#xff0c;尤其是在JPEG压缩标准中。 离散余弦变换&#xff08;DCT&#xff09;&#xff1a;DCT的目的是将图像从空间域&#xff08;即像素表示&#xff09;转换到频率域。这种转换后&#x…

dp--62. 不同路径/medium 理解度A

62. 不同路径 1、题目2、题目分析3、复杂度最优解代码示例4、抽象与扩展 1、题目 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中…

利用Python的csv(CSV)库读取csv文件并取出某个单元格的内容的学习过程

csv库在python3中是自带的。 利用它可以方便的进行csv文件内容的读取。 注意&#xff1a;要以gbk的编码形式打开&#xff0c;因为WPS的csv文件默认是gbk编码&#xff0c;而不是utf-8。 01-读取表头并在打印每一行内容时一并输出表头 表头为第1行&#xff0c;现在要读取并打…

【GaussDB数据库】序

参考链接&#xff1a;国产数据库华为高斯数据库&#xff08;GaussDB&#xff09;功能与特点总结 GaussDB简介 官方网站&#xff1a;云数据库GaussDB GaussDB是华为自主创新研发的分布式关系型数据库。该产品支持分布式事务&#xff0c;同城跨AZ部署&#xff0c;数据0丢失&#…

IOC之Spring统一资源加载策略

前言 在学 Java的时候&#xff0c;我们学习了一个标准类 java.net.URL&#xff0c;该类在 Java SE 中的定位为统一资源定位器&#xff08;Uniform Resource Locator&#xff09;&#xff0c;但是我们知道它的实现基本只限于网络形式发布的资源的查找和定位。然而&#xff0c;实…

layui实现地址下拉框模糊查询

layui实现地址下拉框模糊查询 HTML代码 注意&#xff1a;千万不要少 lay-search <div class"layui-col-md4"><label class"layui-form-label"><em>*</em>始发地&#xff1a;</label><div class"layui-input-bloc…

必示科技助力中国联通智网创新中心通过智能化运维(AIOps)通用能力成熟度3级评估

2023年12月15日&#xff0c;中国信息通信研究院隆重公布了智能化运维AIOps系列标准最新批次评估结果。 必示科技与中国联通智网创新中心合作的“智能IT故障监控定位分析能力建设项目”通过了中国信息通信研究院开展的《智能化运维能力成熟度系列标准 第1部分&#xff1a;通用能…

MiniTab的拟合回归模型的分析

拟合回归模型概述 使用拟合回归模型和普通最小二乘法可以描述一组预测变量和一个连续响应之间的关系。可以包括交互作用项和多项式项、执行逐步回归和变换偏斜数据。 例如&#xff0c;房地产评估人员想了解城市公寓与多个预测变量&#xff08;包括建筑面积、可用单元数量、建…

Linux Mii management/mdio子系统分析之一 总体概述

Linux Mii management/mdio子系统分析之一 总体概述 &#xff08;转载&#xff09;原文链接&#xff1a;https://blog.csdn.net/u014044624/article/details/123303099 从本章开始&#xff0c;我们介绍linux的mii management对应的mdio子模块&#xff0c;该模块主要用于管理phy…

分布式光伏运维平台在提高光伏电站发电效率解决方案

摘要&#xff1a;伴随着能源危机和环境恶化问题的日益加重&#xff0c;科技工作者进一步加大对新能源的开发和利用。太阳能光伏发电作为新型清洁能源的主力军&#xff0c;在实际生产生活中得到了广泛的应用。然而&#xff0c;光伏发电效率偏低&#xff0c;成为制约光伏发电发展…

6、CLIP:连接文本和视觉世界的预训练模型

目录 一、论文题目 二、背景与动机 三、创新与卖点 四、技术细节 模型结构 简易代码 clip实现zero shot分类 五、为什么是CLIP?为什么是对比学习&#xff1f; 六、一些资料 在人工智能领域&#xff0c;文本和图像是两个极其重要的数据形式。传统上&#xff0c;机器学…

2019年认证杯SPSSPRO杯数学建模B题(第二阶段)外星语词典全过程文档及程序

2019年认证杯SPSSPRO杯数学建模 基于统计和迭代匹配的未知语言文本片段提取模型 B题 外星语词典 原题再现&#xff1a; 我们发现了一种未知的语言&#xff0c;现只知道其文字是以 20 个字母构成的。我们已经获取了许多段由该语言写成的文本&#xff0c;但每段文本只是由字母…

基于深度学习的实例分割的Web应用

基于深度学习的实例分割的Web应用 1. 项目简介1.1 模型部署1.2 Web应用 2. Web前端开发3. Web后端开发4. 总结 1. 项目简介 这是一个基于深度学习的实例分割Web应用的项目介绍。该项目使用PaddlePaddle框架&#xff0c;并以PaddleSeg训练的图像分割模型为例。 1.1 模型部署 …
最新文章