【前沿热点视觉算法】-用于RGB-D显著对象检测等领域的三维卷积神经网络

计算机视觉算法分享。问题或建议,请文章私信或者文章末尾扫码加微信留言。

1 论文题目

  • 用于RGB-D显著对象检测等领域的三维卷积神经网络

2 论文摘要

  • RGB-deph(RGB-D)显著目标检测(SOD)近年来引起了越来越多的研究兴趣,出现了许多基于编解码器架构的深度学习方法。然而,现有的RGB-D SOD模型大多在单编码器或解码器阶段进行显式可控的跨模态特征融合,这很难保证足够的跨模态融合能力。为此,我们首次尝试通过三维卷积神经网络来解决RGB-D SOD问题。该模型名为RD3D,旨在实现编码器阶段预融合和解码器阶段深度融合,有效促进RGB和深度流的全面集成。具体来说,RD3D首先通过膨胀的2-D ResNet获得的3-D编码器对RGB和深度模式进行预融合,然后通过设计一个具有丰富背投影路径(RBPPs)的3-D解码器提供深度特征融合,以利用3-D卷积的广泛聚合能力。对于一个改进的模型RD3D+,我们建议将传统的三维卷积分解为连续的空间和时间卷积,同时丢弃不必要的零填充。这最终导致了2维卷积等价,促进了优化,减少了参数和计算成本。由于这种涉及编码器和解码器的渐进融合策略,可以利用两种种模式之间的有效和彻底的交互,并提高检测精度。作为个额外的提升,我们还引入了通道-模态注意及其在RBPP的每个路径后的变体,以关注重要的特征。在7个广泛使用的基准数据集上进行的广泛实验表明,在关键评估指标方面,RD3D和RD3D+比14种最先进的RGB-D SOD方法表现。

3 论文创新点

  • 利用在编码器阶段的预融合的想法,提出通过一个三维卷积编码器来解决这个问题,可以有效地融合跨模态特征与-输出需要专用或复杂的模块。此外,我们提出对三维卷积进行分解,得到相关的二维卷积等价性,这有助于网络优化,减轻了的计算负担。
  • 设计一个3d解码器,将rbpp与定制的通道模态注意CMA模块及其变体结合起来,以更好地利用3d卷积的广泛聚合能力,关注重要的特性。
  • 基于上述编码器和解码器设计,我们实现了RGB-D SOD任务的第一个3-Dcnn模型,即RD3D和RD3D+。RD3D+比RD3D获得了实质性的改进,是更轻和更准确的。
  • 通过对7个基准数据集的综合评估,表明RD3D和RD3D+显著地超过了14种最先进的(SOTA)方法。综合消融研究,包括使用骨干,有/不有分解,以及不同的注意变体,以验证RD3D和RD3D+的有效性和有效性。此外,我们应用RD3D和RD3D+对rgb-热SOD和视频SOD进行处理,以进一步展示其的适用性。

4 论文架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

5 不足之处

  • RD3D的故障可能来自于低质量的深度图。如图11所示,第二列中质量较差的深度图,不可避免地会给模型带来噪声导致了不准确的预测。最近的一些进展,已经设计了定制的模块来增强或纠正深度图,以缓解这样的问题。然而,在我们的RD3D模型中,深度信息通过隐式的3-D卷积与RGB模型融合,对低质量的深度地图没有任何特定的处理/控制。

6 未来展望

  • 在未来,我们希望RD3D能够鼓励更多基于3-Dcnn的RGB-D SOD设计。一种可能的方法是使用3-D/体积cnn处理基于rgb-D的3d数据,但潜在挑战是克服深度的糟糕质量,这可能导致糟糕的3d数据/布局恢复。我们相信这是一个未来需要研究的有趣问题。

7 论文地址

  • https://ieeexplore.ieee.org/abstract/document/9889257

8 论文代码

  • https://github.com/PPOLYpubki/RD3D

计算机视觉最新进展-Sora

  • 尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。

  • 如有其他疑问可以加以下微信二维码联系

在这里插入图片描述

  • 更多计算机视觉最新最先进算法请扫描关注以下公众号
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/410643.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

家装服务管理:Java技术的创新应用

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

Python 鼠标模拟

鼠标模拟即:通过python 进行模拟鼠标操作 引入类库 示例如下: import win32api import win32con import time 设置鼠标位置 设置鼠标位置为窗口中的回收站。 示例如下: # 设置鼠标的位置 win32api.SetCursorPos([30, 40]) 双击图标 设置…

揭秘工业以太网交换机的冗余与备份技术:如何保障网络稳定与数据安全

在工业自动化和智能制造领域,网络通信的稳定性和可靠性堪称业务连续性的命脉。网络一旦出现故障,将可能直接导致生产中断,甚至造成重大经济损失。鉴于此,工业以太网交换机——作为工业网络的核心组件,其冗余技术与备份…

从Unity到Three.js(outline 模型描边功能)

指定模型高亮功能,附带设置背景颜色,获取随机数方法。 百度查看说是gltf格式的模型可以携带PBR材质信息,如果可以这样,那就完全可以在blender中配置好材质导出了,也就不需要像在unity中调整参数了。 import * as THRE…

微信小程序02: 使用微信快速验证组件code获取手机号

全文目录,一步到位 1.前言简介1.1 专栏传送门1.1.1 上文小总结1.1.2 上文传送门 2. 微信小程序获取手机号2.1 业务场景(使用与充值)2.2 准备工作2.3 具体代码使用与注释如下2.3.1 代码解释(一)[无需复制]2.3.2 代码解释(二)[无需复制] 2.4 最后一步 获取手机号信息2.4.1 两行代…

Java设计模式 | 七大原则之依赖倒转原则

依赖倒转原则(Dependence Inversion Principle) 基本介绍 高层模块不应该依赖低层模块,二者都应该依赖其抽象(接口/抽象类)抽象不应该依赖细节,细节应该依赖抽象依赖倒转(倒置)的…

React基础-webpack+creact-react-app创建项目

学习视频:学习视频 2节:webpack工程化创建项目 2.1.webpack工程化工具:vite/rollup/turbopak; 实现组件的合并、压缩、打包等; 代码编译、兼容、校验等; 2.2.React工程化/组件开发 我们可以基于webpack自己去搭建…

React歌词滚动效果(跟随音乐播放时间滚动)

首先给audio绑定更新时间事件 const updateTime e > {console.log(e.target.currentTime)setCurrentTime(e.target.currentTime);};<audiosrc{currentSong.url}ref{audio}onCanPlay{ready}onEnded{end}onTimeUpdate{updateTime}></audio>当歌曲播放时间改变的时…

【力扣 - 有效的括号】

题目描述 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的相同…

免费享受企业级安全:雷池社区版WAF,高效专业的Web安全的方案

网站安全成为了每个企业及个人不可忽视的重要议题。 随着网络攻击手段日益狡猾和复杂&#xff0c;选择一个强大的安全防护平台变得尤为关键。 推荐的雷池社区版——一个为网站提供全面安全防护解决方案的平台&#xff0c;它不仅具备高效的安全防护能力&#xff0c;还让网站安…

Uniapp + VUE3.0 实现双向滑块视频裁剪效果

效果图 <template><view v-if"info" class"all"><video:src"info.videoUrl"class"video" id"video" :controls"true" object-fit"fill" :show-fullscreen-btn"false"play-btn…

linux服务器vi文件中文乱码

服务器vi编辑中文乱码 cat 文本是中文 可以编辑 vi /etc/environment 文件修改为utf8中文字符集 LANGzh_CN.UTF-8 LANGUAGEen_US:en LC_CTYPE"zh_CN.UTF-8" LC_NUMERIC"zh_CN.UTF-8" LC_TIME"zh_CN.UTF-8" LC_COLLATE"zh_CN.UTF-8"…

springboot219基于SpringBoot的网络海鲜市场系统的设计与实现

网络海鲜市场系统的设计与实现 摘 要 计算机网络发展到现在已经好几十年了&#xff0c;在理论上面已经有了很丰富的基础&#xff0c;并且在现实生活中也到处都在使用&#xff0c;可以说&#xff0c;经过几十年的发展&#xff0c;互联网技术已经把地域信息的隔阂给消除了&…

Python实现DAS单点登录

❇️ 流程 进入登录页面 &#xff08;DAS验证的登录页面&#xff09; 获取验证码图像&#xff0c;百度OCR识别 登录 &#x1f3de;️ 环境 Windows 11 Python 3.12 PyCharm 2023 &#x1f9f5; 准备工作 安装必要依赖库 bs4 Jupyter 推荐安装 Jupyter&#xff08;Anaco…

*ctf 2019 oob

diff文件如下 diff --git a/src/bootstrapper.cc b/src/bootstrapper.cc index b027d36..ef1002f 100644 --- a/src/bootstrapper.ccb/src/bootstrapper.cc-1668,6 1668,8 void Genesis::InitializeGlobal(Handle<JSGlobalObject> global_object,Builtins::kArrayProto…

【重温设计模式】原型模式及其Java示例

【重温设计模式】原型模式及其Java示例 原型模式的介绍 在编程的世界里&#xff0c;有一种神秘而强大的法宝&#xff0c;它就是设计模式。设计模式&#xff0c;就像是一种编程的哲学&#xff0c;是对软件工程中的一些经典问题的通用解决方案。它能够帮助我们更好地组织代码&am…

又现股东大额减持,东鹏饮料业绩预喜也难“救市”?

“醒着拼”的东鹏饮料(605499.SH)&#xff0c;市值“累了困了”&#xff1f; 1月27日&#xff0c;东鹏饮料公布了2023年的业绩预告显示&#xff1a;预计将达到110.57亿元-113.12亿元&#xff0c;同比增长30%-33%&#xff1b;净利润预计在19.89亿元-20.61亿元之间&#xff0c;同…

汇编语言与接口技术实践——秒表

1. 设计要求 基于 51 开发板,利用键盘作为按键输入,将数码管作为显示输出,实现电子秒表。 功能要求: (1)计时精度达到百分之一秒; (2)能按键记录下5次时间并通过按键回看 (3)设置时间,实现倒计时,时间到,数码管闪烁 10 次,并激发蜂鸣器,可通过按键解除。 2. 设计思…

数学建模【GM(1, 1)灰色预测】

一、GM(1, 1)灰色预测简介 乍一看&#xff0c;这个名字好奇怪&#xff0c;其实是有含义的 G&#xff1a;Grey&#xff08;灰色&#xff09;M&#xff1a;Model&#xff08;模型&#xff09;(1, 1)&#xff1a;只含有一个变量的一阶微分方程模型 提到灰色&#xff0c;就得先说…

基于InSAR、CNN的滑坡监测(一)

文献阅读记录&#xff0c;也是组会汇报材料收集&#xff0c;从中文文献开始学习。 开发一种快速、精确且自动化程度较高的滑坡定位或检测模型可以为地质灾害防治提供有效支撑,为研究滑坡分布规律及滑坡潜在风险等问题提供技术支持 ①《基于高分辨率遥感影像和改进 U-Net 模型的…
最新文章