DVDNET A FAST NETWORK FOR DEEP VIDEO DENOISING

DVDNET: A FAST NETWORK FOR DEEP VIDEO DENOISING

https://ieeexplore.ieee.org/document/8803136

摘要

现有的最先进视频去噪算法是基于补丁的方法,以往的基于NN的算在其性能上无法与其媲美。但是本文提出NN的视频去噪算法性能要好:

  • 其相比于基于补丁的算法,计算时间明显缩短
  • 相比于其他神经网络算法,其占用内存小,能够使用单个模型处理各种噪声水平

介绍

我们介绍了一个用于深度视频去噪的网络:DVDnet。该算法与其他最先进的方法相比具有优势,同时它具有快速运行时间。我们算法的输出呈现出显着的时间相干性、非常低的闪烁、强大的降噪和准确的细节保留。

图像去噪

最近的图像去噪算法大多基于深度学习技术,其性能较好,但是这些性能都是 restricted to specific forms of prior基于特定形式的先验,并且需要 hand-tuned parameters手动调参。

目前多数的算法都面临一个缺点:a specific model must be trained for each noise level. 必须为每个噪声级别训练一个模型

视频去噪

基于神经网络的算法并不多,其性能可能还不如基于补丁的方法,但是通过发展VBM4D/VNLB等等,其目前VNLB能够获得相对最好的去噪效果,但是其问题是:需要很长的运行时间——即使处理单帧也需要几分钟。但是本文提出的算法要比VNLB更好。

本文方法

发展现状:most previous approaches based on deep learning have failed to employ the temporal information existent in image sequences effectively.

去噪关键:Temporal coherence and the lack of flickering(无闪烁) vital aspects in the perceived quality of a video.

强制输出时间冗余相关的办法:

  • the extension of search regions from spatial neighborhoods to volumetric neighborhoods
  • the use of motion estimation.

image-20220402103704627

首先去噪分为两个阶段:

  • individually denoised with a spatial denoiser. 空间去噪 单独进行去噪
  • egistered with respect to the central fram

(1)虽然在spatial denoising阶段的单帧去噪结果较好,但是作为一个序列来说,有明显的闪烁现象;因此,在二阶段通过光流变形将相邻帧向中心帧对齐,完成运动补偿后。

(2)将 2T + 1 个对齐的帧连接起来并输入到时间去噪块中。在对每帧进行去噪时使用时间邻居有助于减少闪烁,因为每帧中的残差是相关的

原文:Finally, the 2T + 1 aligned frames are concatenated and input into the temporal denoising block. Using temporal neighbors when denoising each frame helps to reduce flickering as the residual error in each frame will be correlated.

此外,添加了一个噪声图作为空间和时间降噪器的输入。包含噪声图作为输入允许处理空间变化的噪声[18]。与其他去噪算法相反,我们的去噪器除了图像序列和输入噪声的估计外,没有其他参数作为输入。

时间和空间去噪块

image-20220402104108113

空间和时间块的设计特点在性能和快速运行时间之间做出了很好的a good compromise 折衷。这两个模块都被实现为标准的前馈网络,

空间降噪器的架构受到[8, 9]中架构的启发,而时间降噪器也借鉴了[13]中的一些元素。

空间和时间去噪块分别由 D [ s p a t i a l ] D_[spatial] D[spatial] = 12 和 D [ t e m p o r a l ] D_[temporal] D[temporal]= 6 个卷积层组成。特征图的数量设置为 W = 96。卷积层的输出之后是逐点 ReLU [19] 激活函数 ReLU(·) = max(·, 0)。在训练时,批量归一化层(BN [20])放置在卷积层和 ReLU 层之间。

在测试时,the batch normalization layers 被移除,并由an affine layer that applies the learned normalization应用学习归一化的仿射层代替。卷积核的空间大小为 3 × 3,步幅设置为 1。

在两个块中,输入首先被缩小到四分之一分辨率。以较低分辨率执行去噪的主要优点是大大减少了运行时间和内存需求,而不会牺牲去噪性能 [8, 18]。使用 [21] 中描述的技术执行放大回全分辨率。两个块都具有残差连接 [10],据观察可以简化训练过程 [18]

训练细节

空间去噪块和时间去噪块单独训练,其中空间去噪优先进行;训练均采用图像裁剪的crop or patchs。通过添加σ∈[0,55]的AWGN对给定序列的patch

空间去噪块:WaterExploration DataBase数据集,共随机裁剪10240000个patchs,噪声patch=50,个人认为损失函数使用的是L2损失函数,其中运动估计采用的DeepFlow,从而进行补偿。

时间去噪块:DAVIS数据集

共同结构:the ADAM algorithm [25] is applied to min-imize the loss function,with all its hyper-parameters set to
their default values.所有超参数都设置为默认值。epoch=80, mini-batch=128,learning-rate前50轮 1 e − 3 1e-3 1e3,50-60轮 1 e − 4 1e-4 1e4,最后 1 e − 6 1e-6 1e6

data augment通过引入不同的比例因子和随机翻转,数据增加了五倍。

结果

测试集:DAVIS /Sets8 (第一段阐述其数据集的参数)

比较:VBM4D VNLB NeatVideo(商业化去噪软件)

image-20220402110758173

一般来说,DVDnet 输出的序列具有显着的时间连贯性。我们的方法渲染的闪烁非常小,尤其是在平坦区域,基于补丁的算法通常会留下低频残留噪声。可以在图 1 中观察到一个示例。 3(最好以数字格式查看)。平坦区域中的时间去相关低频噪声在观察者眼中显得特别烦人。更多视频示例可以在算法的网站上找到。

image-20220402110855670 image-20220402110905335 image-20220402110938126

结论

com/imgs/20220402-1109-483.png" alt=“image-20220402110938126” style=“zoom:67%;” />

结论

DVDnet 的去噪结果具有显着的时间相干性、极低的闪烁和出色的细节保留。该算法实现的运行时间至少比其他最先进的竞争对手快一个数量级。尽管本文提出的结果适用于高斯噪声,但我们的方法可以扩展到去噪其他类型的噪声

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/37312.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Oracle通过函数调用dblink同步表数据方案(全量/增量)

创建对应的包,以方便触发调用 /*包声明*/ CREATE OR REPLACE PACKAGE yjb.pkg_scene_job AS /*创建同步任务*/FUNCTION F_SYNC_DRUG_STOCK RETURN NUMBER;/*同步*/PROCEDURE PRC_SYNC_DRUG_STOCK(RUNJOB VARCHAR2) ; END pkg_scene_job; /*包体*/ CREATE OR REPL…

深入理解netfilter和iptables

目录 Netfilter的设计与实现 内核数据包处理流 netfilter钩子 钩子触发点 NF_HOOK宏与Netfilter裁定 回调函数与优先级 iptables 内核空间模块 xt_table的初始化 ipt_do_table() 复杂度与更新延时 用户态的表,链与规则 conntrack Netfilter(结合iptable…

100种思维模型之安全边际思维模型-92

安全边际, 简而言之即距离某一件糟糕的事件发生,还有多大的空间,安全边际越高,我们就越安全! 安全边际思维模型一个 让生活变得更从容 的 思维模型。 01、何谓安全边际思维模型 一、安全边际思维 安全边际 源于…

ACL 2023 | 持续进化中的语言基础模型

尽管如今的 AI 模型已经具备了理解自然语言的能力,但科研人员并没有停止对模型的不断改善和理论探索。自然语言处理(NLP)领域的技术始终在快速变化和发展当中,酝酿着新的潮流和突破。 NLP 领域的顶级学术会议国际计算语言学年会 …

声网 Agora音视频uniapp插件跑通详解

一、前言 在使用声网SDK做音视频会议开发时, 通过声网官方论坛 了解到,声网是提供uniapp插件的,只是在官方文档中不是很容易找到。 插件地址如下: Agora音视频插件 Agora音视频插件(JS) 本文讲解如何跑通演示示例 二、跑通Demo 2.1 环境安装: 参考: 2. 通过vue-…

vue3+element+sortablejs实现table表格 行列动态拖拽

vue3elementsortablejs实现table动态拖拽 1.第一步我们要安装sortablejs依赖2.在我们需要的组件中引入3.完整代码4.效果 1.第一步我们要安装sortablejs依赖 去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片. npm install so…

巩固一下NodeJs

1、初始化(确保当前电脑有node环境) npm init 2、安装express npm i expressnpm i ws文件结构 3、编写相关代码启动node服务(server.js) //导入下列模块,express搭建服务器,fs用来操作文件、ws用来实现webscoket const express require("expr…

Android 使用webView打开网页可以实现自动播放音频

使用webview 自动播放音视频,场景如,流媒体自动部分,音视频通话等。会出现如下问题: 解决方案如下: 配置webview 如下,这样可以自动播放音频。 webView.getSettings().setMediaPlaybackRequiresUserGestur…

原生JS实现图片裁剪功能

功能介绍:图片通过原生input上传,使用canvas进行图片裁剪。 裁剪框限制不允许超出图片范围,图片限制了最大宽高(自行修改要的尺寸),点击确认获取新的base64图片数据 注:fixed布局不适用该方案&…

在vue中点击弹框给弹框中的表格绑值

场景描述&#xff1a;如下图所示&#xff0c;我们需要点击 ‘账单生成’ 按钮&#xff0c;然后里边要展示一个下图这样的表格。 最主要的是如何展示表格中的内容&#xff0c;一起看看吧&#xff01; <template><!-- 水费 欠费--><el-dialog title"水费欠费…

短视频seo矩阵源码开发与实践分享

在短视频矩阵系统源码开发中&#xff0c;需要注意以下几个细节&#xff1a; 1. 确定系统的功能需求&#xff1a;在开发短视频矩阵系统源码时&#xff0c;必须先明确系统的功能需求&#xff0c;包括用户的基本操作、系统数据的生成和处理等。 2. 定义数据库结构&#xff1a;短…

零售数字化转型如何破局?这篇文章全说清了!

“数字化转型”&#xff0c;一个老生常谈的话题。自19世纪互联网崭露头角&#xff0c;亚马逊和eBay等电商平台崛起&#xff0c;引领电子商务的发展。传统零售业开始意识到在线渠道的重要性&#xff0c;并纷纷推出自己的电子商务网站&#xff0c;从自此进入数字化转型的赛道当中…

利用电价运行策略研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

STM32单片机语音识别台灯控制系统人检测亮度调节

实践制作DIY- GC00156-语音识别台灯控制系统 一、功能说明&#xff1a; 基于STM32单片机设计-语音识别台灯控制系统 二、功能说明&#xff1a; 电路&#xff1a;STM32F103C系列最小系统串口语音识别模块LED灯板1个红外传感器 1.任何时候没有人则关闭灯。有人可以自动打开灯。…

激斗云计算:互联网大厂打响新一轮排位战

大模型如同一辆时代列车&#xff0c;所有科技大厂都想上车。 自去年底ChatGPT一炮而红&#xff0c;国内外数十家科技大厂、创业公司、机构相继下场&#xff0c;一时间掀起大模型的热浪。 《中国人工智能大模型地图研究报告》显示&#xff0c;截至今年5月28日&#xff0c;中国…

contentEditable属性

我们最常用的输入文本内容便是input与textarea&#xff0c;但是有一个属性&#xff0c;可以让我们在很多标签中&#xff0c;如div,table,p,span,body等&#xff0c;可以像input输入框一样&#xff0c;实现文本编辑&#xff0c;这便是contentEditable属性 之前有用到这个属性是在…

快速搭建一个美观且易用的 Django 管理后台 —— django-xadmin

Django-xadmin&#xff08;也称为Xadmin&#xff09;是一个第三方的 Django 应用程序&#xff0c;它提供了一系列工具和模板来快速开发基于 Django 的后台管理界面。使用 Django-xadmin 可以用很少的代码就创建出一个强大的、具备实时查看数据、增、删、改等基本操作的 Django …

LiveNVR监控流媒体Onvif/RTSP功能-安全控制HTTP接口鉴权开启禁止游客访问开启后401 Unauthorized如何播放调用接口

LiveNVR安全控制HTTP接口鉴权开启禁止游客访问开启后401 Unauthorized如何播放调用接口&#xff1f; 1、安全控制1.1、接口鉴权1.2、禁止游客访问 2、401 Unauthorized2.1、携带token调用接口2.1.1、获取鉴权token2.1.2、调用其它接口2.1.2.1、携带 CookieToken2.1.2.2、携带 U…

C人脸识别

1、原始图片&#xff1a; 2、灰度化下&#xff1a; 3、均值滤波&#xff1a; 4、 二值图加边缘检测 5、生成积分图 6、把待检测的人脸区域划分为25个&#xff0c;因为是一个数组&#xff0c;这样分别统计每个区域的像素个数&#xff1a; x0: 60, y0: 100, x1: 157, y1: 200 …

介绍AI绘画课,让智能工具助力创作 释放无限想象力 助你成为绘画大师

演示地址&#xff1a; www.runruncode.com/portal/article/index/id/19458/cid/81.html 画画是一项有趣的活动&#xff0c;它让人充满无限可能。对许多人来说&#xff0c;画画既是一种放松的方式&#xff0c;也是一种与创意、文化和艺术联系的途径。如果你是一个初学者&#x…
最新文章