浅析扩散模型与图像生成【应用篇】(八)——BBDM

8. BBDM: Image-to-Image Translation with Brownian Bridge Diffusion Models

  本文提出一种基于布朗桥(Brownian Bridge)的扩散模型用于图像到图像的转换。图像到图像转换的目标是将源域 A A A中的图像 I A I_A IA,映射到目标域 B B B中得到图像 I B I_B IB。在一般的扩散模型中(如DDPM),是从目标域 B B B中采集样本作为起点 x 0 x_0 x0对其进行扩散,得到纯噪声 x T x_T xT;然后,再从纯噪声中采样进行反向去噪,生成目标图像 x 0 {x}_0 x0。为了实现图像到图像的转换,一般会将参考图像作为条件 y y y,引入到生成过程中,噪声估计网络 ϵ θ \epsilon_{\theta} ϵθ同时根据前一步的结果 x t x_t xt,时刻 t t t和条件 y y y来估计噪声,进而得到新的去噪结果 x t − 1 x_{t-1} xt1,如下图A所示。
在这里插入图片描述

  不同于一般的扩散模型,其扩散过程只依赖于起始点 x 0 x_0 x0,布朗桥扩散过程同时依赖起点 x 0 x_0 x0和终点 x T x_T xT,其数学表达如下 p ( x t ∣ x 0 , x T ) = N ( ( 1 − t T ) x 0 + t T x T , t ( T − t ) T I ) (8-1) p\left(\boldsymbol{x}_{t} \mid \boldsymbol{x}_{0}, \boldsymbol{x}_{T}\right)=\mathcal{N}\left(\left(1-\frac{t}{T}\right) \boldsymbol{x}_{0}+\frac{t}{T} \boldsymbol{x}_{T}, \frac{t(T-t)}{T} \boldsymbol{I}\right)\tag{8-1} p(xtx0,xT)=N((1Tt)x0+TtxT,Tt(Tt)I)(8-1)基于此,作者将条件 y y y取代纯噪声作为终点 x T x_T xT,然后从条件 y y y开始进行反向去噪得到目标图像 x 0 {x}_0 x0。值得注意的是,在生成过程中,条件 y y y只作为起点,而不作为噪声估计网络 ϵ θ \epsilon_{\theta} ϵθ的条件,如上图B所示。
  为了提升学习的效率和泛化能力,作者在浅层空间中完成扩散和重建过程,而不是在图像空间中,作者先利用VQGAN的编码器将图像 I A I_A IA映射到潜在空间中 L A L_A LA,经过扩散和重建后得到目标域的潜在特征 L A → B L_{A\rightarrow B} LAB,最后再利用VQGAN的解码器恢复得到图像 I A → B I_{A\rightarrow B} IAB
在这里插入图片描述

这篇文章我读着很迷惑,从源域转换到目标域,那么根据上图的表示源域应该是真实图片,目标域是漫画图像,那么所谓的条件也就是参考图像 y y y应该是来自于源域啊。为什么文章中又说从目标域 B B B中采样得到 y y y呢?而且前文一直在讲,把 y y y作为前向扩散过程的终点和反向去噪过程的起点,那为什么上图灰色区域中前向扩散的终点是目标域的图像呢?不知道是我自己的理解问题,还是作者本身的写作有误。下文会按照我自己的理解来写,可能会与原文有一点点微弱的出入。

  分别从源域 A A A和目标域 B B B中采集成对的样本 ( y , x ) (y,x) (y,x),经过VQGAN的编码器处理后得到对应的特征向量 y , x \boldsymbol{y,x} y,x,则布朗桥前向扩散过程可写为 q B B ( x t ∣ x 0 , y ) = N ( x t ; ( 1 − m t ) x 0 + m t y , δ t I ) (8-2) q_{B B}\left(\boldsymbol{x}_{t} \mid \boldsymbol{x}_{0}, \boldsymbol{y}\right)=\mathcal{N}\left(\boldsymbol{x}_{t} ;\left(1-m_{t}\right) \boldsymbol{x}_{0}+m_{t} \boldsymbol{y}, \delta_{t} \boldsymbol{I}\right)\tag{8-2} qBB(xtx0,y)=N(xt;(1mt)x0+mty,δtI)(8-2)其中 x 0 = x , m t = t T \boldsymbol{x}_{0}=\boldsymbol{x}, \quad m_{t}=\frac{t}{T} x0=x,mt=Tt T T T表示扩散过程的总步数,方差 δ t \delta_t δt定义为 δ t = 2 s ( m t − m t 2 ) (8-3) \delta_{t}=2 s\left(m_{t}-m_{t}^{2}\right)\tag{8-3} δt=2s(mtmt2)(8-3)其中 s s s作为一个放缩系数,用于控制采样的多样性,默认值为1。这样的设置,保证了当 t = 0 t=0 t=0 t = T t=T t=T时, δ t \delta_t δt都为0,而 x t x_t xt分别为 x 0 x_0 x0 y y y,满足了前文所述的扩散的起点和终点。扩散过程中单步的转移公式如下 q B B ( x t ∣ x t − 1 , y ) = N ( x t ; 1 − m t 1 − m t − 1 x t − 1 + ( m t − 1 − m t 1 − m t − 1 m t − 1 ) y , δ t ∣ t − 1 I ) (8-4) q_{B B}\left(\boldsymbol{x}_{t} \mid \boldsymbol{x}_{t-1}, \boldsymbol{y}\right)=\mathcal{N}\left(\boldsymbol{x}_{t} ; \frac{1-m_{t}}{1-m_{t-1}} \boldsymbol{x}_{t-1}+\left(m_{t}-\frac{1-m_{t}}{1-m_{t-1}} m_{t-1}\right) \boldsymbol{y}, \delta_{t \mid t-1} \boldsymbol{I}\right) \tag{8-4} qBB(xtxt1,y)=N(xt;1mt11mtxt1+(mt1mt11mtmt1)y,δtt1I)(8-4)其中 δ t ∣ t − 1 = δ t − δ t − 1 ( 1 − m t ) 2 ( 1 − m t − 1 ) 2 (8-5) \delta_{t \mid t-1}=\delta_{t}-\delta_{t-1} \frac{\left(1-m_{t}\right)^{2}}{\left(1-m_{t-1}\right)^{2}}\tag{8-5} δtt1=δtδt1(1mt1)2(1mt)2(8-5)
  经过前向扩散过程,我们将目标域的图像 x 0 x_0 x0映射到源域中的 x T = y x_T=y xT=y,在接下来的反向去噪过程中,我们将从 y y y出发逐步去噪生成一个新的目标域图像 x 0 {x}_0 x0,单步的去噪过程如下 p θ ( x t − 1 ∣ x t , y ) = N ( x t − 1 ; μ θ ( x t , t ) , δ ~ t I ) (8-6) p_{\theta}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{y}\right)=\mathcal{N}\left(\boldsymbol{x}_{t-1} ; \boldsymbol{\mu}_{\theta}\left(\boldsymbol{x}_{t}, t\right), \tilde{\delta}_{t} \boldsymbol{I}\right)\tag{8-6} pθ(xt1xt,y)=N(xt1;μθ(xt,t),δ~tI)(8-6)其中均值 μ θ ( x t , t ) \boldsymbol{\mu}_{\theta}\left(\boldsymbol{x}_{t}, t\right) μθ(xt,t)是由一个神经网络根据 x t , t \boldsymbol{x}_{t}, t xt,t估计得到的,而方差 δ ~ t \tilde{\delta}_{t} δ~t则是一个无需学习的仅与 t t t有关的变量。那么下面的任务就是如何训练一个网络来估计均值 μ θ ( x t , t ) \boldsymbol{\mu}_{\theta}\left(\boldsymbol{x}_{t}, t\right) μθ(xt,t)了。与DDPM类似,作者也是给出一个了可变分下界的目标函数 E L B O = − E q ( D K L ( q B B ( x T ∣ x 0 , y ) ∥ p ( x T ∣ y ) ) + ∑ t = 2 T D K L ( q B B ( x t − 1 ∣ x t , x 0 , y ) ∥ p θ ( x t − 1 ∣ x t , y ) ) − log ⁡ p θ ( x 0 ∣ x 1 , y ) ) (8-7) \begin{aligned} E L B O & =-\mathbb{E}_{q}\left(D_{K L}\left(q_{B B}\left(\boldsymbol{x}_{T} \mid \boldsymbol{x}_{0}, \boldsymbol{y}\right) \| p\left(\boldsymbol{x}_{T} \mid \boldsymbol{y}\right)\right)\right. \\ & +\sum_{t=2}^{T} D_{K L}\left(q_{B B}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right) \| p_{\theta}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{y}\right)\right) \\ & \left.-\log p_{\theta}\left(\boldsymbol{x}_{0} \mid \boldsymbol{x}_{1}, \boldsymbol{y}\right)\right) \end{aligned}\tag{8-7} ELBO=Eq(DKL(qBB(xTx0,y)p(xTy))+t=2TDKL(qBB(xt1xt,x0,y)pθ(xt1xt,y))logpθ(x0x1,y))(8-7)其中第一项为常数,可以忽略。重点看第二项, q B B ( x t − 1 ∣ x t , x 0 , y ) q_{B B}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right) qBB(xt1xt,x0,y)根据贝叶斯理论可得 q B B ( x t − 1 ∣ x t , x 0 , y ) = q B B ( x t ∣ x t − 1 , y ) q B B ( x t − 1 ∣ x 0 , y ) q B B ( x t ∣ x 0 , y ) = N ( x t − 1 ; μ ~ t ( x t , x 0 , y ) , δ ~ t I ) (8-8) \begin{aligned} q_{B B}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right) & =\frac{q_{B B}\left(\boldsymbol{x}_{t} \mid \boldsymbol{x}_{t-1}, \boldsymbol{y}\right) q_{B B}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{0}, \boldsymbol{y}\right)}{q_{B B}\left(\boldsymbol{x}_{t} \mid \boldsymbol{x}_{0}, \boldsymbol{y}\right)} \\& =\mathcal{N}\left(\boldsymbol{x}_{t-1} ; \tilde{\boldsymbol{\mu}}_{t}\left(\boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right), \tilde{\delta}_{t} \boldsymbol{I}\right) \end{aligned}\tag{8-8} qBB(xt1xt,x0,y)=qBB(xtx0,y)qBB(xtxt1,y)qBB(xt1x0,y)=N(xt1;μ~t(xt,x0,y),δ~tI)(8-8)其中均值 μ ~ t ( x t , x 0 , y ) \tilde{\boldsymbol{\mu}}_{t}\left(\boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right) μ~t(xt,x0,y) μ ~ t ( x t , x 0 , y ) = δ t − 1 δ t 1 − m t 1 − m t − 1 x t + ( 1 − m t − 1 ) δ t ∣ t − 1 δ t x 0 + ( m t − 1 − m t 1 − m t 1 − m t − 1 δ t − 1 δ t ) y (8-9) \begin{aligned} \tilde{\boldsymbol{\mu}}_{t}\left(\boldsymbol{x}_{t}, \boldsymbol{x}_{0}, \boldsymbol{y}\right) & =\frac{\delta_{t-1}}{\delta_{t}} \frac{1-m_{t}}{1-m_{t-1}} \boldsymbol{x}_{t} \\ & +\left(1-m_{t-1}\right) \frac{\delta_{t \mid t-1}}{\delta_{t}} \boldsymbol{x}_{0} \\ & +\left(m_{t-1}-m_{t} \frac{1-m_{t}}{1-m_{t-1}} \frac{\delta_{t-1}}{\delta_{t}}\right) \boldsymbol{y} \end{aligned}\tag{8-9} μ~t(xt,x0,y)=δtδt11mt11mtxt+(1mt1)δtδtt1x0+(mt1mt1mt11mtδtδt1)y(8-9)方差 δ ~ t \tilde{\delta}_{t} δ~t δ ~ t = δ t ∣ t − 1 ⋅ δ t − 1 δ t (8-10) \tilde{\delta}_{t}=\frac{\delta_{t \mid t-1} \cdot \delta_{t-1}}{\delta_{t}}\tag{8-10} δ~t=δtδtt1δt1(8-10)由于在推理过程中 x 0 x_0 x0是未知的,因此可以根据公式8-2由当前的 x t x_t xt反向估计一个 x ^ 0 \hat{x}_0 x^0,将其带入公式8-9中可得 δ ~ t = δ t ∣ t − 1 ⋅ δ t − 1 δ t μ ~ t ( x t , y ) = c x t x t + c y t y + c ϵ t ( m t ( y − x 0 ) + δ t ϵ ) (8-11) \tilde{\delta}_{t}=\frac{\delta_{t \mid t-1} \cdot \delta_{t-1}}{\delta_{t}}\tilde{\boldsymbol{\mu}}_{t}\left(\boldsymbol{x}_{t}, \boldsymbol{y}\right)=c_{x t} \boldsymbol{x}_{t}+c_{y t} \boldsymbol{y}+c_{\epsilon t}\left(m_{t}\left(\boldsymbol{y}-\boldsymbol{x}_{0}\right)+\sqrt{\delta_{t}} \boldsymbol{\epsilon}\right)\tag{8-11} δ~t=δtδtt1δt1μ~t(xt,y)=cxtxt+cyty+cϵt(mt(yx0)+δt ϵ)(8-11)其中 c x t = δ t − 1 δ t 1 − m t 1 − m t − 1 + δ t ∣ t − 1 δ t ( 1 − m t − 1 ) c y t = m t − 1 − m t 1 − m t 1 − m t − 1 δ t − 1 δ t c ϵ t = ( 1 − m t − 1 ) δ t ∣ t − 1 δ t (8-12) \begin{array}{l} c_{x t}=\frac{\delta_{t-1}}{\delta_{t}} \frac{1-m_{t}}{1-m_{t-1}}+\frac{\delta_{t \mid t-1}}{\delta_{t}}\left(1-m_{t-1}\right) \\ c_{y t}=m_{t-1}-m_{t} \frac{1-m_{t}}{1-m_{t-1}} \frac{\delta_{t-1}}{\delta_{t}} \\ c_{\epsilon t}=\left(1-m_{t-1}\right) \frac{\delta_{t \mid t-1}}{\delta_{t}} \end{array}\tag{8-12} cxt=δtδt11mt11mt+δtδtt1(1mt1)cyt=mt1mt1mt11mtδtδt1cϵt=(1mt1)δtδtt1(8-12)与DDPM中一样,作者不直接预测均值 μ ~ t \tilde{\mu}_t μ~t,而是对其中的噪声 ϵ \epsilon ϵ进行预测。 p θ ( x t − 1 ∣ x t , y ) p_{\theta}\left(\boldsymbol{x}_{t-1} \mid \boldsymbol{x}_{t}, \boldsymbol{y}\right) pθ(xt1xt,y)中的均值项 μ θ ( x t , t ) \boldsymbol{\mu}_{\theta}\left(\boldsymbol{x}_{t}, t\right) μθ(xt,t)可以重写为 x t , y \boldsymbol{x}_{t},\boldsymbol{y} xt,y和估计噪声 ϵ θ \epsilon_{\theta} ϵθ的线性组合 μ θ ( x t , y , t ) = c x t x t + c y t y + c ϵ t ϵ θ ( x t , t ) (8-13) \boldsymbol{\mu}_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t}, \boldsymbol{y}, t\right)=c_{x t} \boldsymbol{x}_{t}+c_{y t} \boldsymbol{y}+c_{\epsilon t} \boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, t\right)\tag{8-13} μθ(xt,y,t)=cxtxt+cyty+cϵtϵθ(xt,t)(8-13)则目标函数 E L B O ELBO ELBO可以简化为 E x 0 , y , ϵ [ c ϵ t ∥ m t ( y − x 0 ) + δ t ϵ − ϵ θ ( x t , t ) ∥ 2 ] (8-14) \mathbb{E}_{\boldsymbol{x}_{0}, \boldsymbol{y}, \boldsymbol{\epsilon}}\left[c_{\epsilon t}\left\|m_{t}\left(\boldsymbol{y}-\boldsymbol{x}_{0}\right)+\sqrt{\delta_{t}} \boldsymbol{\epsilon}-\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, t\right)\right\|^{2}\right]\tag{8-14} Ex0,y,ϵ[cϵt mt(yx0)+δt ϵϵθ(xt,t) 2](8-14)
完整的训练流程如下
在这里插入图片描述
  经过训练得到噪声估计网络 ϵ θ ( x t , t ) \boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, t\right) ϵθ(xt,t),就可以从源域中任意采样一个条件输入 y \boldsymbol{y} y作为生成的起点 x T \boldsymbol{x}_T xT,经过反向去噪得到生成结果 x 0 x_0 x0,如下所示
在这里插入图片描述
  上述的采样过程也可以利用DDIM提出的加速技巧进行加速。整体上而言,BBDM就是将原本扩散过程从图像到噪声的变换,改成了从目标图像到源图像的变换。然后,在反向去噪时,只需给定一个源图像就能据此生成对应目标域中的样本。虽然不用像其他条件扩散模型那样,将条件引入模型中用于训练,但在BBDM的训练过程需要成对的样本,这限制了BBDM在许多情景中的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/438011.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于cnn卷积神经网络的车辆颜色检测识别-图像去雾-图像去雨(改进yolo目标检测-附代码)

– 引言: 开篇简述图像处理在智能交通监控、自动驾驶等领域的关键作用,并强调随着深度学习尤其是卷积神经网络(CNN)的发展,在复杂环境下的车辆颜色精确识别、图像恢复(如去雾和去雨)等难题得以…

数字孪生10个技术栈:数据处理的六步骤,以获得可靠数据。

一、什么是数据处理 在数字孪生中,数据处理是指对采集到的实时或历史数据进行整理、清洗、分析和转化的过程。数据处理是数字孪生的基础,它将原始数据转化为有意义的信息,用于模型构建、仿真和决策支持。 数据处理是为了提高数据质量、整合数…

腾讯云学生服务器多少钱?怎么申请?

2024年腾讯云学生服务器优惠活动「云校园」,学生服务器优惠价格:轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年,轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年,CVM云服务器2核4G配置842.4元一年&…

图书馆管理系统(2)

接下来实现系统的子菜单,在写一个子模块的时候,其他子模块先屏蔽起来,因为没实现,代码运行就通不过 屏蔽起来写上todo,后面(Ctrl键F)搜索,找todo来实现 先来实现图书管理模块 第一步,先要把图…

Unity3D学习之XLua实践——背包系统

文章目录 1 前言2 新建工程导入必要资源2.1 AB包设置2.2 C# 脚本2.3 VSCode 的环境搭建 3 面板拼凑3.1 主面板拼凑3.2 背包面板拼凑3.3 格子复合组件拼凑3.4 常用类别名准备3.5 数据准备3.5.1 图集准备3.5.2 json3.5.3 打AB包 4 Lua读取json表及准备玩家数据5 主面板逻辑6 背包…

社区店选址案例研究:成功与失败的经验教训

大家好,我是一名鲜奶吧5年的创业者,在社区店经营方面有着丰富的经验。 今天,我将分享一些关于社区店选址的成功与失败案例,希望能给想开实体店或创业的朋友们提供有价值的干货信息。 首先,让我们来看看成功的社区店选…

鸿蒙开发岗成春招最大黑马,“金三银四”应届生如何突围?

一年一度春招时间到,技术岗位已成为众多人才竞相追求的“职业高地”,也是未来职业发展的重要方向之一。鸿蒙人才在春招市场上成为“香饽饽”,与往年不同的是,许多应届生放弃考公执念向程序员进攻,这一现象背后蕴含着深…

【C++】priority_queue和仿函数

priority_queue翻译过来就是优先队列,其实就是我们数据结构中的堆。堆这个东西之前也说过,它分为大根堆和小根堆,它的底层是一个类似数组的连续的空间,逻辑结构是一个完全二叉树,这个完全二叉树如果是小根堆的话父亲小…

高效实用|ChatGPT指令/提示词/prompt/AI指令大全,进阶版

大家好,我是淘小白~ 《高效实用|ChatGPT指令/提示词/prompt/AI指令大全,基础版》整理完了,下面来看下进阶版的吧! 如果对你有用记得点赞、关注、收藏哦~ 划走可能找不着了哦~~ 进阶版指令可用于复杂任务和场景,以及…

01背包问题 刷题笔记

思路 dp 用f[i][j]来表示当体积为j时 考虑前i件物品可以获得的 最大值 记住f[i][j]本身是个价“价值” 考虑两种状态 是否将第i件物品放入背包里面 将背包的体积从小到大递增来进行考虑 首先 考虑条件 如果当前增加的体积放不下下一件物品 则该体积 可以获得的最大值可以直接…

通义灵码-智能编码辅助工具

1.介绍 通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/OpenAPI 的使用场景调优&a…

经典语义分割(二)医学图像分割模型UNet

经典语义分割(二)医学图像分割模型UNet 我们之前介绍了全卷积神经网络( FCN) ,FCN是基于深度学习的语义分割算法的开山之作。 今天我们介绍另一个语义分割的经典模型—UNet,它兼具轻量化与高性能,通常作为语义分割任务的基线测试模型&#x…

Unity 动画(旧版-新版)

旧版 旧版-动画组件:Animation 窗口-动画 动画文件后缀: .anim 将制作后的动画拖动到Animation组件上 旧版的操作 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c1 : MonoBehaviour {// Start is called before…

【Python】6. 基础语法(4) -- 列表+元组+字典篇

列表和元组 列表是什么, 元组是什么 编程中, 经常需要使用变量, 来保存/表示数据. 如果代码中需要表示的数据个数比较少, 我们直接创建多个变量即可. num1 10 num2 20 num3 30 ......但是有的时候, 代码中需要表示的数据特别多, 甚至也不知道要表示多少个数据. 这个时候,…

SAP - 采购价格确定 ③ 抬头条件和组条件

抬头条件和组条件 当我们创建一个具有多个行项目的采购订单时,我们经常需要条件可以应用到所有的行项目中。相应的,条件也可以应用到特定的行项目。在R/3系统中,条件可以涉及采购凭证的单个行项目(项目条件),多个行项目(组条件)或所有的行项目(抬头条件)。 一些标准…

day14_异常

今日内容 零、 复习昨日 一、日期类 二、异常 零、 复习昨日 1为什么要重写toString Object类toString返回的是对象名字地址,无意义子类重写toString() 返回的对象属性内容 2为什么要重写equals Object类equals判断是对象的地址值是否相等,无意义子类重写equals,为了判断对象的…

贪心算法详解及机器人运动应用Demo

一、引言 贪心算法是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是全局最好或最优的算法。贪心算法在有最优子结构的问题中尤为有效。今天,我们将通过一个机器人运动的Demo来详细解析贪心算…

Vision Transformer结构解析

Vision Transformer结构解析 ViT简介ViT三大模块ViT图像预处理模块——PatchEmbed多层Transformer Encoder模块MLP(FFN)模块 基本的Transformer模块Vision Transformer类的实现Transformer知识点 ViT简介 Vision Transformer。transformer于2017年的Att…

【计算机考研】考408,还是不考408性价比高?

首先综合考虑,如果其他科目并不是很优秀,需要我们花一定的时间去复习,408的性价比就不高,各个科目的时间互相挤压,如果备考时间不充裕,考虑其他专业课也未尝不可。 复习408本来就是费力不讨好的事情 不同…

支小蜜校园防欺凌报警系统如何识别霸凌

校园霸凌给受害者带来了深重的心理和身体伤害。为了有效应对这一问题,校园防欺凌报警系统应运而生,其核心技术在于如何准确、迅速地识别霸凌行为。那么校园防欺凌报警系统是如何识别霸凌的呢? 图像识别技术 这些系统利用高清摄像头捕捉校园…