【Functional Affordances】如何确认可抓取的区域?(前传)

文章目录

  • 1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers
  • 2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision
  • 3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
    • 核心
    • 模型框架
  • 4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence
    • 怎么提取 并 融合SD和DINO的特征
  • 5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion
    • 回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers

在这里插入图片描述

  • 这篇文章通过提出DINO自监督学习方法,展示了Vision Transformer(ViT)在无需标签的情况下学习到的丰富视觉特征,为未来无监督和自监督视觉模型的研究与应用开辟了新路径。

  • 丰富视觉特征,即自监督预训练的ViT模型能够学习到图像的语义分割信息。

  • 为后续工作铺垫。

重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法

在这里插入图片描述

2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision

AI Computer Vision Research
DINOv2: A Self-supervised Vision Transformer Model

在这里插入图片描述
实现细节我们不看了,看一下结果,看这种方法可以为我们带来什么下游任务启发。

  • 如上图,每个组件都与不同的颜色通道匹配。尽管姿势、风格甚至物体发生了变化,但相关图像之间的相同部分仍会匹配。
  • 图10。跨图像匹配。我们匹配来自不同领域、姿势甚至共享相似语义信息的对象的图像之间的补丁级特征。这展示了我们的模型跨领域转移和理解不同对象的相似部分之间关系的能力。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

基于扩散模型的特征提取方法,用于语义对应任务

核心

在这项工作中,我们提出了一个框架,用于将扩散过程中的所有中间特征图整合在一起,这些特征图在规模和时间上各不相同,到一个我们称之为扩散超特征的逐像素描述符中。

模型框架

在这里插入图片描述
我们的方法由两个核心部分组成。
提取(第 3.1 节):我们制定了一个简化且统一的提取过程,可同时考虑合成图像和真实图像,这意味着我们能够对两种图像类型的特征使用相同的聚合网络。
聚合(第 3.2 节):我们提出了一个可解释的聚合网络,它学习跨特征的混合权重,突出显示提供底层模型和任务所独有的最有用特征的层和时间步长。


3.1 Diffusion Process Extraction

扩散模型提供了粗略和精细的特征,这些特征在层和时间步的不同组合中捕获不同的图像特征(即语义或纹理信息)。因此,我们发现从所有层和时间步中提取特征很重要,以便充分调整我们的最终描述符映射来表示给定任务所需的适当粒度级别

在这里插入图片描述

我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

在这里插入图片描述
在上图中,我们可以看到,我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

相反,使用生成过程来分析真实图像(如之前的工作中所做的那样)会导致超参数调整和权衡。例如,在接近 t = T 的时间步长处,分布内输入接近噪声,特征开始偏离真实图像中存在的信息,甚至可能产生无关细节的幻觉,如图 3 所示。


3.2 Diffusion Hyperfeatures Aggregation

在这里插入图片描述

在这里插入图片描述

示例合成图像及其文本提示、用户注释的真实对应关系以及来自 DINO、SD-Layer-4 和我们的方法的预测对应关系。请注意,我们转移了根据真实图像的反演特征调整的聚合网络,并将其应用于这些合成图像的生成特征,与 SPair-71k 类别相比,这些合成图像完全在域外。

4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

将SD特征和DINOv2特征用一种简单的方式融合在一起了

  • 我们利用稳定扩散(SD)特征进行语义和密集对应 (semantic and dense correspondence),并发现通过简单的后处理,SD 特征与 SOTA 的表示质量相媲美。
  • 我们展示了文本到图像生成模型(SD)的内部表示在语义和密集对应方面的潜力。

  • 我们的分析表明,与现有的表示学习特征(例如最近发布的 Dinov2)相比,SD 特征具有非常不同的属性:虽然 Dinov2 提供了稀疏但准确的匹配,但 SD 特征提供高质量的空间信息,但有时不准确的语义匹配。
  • 我们分析了SD的特征,它产生空间感知但不准确的对应,以及标准表示学习特征,即DINOv2,它产生准确但稀疏的对应,并表明它们是相互补充的。

  • 我们设计了一种简单的策略来对齐和集成SD 和DINOv2 特征,并证明这些具有零样本评估的特征(仅最近邻,无需专门训练)可以在语义和密集对应方面优于许多SOTA 方法。

在这里插入图片描述
在右侧,我们通过将狗、马、牛甚至摩托车与源图像中的猫进行匹配来展示我们方法的稳健性。

怎么提取 并 融合SD和DINO的特征

Stable Diffusion 的架构由三部分组成:编码器 E、解码器 D(促进像素和潜在空间之间的转换),以及在潜在空间中运行的去噪 U-Net U。
我们首先通过编码器 E 将输入图像 x0 投影到潜在空间中,以产生潜在代码 z0。接下来,我们根据预定义的时间步长 t 将高斯噪声 ε 添加到潜在代码中。
然后,以时间步 t 的潜在代码 zt 和文本嵌入 C 作为输入,我们从去噪 U-Net 中提取特征 F_SD。整个过程可以正式表示如下:
在这里插入图片描述
之前的工作报道了中间 U-Net 层对于图像到图像翻译任务具有更多语义信息,但尚不清楚这些特征是否适合语义对应。


Dinov2 和SD的互补特性为提高语义对应任务的性能提供了有希望的潜力。

  • DINO特征可以捕获高级语义信息,擅长获得稀疏但准确的匹配。
  • SD特征侧重于低级空间信息并确保对应关系的空间相干性,特别是在缺乏强纹理信号的情况下。

一个自然的问题出现了:怎么融合两个特征?


提出了一种简单而有效的融合策略来利用 SD 和 DINO 特征。核心思想是 独立归一化这两个特征来对齐它们的尺度和分布,然后将它们连接在一起:
在这里插入图片描述

5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion

从扩散网络中提取隐式知识作为图像特征,利用这些特征进行真实图像之间的对应

给定图像中的红色源点(最左侧),我们希望开发一个模型,可以自动找到右侧图像中的对应点。在没有任何微调或对应监督的情况下,我们提出的 **扩散特征(DIFT)**可以跨实例、类别甚至领域建立语义对应,例如,从鸭子到企鹅,从照片到油画。
在这里插入图片描述

回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

作者对扩散模型做了一个短小精悍的介绍

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/494786.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网安学习笔记-day9,DNS服务器介绍

文章目录 DNS服务器部署域名介绍及分类DNS解析解析过程1.递归查询2.迭代查询 DNS服务器部署准备阶段安装DNS服务 部署过程在另一台虚拟机查看是否能解析到baidu.com的地址测试解析 转发器 扩展命令 DNS服务器部署 DNS(Domain Name System) 域名介绍及分类 常用的www.baidu.c…

【unity】如何汉化unity编译器

在【unity】如何汉化unity Hub这篇文章中,我们已经完成了unity Hub的汉化,现在让我们对unity Hub安装的编译器也进行下汉化处理。 第一步:在unity Hub软件左侧栏目中点击安装,选择需要汉化的编译器,再点击设置图片按钮…

stitcher类实现多图自动拼接

效果展示 第一组: 第二组: 第三组: 第四组: 运行代码 import os import sys import cv2 import numpy as npdef Stitch(imgs,savePath): stitcher cv2.Stitcher.create(cv2.Stitcher_PANORAMA)(result, pano) stitcher.st…

自动化面试常见算法题!

1、实现一个数字的反转,比如输入12345,输出54321 num 12345 num_str str(num) reversed_num_str num_str[::-1] reversed_num int(reversed_num_str) print(reversed_num) # 输出 54321代码解析:首先将输入的数字转换为字符串&#xff…

ARMday7作业

实现三个按键的中断,现象和代码 do_ipr.c #include "stm32mp1xx_gic.h" #include "stm32mp1xx_exti.h" extern void printf(const char *fmt, ...); unsigned int i 0; void do_irq(void) {//获取要处理的中断的中断号unsigned int irqnoGI…

离线数仓(八)【DWD 层开发】

前言 1、DWD 层开发 DWD层设计要点: (1)DWD层的设计依据是维度建模理论(主体是事务型事实表(选择业务过程 -> 声明粒度 -> 确定维度 -> 确定事实),另外两种周期型快照事实表和累积型…

信号处理--情绪分类数据集DEAP预处理(python版)

关于 DEAP数据集是一个常用的情绪分类公共数据,在日常研究中经常被使用到。如何合理地预处理DEAP数据集,对于后端任务的成功与否,非常重要。本文主要介绍DEAP数据集的预处理流程。 工具 图片来源:DEAP: A Dataset for Emotion A…

如何备考2025年AMC8竞赛?吃透2000-2024年600道真题(免费送题

最近有家长朋友问我,现在有哪些类似于奥数的比赛可以参加?我的建议可以关注下AMC8的竞赛,类似于国内的奥数,但是其难度要比国内的奥数低一些,而且比赛门槛更低,考试也更方便。比赛的题目尤其是应用题比较有…

肿瘤靶向肽 iRGD peptide环肽 1392278-76-0 c(CRGDKGPDC)

RGD环肽 c(CRGDKGPDC),iRGD peptide 1392278-76-0 结 构 式: H2N-CRGDKGPDC-OH(Disulfide Bridge:C1-C9) H2N-Cys-Arg-Gly-Asp-Lys-Gly-Pro-Asp-Cys-COOH(Disulfide Bridge:Cys1-Cys9) 氨基酸个数: 9 C35H57N13O14S2 平均分子量:…

聊聊低代码产品的应用场景

随着数字化转型的不断深入,企业对于快速开发和迭代软件应用的需求也越来越迫切。而在这样的背景下,低代码产品应运而生,成为了一种热门的技术解决方案。本文将解读低代码产品的定义并探讨其应用场景。 一、低代码产品的定义 低代码产品是一种…

企业计算机服务器中了rmallox勒索病毒怎么办,rmallox勒索病毒解密流程步骤

在网络技术飞速发展的时代,越来越多的企业离不开网络办公,通过网络开展各项工作业务成为企业的常态,这也被国外众多黑客组织盯上的原因,近期,网络勒索病毒攻击的事件频发,越来越多的企业开始重视企业数据安…

Rust语言中Regex正则表达式,匹配和查找替换等

官方仓库:https://crates.io/crates/regex 文档地址:regex - Rust github仓库地址:GitHub - rust-lang/regex: An implementation of regular expressions for Rust. This implementation uses finite automata and guarantees linear tim…

leetcode:2138. 将字符串拆分为若干长度为 k 的组(python3解法)

难度:简单 字符串 s 可以按下述步骤划分为若干长度为 k 的组: 第一组由字符串中的前 k 个字符组成,第二组由接下来的 k 个字符串组成,依此类推。每个字符都能够成为 某一个 组的一部分。对于最后一组,如果字符串剩下的…

【SAP2000】在框架结构中应用分布式面板荷载Applying Distributed Panel Loads to Frame Structures

在框架结构中应用分布式面板荷载 Applying Distributed Panel Loads to Frame Structures 使用"Uniform to Frame"选项,可以简单地将荷载用于更多样化的情况。 With the “Uniform to Frame” option, loads can be easily used for a greater diversity of situat…

如何高效阅读嵌入式代码

大家好,今天给大家介绍如何高效阅读嵌入式代码,文章末尾附有分享大家一个资料包,差不多150多G。里面学习内容、面经、项目都比较新也比较全!可进群免费领取。 高效阅读嵌入式代码需要一些技巧和实践经验。以下是一些建议&#xff…

Sublime 彻底解决中文乱码

1. 按ctrl,打开Console,输入如下代码: import urllib.request,os; pf Package Control.sublime-package; ipp sublime.installed_packages_path(); urllib.request.install_opener( urllib.request.build_opener( urllib.request.ProxyHand…

excel统计分析——单向分组资料的协方差分析

参考资料:生物统计学 单向分组资料是具有一个协变量的单因素方差分析资料。 操作案例如下: 1、对x和y进行方差分析 由方差分析表可知:4种处理间,x存在显著差异,而y在处理间差异不显著。需要进行协方差分析&#xff0c…

【C语言】linux内核pci_iomap

一、pci_iomap /** pci_iomap 是一个用于映射 PCI 设备的 BAR(Base Address Register,基地址寄存器)的函数。* 此函数返回指向内存映射 IO 的指针,用于直接访问 PCI 设备的内存或 I/O 空间。* * 参数:* dev - 指向pci_dev结构的指…

IP如何异地共享文件?

【天联】 组网由于操作简单、跨平台应用、无网络要求、独创的安全加速方案等原因,被几十万用户广泛应用,解决了各行业客户的远程连接需求。采用穿透技术,简单易用,不需要在硬件设备中端口映射即可实现远程访问。 异地共享文件 在…

使用GO对PostgreSQL进行有意思的多线程压测

前言 针对PostgreSQL进行压缩,有很多相关的工具。有同学又要问了,为何还要再搞一个?比如,pgbench, sysbench之类的,已经很强大了。是的,它们都很强大。但有时候,在一些特殊的场景,可…
最新文章