每日学术速递4.11

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

标题:InstantBooth:无需测试时间微调的个性化文本到图像生成

作者:Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung

文章链接:https://arxiv.org/abs/2304.03411

项目代码:https://jshi31.github.io/InstantBooth/

摘要:

        个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时间微调,这既耗时又难以扩展。我们提出了 InstantBooth,这是一种基于预训练的文本到图像模型的新颖方法,无需任何测试时间微调即可实现即时文本引导图像个性化。我们通过几个主要组件来实现这一点。首先,我们通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。其次,为了保持身份的精细细节,我们通过向预训练模型引入一些适配器层来学习丰富的视觉特征表示。我们只在文本图像对上训练我们的组件,而不使用相同概念的成对图像。与 DreamBooth 和 Textual-Inversion 等基于测试时间微调的方法相比,我们的模型可以在语言-图像对齐、图像保真度和身份保存等不可见概念上产生具有竞争力的结果,同时速度提高 100 倍。

2.Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field

标题:Lift3D:通过将 2D GAN 提升到 3D 生成辐射场来合成 3D 训练数据

作者:Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen

文章链接:https://arxiv.org/abs/2304.03526

项目代码:https://len-li.github.io/lift3d-web

摘要:

        这项工作探索了使用 3D 生成模型来合成 3D 视觉任务的训练数据。生成模型的关键要求是生成的数据应逼真以匹配真实场景,并且相应的 3D 属性应与给定的采样标签对齐。然而,我们发现最近基于 NeRF 的 3D GAN 由于其设计的生成管道和缺乏明确的 3D 监督而很难满足上述要求。在这项工作中,我们提出了 Lift3D,这是一种倒置的 2D 到 3D 生成框架,以实现数据生成目标。与之前的方法相比,Lift3D 有几个优点:(1) 与之前的 3D GAN 不同,训练后输出分辨率是固定的,Lift3D 可以泛化到任何具有更高分辨率和逼真输出的相机固有特性。 (2) 通过将分离良好的 2D GAN 提升到 3D 对象 NeRF,Lift3D 提供生成对象的显式 3D 信息,从而为下游任务提供准确的 3D 注释。我们通过扩充自动驾驶数据集来评估我们框架的有效性。实验结果表明,我们的数据生成框架可以有效提高 3D 对象检测器的性能。

3.FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction

标题:FineRecon:用于详细 3D 重建的深度感知前馈网络

作者:Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles

文章链接:https://arxiv.org/abs/2304.01480

摘要:

        最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。然而,通常表示为 3D 截断符号距离函数 (TSDF) 的重建几何结构通常很粗糙,没有精细的几何细节。为了解决这个问题,我们提出了三种有效的解决方案来提高基于推理的 3D 重建的保真度。我们首先提出了一种与分辨率无关的 TSDF 监督策略,以便在训练期间为网络提供更准确的学习信号,避免之前工作中出现的 TSDF 插值的缺陷。然后,我们引入了一种使用多视图深度估计的深度引导策略,以增强场景表示并恢复更准确的表面。最后,我们为网络的最后一层开发了一种新颖的架构,除了粗糙的体素特征之外,还对高分辨率图像特征的输出 TSDF 预测进行了调节,从而能够更清晰地重建精细细节。我们的方法产生平滑且高度准确的重建,显示出跨多个深度和 3D 重建指标的显着改进。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/11820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTTP HTTPS简介

一篇文章带你走进HTTP HTTPS场景复现核心干货HTTP/HTTPS简介(简单比较)HTTP工作原理HTTPS作用场景复现 最近在对前端的深入学习过程中,接触到了与网络请求相关的内容,于是打算出一个专栏,从HTTP与HTTPS入手&#xff0…

基于t-SNE的Digits数据集降维与可视化

基于t-SNE的Digits数据集降维与可视化 描述 t-SNE(t-分布随机邻域嵌入)是一种基于流形学习的非线性降维算法,非常适用于将高维数据降维到2维或者3维,进行可视化观察。t-SNE被认为是效果最好的数据降维算法之一,缺点是计算复杂度高、占用内存…

运行时内存数据区之程序计数器

内存是非常重要的系统资源,是硬盘和CPU的中间仓库及桥梁,承载着操作系统和应用程序的实时选行。JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策略,保证了JVM的高效稳定运行。 不同的VM对于内存的划分方式和管理机制存在着部分差…

英特尔CEO基辛格:开创可持续计算新时代

近日,帕特基辛格作为英特尔CEO后,第一次来华访问。在2023英特尔可持续发展高峰论坛上,笔者有幸聆听他的演讲。他严谨又不乏幽默地给我们分享了英特尔如何践行可持续发展的思考和举措。 基辛格表示,身处科技行业,我们不…

DeepFM论文翻译

1.摘要 为了最大化推荐系统的CTR,学习用户行为的复杂交叉特征很关键。 尽管有很大进步,现有的方法无论对低阶还是高阶的交叉特征,似乎还是有很强的bias, 或者需要专门的特征工程。 本文,我们证明了得出一个能强化高阶和低阶交叉特…

钢网是SMT生产使用的一种工具,如何制作?

钢网是SMT生产使用的一种工具,其主要功能是将锡膏准确地涂敷在有需要焊接的PCB焊盘上。 钢网的好坏,直接影响印刷工作的质量,目前一般使用的金属钢网,是由薄薄的、带有小孔的金属板制作成的,在开孔处,锡膏…

记录网关zuul处理跨域/XSS问题

一,疑问 1.之前遇到跨域问题是在NG中解决的,添加跨域请求头和域名配置。那么与网关处理跨域问题关系是什么,NG处理了,为什么还需要在网关中处理 二,前置知识 zuul概念与原理 zuul 的概念和原理 - 知乎 Zuul工作原…

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM 两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元。今天,他们发布了 Dolly 2.0,这是业内第一个开源的指令跟随LLM,并根…

gdb 跟踪调式core

自己编译的问题出现段错误: 编译:使用gdb调试core文件来查找程序中出现段错误的位置时,要注意的是可执行程序在编译的时候需要加上-g编译命令选项。 gdb调试core文件的步骤 gdb调试core文件的步骤常见的有如下几种,推荐第一种。 具体步骤一: (1)启动gdb,进入core文…

Midjourney详细注册和使用教程

来源:Midjoureny详细注册使用教程【探索ChatGPT】 Midjourney,用户只需要输入一段图片的文字描述,即可生成精美的绘画,相信了解Midjourey的小伙伴已经对它强大之处而赞叹! 下面是用通俗易懂的步骤教会大家如何注册和…

企业网站架构部署与优化

系列文章目录 文章目录系列文章目录一、LAMP概述与简介1.LAMP2.各组件的主要作用如下:二、1.编译安装Apache http服务2.编译安装 Mysql 服务3.编译安装 PHP 解析环境总结一、LAMP概述与简介 1.LAMP LAMP架构是目前成熟的企业网站应用模式之一,指的是协…

Linux内核之网络协议栈以及套接字sk_buff分析

网络协议栈以及套接字sk_buff分析一、Linux 内核网络协议栈构架二、网络协议栈常见的数据结构2.1、TCP/IP 参考模型及 ISO/OSI 参考模型2.2、套接字 sk_buff 分析2.3、套接字缓冲区管理数据2.4、Linux 内核提供套接字缓冲区标准 API 函数2.5、使用一个表头来实现套接字缓冲区的…

Scala - 时间工具类 LocalDateTime 常用方法整理

目录 一.引言 二.LocalDateTime 获取与格式化 1.获取当前时间 LocalDateTime 2.根据时间戳获取 LocalDateTime 3.指定时间获取 LocalDataTime 4.LocalDataTime 格式化 三.LocalDateTime 读取时间细节 1.获取年-Year 2.获取月-Month 3.获取日-Day 4.获取时-Hour 5.获…

一文读懂域名注册

本文深入浅出讲解域名的注册、建站和管理,通过文章可以了解以下问题: 域名注册及建站流程;域名注册的技术原理;域名管理(修改 DNS 服务器、转入转出、自定义 DNSHost、whois 信息)。 众所周知,…

轨迹相似度整理

1 基于点之间的距离 1.1 欧几里得距离 优点:线性计算时间缺点:轨迹长度必须一样 1.2 DTW DTW 笔记: Dynamic Time Warping 动态时间规整 (&DTW的python实现) 【DDTW,WDTW】_UQI-LIUWJ的博客-CSDN博客 …

限流算法(计数器、滑动时间窗口、漏斗、令牌)原理以及代码实现

文章目录前言1、计数器(固定时间窗口)算法原理代码实现存在的问题2、滑动时间窗口算法原理代码实现存在的问题3、漏桶算法原理代码实现存在的问题4、令牌桶算法原理代码实现最后本文会对这4个限流算法进行详细说明,并输出实现限流算法的代码示…

【Redis笔记03】Redis运行环境之Cluster集群模式

这篇文章,主要介绍Redis运行环境之Cluster集群模式。 目录 一、Cluster集群模式 1.1、集群模式原理 (1)普通集群 (2)什么是分片??? (3)如何分片存储&…

【操作系统复习】第4章 进程同步

进程同步的概念 主要任务 ➢ 使并发执行的诸进程之间能有效地共享资源和相互合作,从而使程序的执行具有可再现性。 进程间的制约关系 ➢ 间接相互制约关系(互斥关系) • 进程互斥使用临界资源 ➢ 直接相互制约关系(同步关系) •…

在线绘制思维导图

思维导图是一种可视化的思维工具,它可以将放射性思考具体化为可视的图像和图表。 思维导图利用图文并重的技巧,把各级主题的关系用相互隶属与相关的层级图表现出来,把主题关键词与图像、颜色等建立记忆链接。 它运用图像和颜色等多种元素&…

真题详解(Flynn分类)-软件设计(四十六)

真题详解(计算机总线)-软件设计(四十五)https://blog.csdn.net/ke1ying/article/details/130046829 Flynn分类将计算机分为四类。 单指令流单数据流机器(SISD):早期的机器,在某个时钟周期&…
最新文章