AI_Papers周刊:第六期

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

2023.03.13—2023.03.19

文摘词云

Top Papers

Subjects: cs.CL  

1.UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation

标题:UPRISE:改进零样本评估的通用提示检索

作者:Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu

文章链接:https://arxiv.org/abs/2303.08518

        大型语言模型 (LLM) 因其令人印象深刻的能力而广受欢迎,但对特定于模型的微调或特定于任务的提示工程的需求可能会阻碍它们的泛化。我们提出了 UPRISE(用于改进零样本评估的通用提示检索),它调整了一个轻量级且多功能的检索器,该检索器可以自动检索给定零样本任务输入的提示。具体来说,我们展示了跨任务和跨模型场景中的普遍性:检索器针对不同的任务集进行了调整,但在未见过的任务类型上进行了测试;我们使用小型冻结 LLM GPT-Neo-2.7B 来调整检索器,但在规模大得多的不同 LLM 上测试检索器,例如 BLOOM-7.1B、OPT-66B 和 GPT3-175B。此外,我们表明 UPRISE 减轻了我们使用 ChatGPT 进行的实验中的幻觉问题,表明它有可能改善最强大的 LLM。

2.Efficiently Scaling Transformer Inference

标题:有效缩放 Transformer 推理

作者:Reiner Pope, Sholto Douglas, Aakanksha Chowdhery, Jacob Devlin, James Bradbury

文章链接:https://arxiv.org/abs/2211.05102

        我们研究了 Transformer 模型的高效生成推理问题,在其最具挑战性的设置之一:大型深度模型,具有严格的延迟目标和长序列长度。更好地理解基于 Transformer 的大型模型推理的工程权衡非常重要,因为这些模型的用例在整个应用领域都在迅速增长。我们开发了一个简单的推理效率分析模型,以根据应用要求选择针对 TPU v4 切片优化的最佳多维分区技术。我们将这些与一套低级优化相结合,以在超过 FasterTransformer 基准测试套件的 500B+ 参数模型上实现延迟和模型 FLOPS 利用率 (MFU) 权衡的新帕累托边界。我们进一步表明,通过适当的分区,多查询注意的较低内存需求(即多个查询头共享单个键/值头)可以将上下文长度扩展到 32 倍。最后,我们在生成期间实现了每个令牌 29 毫秒的低批量延迟(使用 int8 权重量化),在输入令牌的大批量处理期间实现了 76% 的 MFU,同时支持长 2048 令牌上下文长度PaLM 540B参数型号。

3.Steering Prototype with Prompt-tuning for Rehearsal-free Continual Learning

标题:具有快速调整功能的转向原型,可实现免排练的持续学习

作者:Zhuowei Li, Long Zhao, Zizhao Zhang, Han Zhang, Di Liu, Ting Liu, Dimitris N. Metaxas

文章链接:https://palm-e.github.io/assets/palm-e.pdf

        原型作为类嵌入的表示,已被探索用于减少内存占用或减轻持续学习场景的遗忘。然而,基于原型的方法仍然会因语义漂移和原型干扰而导致性能突然下降。在这项研究中,我们提出了对比原型提示 (CPP),并表明特定于任务的提示调整在针对对比学习目标进行优化时,可以有效地解决这两个障碍并显着提高原型的效力。我们的实验表明,CPP 在四个具有挑战性的类增量学习基准测试中表现出色,与最先进的方法相比,绝对改进了 4% 到 6%。此外,CPP 不需要排练缓冲区,它在很大程度上弥合了持续学习和离线联合学习之间的性能差距,展示了在 Transformer 架构下持续学习系统的有前途的设计方案。

Subjects: cs.CV

1.Erasing Concepts from Diffusion Models

标题:从扩散模型中删除概念

作者:Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau

文章链接:https://arxiv.org/abs/2303.07345

项目代码:https://erasing.baulab.info/

        受文本到图像扩散的最新进展的推动,我们研究了模型权重中特定概念的擦除。尽管 Stable Diffusion 在制作明确或逼真的艺术作品方面显示出希望,但它引起了人们对其滥用可能性的担忧。我们提出了一种微调方法,可以从预训练的扩散模型中删除视觉概念,只给出风格的名称并使用负指导作为老师。我们将我们的方法与以前的方法进行了基准测试,这些方法删除了露骨的色情内容并证明了其有效性,其性能与安全潜在扩散和审查培训相当。为了评估艺术风格的移除,我们进行了从网络中删除五位现代艺术家的实验,并进行了一项用户研究以评估人类对删除风格的感知。与以前的方法不同,我们的方法可以从扩散模型中永久删除概念,而不是在推理时修改输出,因此即使用户可以访问模型权重也无法规避

2.ViperGPT: Visual Inference via Python Execution for Reasoning

标题:ViperGPT:通过 Python 执行进行推理的视觉推理

作者:Dídac Surís, Sachit Menon, Carl Vondrick

文章链接:https://arxiv.org/abs/2303.08128

项目代码:https://github.com/cvlab-columbia/viper

        回答视觉查询是一项复杂的任务,需要视觉处理和推理。端到端模型是这项任务的主要方法,没有明确区分这两者,限制了可解释性和泛化性。学习模块化程序是一种很有前途的选择,但由于难以同时学习程序和模块,因此已被证明具有挑战性。我们介绍了 ViperGPT,这是一个利用代码生成模型将视觉和语言模型组合成子例程以生成任何查询结果的框架。ViperGPT 利用提供的 API 访问可用模块,并通过生成稍后执行的 Python 代码来组合它们。这种简单的方法不需要进一步的培训,并在各种复杂的视觉任务中取得了最先进的结果。

3.FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization(CVPR 2023)

标题:FreeNeRF:使用自由频率正则化改进小样本神经渲染

作者:Jiawei Yang, Marco Pavone, Yue Wang

文章链接:https://arxiv.org/abs/2303.07418

项目代码:https://github.com/Jiawei-Yang/FreeNeRF

        具有稀疏输入的新型视图合成是神经辐射场 (NeRF) 的一个具有挑战性的问题。最近的努力通过引入外部监督(例如预训练模型和额外深度信号)以及基于非平凡补丁的渲染来缓解这一挑战。在本文中,我们介绍了频率正则化 NeRF (FreeNeRF),这是一个非常简单的基线,它优于以前的方法,对普通 NeRF 的修改最少。我们分析了少样本神经渲染中的关键挑战,发现频率在 NeRF 的训练中起着重要作用。基于分析,我们提出了两个正则化项。一种是规范 NeRF 输入的频率范围,另一种是惩罚近相机密度场。这两种技术都是“免费午餐”,无需额外的计算成本。我们证明即使更改一行代码,原始 NeRF 也可以在少样本设置中实现与其他复杂方法相似的性能。FreeNeRF 在包括 Blender、DTU 和 LLFF 在内的各种数据集上实现了最先进的性能。我们希望这个简单的基线能够激发人们重新思考频率在低数据制度及以后的 NeRF 训练中的基本作用。

4.LERF: Language Embedded Radiance Fields

标题:LERF:语言嵌入辐射场

作者:Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik

文章链接:https://arxiv.org/abs/2303.09553

项目代码:https://www.lerf.io/

      人类使用自然语言来描述物理世界,以指代基于大量属性的特定 3D 位置:视觉外观、语义、抽象关联或可操作的可供性。在这项工作中,我们提出了语言嵌入辐射场 (LERF),这是一种将语言嵌入从现成模型(如 CLIP)嵌入到 NeRF 中的方法,它可以在 3D 中实现这些类型的开放式语言查询。LERF 通过沿训练射线的体积渲染 CLIP 嵌入来学习 NeRF 内部的密集、多尺度语言场,跨训练视图监督这些嵌入以提供多视图一致性并平滑底层语言场。优化后,LERF 可以实时交互地为广泛的语言提示提取 3D 相关图,这在机器人技术、理解视觉语言模型以及与 3D 场景交互方面具有潜在的用例。LERF 在不依赖区域提议或掩码的情况下,支持对提取的 3D CLIP 嵌入进行像素对齐、零样本查询,支持跨卷分层的长尾开放词汇查询。

5.Unified Visual Relationship Detection with Vision and Language Models

标题:视觉和语言模型的统一视觉关系检测

作者:Long Zhao, Liangzhe Yuan, Boqing Gong, Yin Cui, Florian Schroff, Ming-Hsuan Yang, Hartwig Adam, Ting Liu

文章链接:https://arxiv.org/abs/2303.08998

        这项工作的重点是训练一个单一的视觉关系检测器来预测来自多个数据集的标签空间的联合。由于分类不一致,合并跨越不同数据集的标签可能具有挑战性。当在对象对之间引入二阶视觉语义时,视觉关系检测中的问题会加剧。为了应对这一挑战,我们提出了 UniVRD,这是一种利用视觉和语言模型 (VLM) 进行统一视觉关系检测的新型自下而上方法。VLM 提供对齐良好的图像和文本嵌入,其中相似的关系被优化为彼此接近以实现语义统一。我们自下而上的设计使模型能够享受到对象检测和视觉关系数据集训练的好处。人机交互检测和场景图生成的实证结果证明了我们模型的竞争性能。UniVRD 在 HICO-DET 上实现了 38.07 mAP,比目前最好的自底向上 HOI 检测器相对高出 60%。更重要的是,我们展示了我们的统一检测器在 mAP 中的性能与特定于数据集的模型一样好,并且在我们扩展模型时实现了进一步的改进。

6.FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

标题:FateZero:融合注意力以进行基于文本的零镜头视频编辑

作者:Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei

文章链接:https://arxiv.org/abs/2303.08998

项目代码:https://github.com/chenyangqiqi/fatezero

        基于扩散的生成模型在基于文本的图像生成中取得了显着的成功。然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑仍然具有挑战性,尤其是在视频中。在本文中,我们提出了 FateZero,这是一种针对真实世界视频的基于文本的零镜头编辑方法,无需按提示训练或使用特定掩码。为了一致地编辑视频,我们提出了几种基于预训练模型的技术。首先,与直接的 DDIM 反演技术相比,我们的方法在反演期间捕获中间注意力图,从而有效地保留结构和运动信息。这些地图在编辑过程中直接融合,而不是在去噪过程中生成。为了进一步减少源视频的语义泄漏,我们随后将自注意力与通过源提示中的交叉注意力特征获得的混合掩码融合在一起。此外,我们通过引入时空注意力来确保帧的一致性,从而对 UNet 降噪中的自注意力机制进行了改革。简而言之,我们的方法是第一个展示零镜头文本驱动视频风格和来自训练有素的文本到图像模型的局部属性编辑能力的方法。我们还有更好的基于文本到视频模型的零样本形状感知编辑能力。广泛的实验证明了我们比以前的作品更优越的时间一致性和编辑能力。

Notable Papers

1.Unifined Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generatio

标题:用于联合主题和文本条件图像生成的统一多模态潜在扩散

文章链接:https://arxiv.org/abs/2303.09319

摘要:

        如今,通过使用扩散模型,语言引导的图像生成取得了巨大的成功。然而,文本可能不够详细以描述高度具体的主题,例如特定的狗或特定的汽车,这使得纯文本到图像的生成不够准确,无法满足用户需求。在这项工作中,我们提出了一种新颖的统一多模态潜在扩散(UMM-Diffusion),它将包含指定主题的联合文本和图像作为输入序列,并生成带有主题的自定义图像。更具体地说,输入文本和图像都被编码到一个统一的多模态潜在空间中,其中输入图像被学习投影到伪词嵌入,并可以进一步与文本结合以指导图像生成。此外,为了消除输入图像的不相关部分,如背景或光照,我们提出了一种新的图像生成器使用的扩散模型采样技术,该技术融合了多模态输入和纯文本输入引导的结果。通过利用大规模预训练的文本到图像生成器和设计的图像编码器,我们的方法能够从输入文本和图像的两个方面生成具有复杂语义的高质量图像。

2.MeshDiffusion: Score-based Generative 3D Mesh Modeling(ICLR 2023)

标题:MeshDiffusion:基于分数的生成 3D 网格建模

文章链接:https://arxiv.org/abs/2303.08133

摘要:

        我们考虑生成逼真的 3D 形状的任务,这对于自动场景生成和物理模拟等各种应用非常有用。与体素和点云等其他 3D 表示相比,网格在实践中更受欢迎,因为 (1) 它们可以轻松随意地操纵形状以进行重新照明和模拟,以及 (2) 它们可以充分利用现代图形管道的强大功能主要针对网格进行了优化。以前用于生成网格的可扩展方法通常依赖于次优的后处理,并且它们往往会产生过于光滑或嘈杂的表面,而没有细粒度的几何细节。为了克服这些缺点,我们利用网格的图形结构,使用一种简单但非常有效的生成建模方法来生成 3D 网格。具体来说,我们用可变形四面体网格表示网格,然后在这种直接参数化上训练扩散模型。我们展示了我们的模型在多个生成任务上的有效性。3.Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos

标题:Mesh Strikes Back:从 RGB 视频快速高效地重建人体

文章链接:https://arxiv.org/abs/2303.0880

摘要:

        由于服装、遮挡、纹理不连续性和锐度以及特定于帧的姿势变化,单眼 RGB 视频的人体重建和合成是一个具有挑战性的问题。许多方法采用延迟渲染、NeRF 和隐式方法来表示穿着衣服的人,前提是基于网格的表示不能单独从 RGB、轮廓和关键点捕获复杂的衣服和纹理。我们通过优化 SMPL+D 网格和仅使用 RGB 图像、二进制轮廓和稀疏 2D 关键点的高效多分辨率纹理表示,为这一基本前提提供了一个反观点。实验结果表明,与视觉船体、基于网格的方法相比,我们的方法更能够捕获几何细节。与基于 NeRF 的方法相比,我们展示了具有竞争力的新视图合成和新姿势合成的改进,后者引入了明显的、不需要的伪影。通过将解决方案空间限制为结合可微分渲染的 SMPL+D 模型,我们在计算、训练时间(高达 24 倍)和推理时间(高达 192 倍)方面获得了显着的加速。因此,我们的方法可以按原样使用,也可以作为对基于 NeRF 的方法的快速初始化。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/1440.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

要是早看到这篇文章,你起码少走3年弯路,20年老程序员的忠告

文章目录前言一、程序员的薪资是怎么样的?二、我现在的情况适合做程序员吗?三、大学期间到底应该学些什么?四、工作还是考研?五、总结前言 我是龙叔,一名工作了20多年的退休老程序员。 如果你在工作之前看到这篇文章…

【AI大比拼】文心一言 VS ChatGPT-4

摘要:本文将对比分析两款知名的 AI 对话引擎:文心一言和 OpenAI 的 ChatGPT,通过实际案例让大家对这两款对话引擎有更深入的了解,以便大家选择合适的 AI 对话引擎。 亲爱的 CSDN 朋友们,大家好!近年来&…

libcurl库访问人工智能平台之人脸识别

一、前言上一篇文章我们调用libcurl库去访问了百度,访问的是http协议的百度云主页。那么现在我们要基于翔云人工智能平台来实现人脸识别,具体的操作大概就是我们在linux下调用libcurl库去访问翔云人工智能平台,然后实现我们想要的两张人脸图片…

FPGA纯verilog实现RIFFA的PCIE通信,提供工程源码和软件驱动

目录1、前言2、RIFFA简介RIFFA概述RIFFA架构RIFFA驱动3、vivado工程详解4、上板调试验证并演示5、福利:工程代码的获取1、前言 PCIE是目前速率很高的外部板卡与CPU通信的方案之一,广泛应用于电脑主板与外部板卡的通讯,PCIE协议极其复杂&…

【Linux】基本指令介绍

前言从今天开始,我们一起来学习Linux的相关知识,今天先来介绍怎么登录Linux,并且介绍一些Linux的基本指令。使用 XShell 远程登录 Linux很多同学的 Linux 启动进入图形化的桌面. 这个东西大家以后就可以忘记了. 以后的工作中 没有机会 使用图…

蓝桥杯刷题冲刺 | 倒计时21天

作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录1.迷宫1.迷宫 题目 链接: 迷宫 - 蓝桥云课 (lanqiao.cn) 本题为填空题,只…

Three.js——learn02

Three.js——learn02Three.js——learn02通过轨道控制器查看物体OrbitControls核心代码index2.htmlindex.cssindex2.jsresult添加辅助器1.坐标轴辅助器AxesHelper核心代码完整代码2.箭头辅助器ArrowHelper核心代码完整代码3.相机视锥体辅助器CameraHelper核心代码完整代码Three…

近期投简历、找日常实习的一些碎碎念(大二---测试岗)

嘿嘿嘿,我又回来了,相信不少兄弟已经发现我似乎已经断更了好久,哈哈,我是尝试去找实习,投简历面试去了。 先说一下背景。 目录 背景 求职进行中 简历 投递和沟通 收获和感受 背景 博主,大二软件工程…

Arthas工具的基本使用

介绍 Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱。在线排查问题,无需重启;动态跟踪Java代码;实时监控JVM状态。Arthas支持JDK 6,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰…

Python截图自动化工具

1、展示部分源码(写的比较乱,哈哈) 2、功能展示 1)首页 2)按钮截图(用于自动翻页) 3)保存位置按钮(选择图片保存的位置) 4)重复次数,就是要截取多少次 5)定位截屏(截取的内容&#x…

[数据分析与可视化] Python绘制数据地图1-GeoPandas入门指北

本文主要介绍GeoPandas的基本使用方法,以绘制简单的地图。GeoPandas是一个Python开源项目,旨在提供丰富而简单的地理空间数据处理接口。GeoPandas扩展了Pandas的数据类型,并使用matplotlib进行绘图。GeoPandas官方仓库地址为:GeoP…

尚融宝06-ECMAScript基本介绍和使用

目录 一、ECMAScript 1、ECMA 2、ECMAScript 3、什么是 ECMA-262 4、ECMA-262 历史 5、ECMAScript 和 JavaScript 的关系 二、基本语法 1、let声明变量 2、const声明常量 3、解构赋值 4、模板字符串 5、声明对象简写 6、定义方法简写 7、参数的默认值 8、对象拓…

QT常用位置函数区别

目录1、引言2、实验代码3、位置函数3.1 x()3.2 y()3.3 frame()3.4 pos()3.5 geometry()3.6 width()3.7 height()3.8 rect()3.9 size()1、引言 QT有众多图形绘制函数,包括x()、y()、frame()、pos()、geometry()、width()、height()、rect()、size(),它们…

【Java学习笔记】多线程与线程池

多线程与线程池一、多线程安全与应用1、程序、进程与线程的关系2、创建多线程的三种方式(1)继承Thread类创建线程【不推荐】(2)实现Runnable接口创建线程(3)Callable接口创建线程3、线程的生命周期4、初识线…

基础入门 HTTP数据包Postman构造请求方法请求头修改状态码判断

文章目录数据-方法&头部&状态码请求requestResponse状态码案例-文件探针&登录爆破工具-Postman自构造使用数据-方法&头部&状态码 请求request 1、常规请求-Get 2、用户登录-Post •get:向特定资源发出请求(请求指定页面信息&#x…

为什么这么NB?huatuo革命Unity热更新

最近huatuo(华佗)热更新解决方案火爆了unity开发圈,起初我觉得热更新嘛,不就是内置一个脚本解释器脚本语言开发,如xLua, ILRuntime, puerts。Huatuo又能玩出什么花样,凭什么会这么NB,引起了那么多程序员的关注与称赞呢&#xff1f…

单片机——IIC协议与24C02

1、基础知识 1.1、IIC串行总线的组成及工作原理 I2C总线只有两根双向信号线。一根是数据线SDA,另一根是时钟线SCL。 1.2、I2C总线的数据传输 I2C总线进行数据传送时,时钟信号为高电平期间,数据线上的数据必须保持稳定,只有在时钟…

Linux实操之进程管理

文章目录一、基本介绍二、显示系统执行的进程基本介绍三、ps详解四、终止进程kill和killall介绍:●基本语法常用选项五、查看进程树pstree基本语法常用选项一、基本介绍 1.在LINUX中,每个执行的程序都称为一个进程。每一个进程都分配一个ID号(pid,进程号…

【SCL】实现简单算法--冒泡排序

使用SCL语言实现一个冒泡排序的简单算法 文章目录 目录 文章目录 前言 二、实现排序 1.读取存储器地址(PEEK)指令 2.编写程序 总结 前言 本文我们来一起使用SCL来实现一个简单的算法——冒泡排序;它可以对少量数据进行从小到大或从大到小排序…

【Linux】GDB的安装与使用

安装安装gdb的具体步骤如下:1、查看当前gdb安装情况rpm -qa | grep gdb如果有,则可以先删除:rpm -e --nodeps 文件名如果没有,则进行下一步。2、下载gdb源码包或者直接apt安装。apt命令安装:sudo apt install gdb源码包…
最新文章