每日学术速递5.22

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold(SIGGRAPH 2023)

标题:拖动你的 GAN:生成图像流形上基于点的交互式操作

作者:Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt

文章链接:https://arxiv.org/abs/2305.10973

项目代码:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

摘要:

        合成满足用户需求的视觉内容往往需要对生成对象的姿势、形状、表情和布局进行灵活和精确的控制。现有方法通过手动注释的训练数据或先前的 3D 模型获得生成对抗网络 (GAN) 的可控性,这通常缺乏灵活性、精确性和通用性。在这项工作中,我们研究了一种强大但探索较少的控制 GAN 的方法,即以用户交互的方式“拖动”图像的任何点以精确到达目标点,如图 1 所示。为实现这一目标,我们提出了 DragGAN,它由两个主要部分组成:1) 基于特征的运动监督,驱动手柄点向目标位置移动,以及 2) 一种新的点跟踪方法,利用判别生成器特征来继续定位手柄点的位置。通过 DragGAN,任何人都可以通过精确控制像素的位置对图像进行变形,从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。由于 GAN 的生成图像流形,即使对于具有挑战性的场景,例如幻觉遮挡内容和始终遵循对象刚度的变形形状,它们也倾向于产生逼真的输出。定性和定量比较都证明了 DragGAN 在图像处理和点跟踪任务中优于先前方法的优势。我们还展示了通过 GAN 反演对真实图像的处理。

2.ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

标题:ONE-PEACE:探索一种通向无限模态的通用表示模型

作者:Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou

文章链接:https://arxiv.org/abs/2305.11172

项目代码:https://github.com/OFA-Sys/ONE-PEACE

摘要:

        在这项工作中,我们探索了一种可扩展的方式来构建面向无限模式的通用表示模型。我们发布了 ONE-PEACE,这是一种具有 4B 参数的高度可扩展模型,可以跨视觉、音频和语言模式无缝对齐和集成表示。ONE-PEACE 的架构包括模态适配器、共享自注意力层和模态 FFN。这种设计允许通过添加适配器和 FFN 轻松扩展新模态,同时还可以通过自注意力层实现多模态融合。为了预训练 ONE-PEACE,我们开发了两个与模态无关的预训练任务,跨模态对齐对比和模态内去噪对比,它们对齐不同模态的语义空间并同时捕获模态内的细粒度细节。凭借易于扩展的架构和预训练任务,ONE-PEACE 具有扩展到无限模式的潜力。在不使用任何视觉或语言预训练模型进行初始化的情况下,ONE-PEACE 在广泛的单模态和多模态任务上取得了领先的结果,包括图像分类(ImageNet)、语义分割(ADE20K)、音频文本检索(AudioCaps) , Clotho)、音频分类(ESC-50、FSD50K、VGGSound)、音频问答(AVQA)、图文检索(MSCOCO、Flickr30K)、视觉接地(RefCOCO/+/g)。

3.Exploring the Space of Key-Value-Query Models with Intention

标题:有意探索键值查询模型的空间

作者:Marta Garnelo, Wojciech Marian Czarnecki

文章链接:https://arxiv.org/abs/2305.10203

摘要:

        基于注意力的模型一直是深度学习近期许多突破的关键要素。Attention 的两个关键组成部分是其输入结构(由键、值和查询组成)以及将这三者组合在一起的计算。在本文中,我们探索了共享所述输入结构但不限于注意力计算的模型空间。我们将此空间称为键值查询 (KVQ) 空间。我们的目标是确定 KVQ 空间中是否存在 Attention 无法有效近似的任何其他可堆叠模型,我们可以使用我们当前的深度学习工具箱来实现这些模型并解决社区感兴趣的问题。也许令人惊讶的是,标准最小二乘问题的解决方案满足这些属性。能够计算该解决方案的神经网络模块不仅丰富了神经网络可以表示的计算集,而且可以证明是线性注意力的严格概括。更令人惊讶的是,该模块的计算复杂度与 Attention 完全相同,使其成为合适的替代品。通过建立经典机器学习(最小二乘)和现代深度学习(注意力)之间的这种新颖联系,我们证明了我们模型的一种变体,它以相同的方式概括了常规注意力。这两个新模块都接受了从小样本学习到政策提炼等广泛任务的测试,以确认它们在现实世界中的适用性。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/22928.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

简单谈谈BIO,NIO,AIO

目录 IO 概述 阻塞 IO (BIO) 基本理解 非阻塞 IO(NIO) ​核心部分 Channel Buffer Selector Channel Buffer Selector 三者关系 异步非阻塞 IO(AIO) IO 概述 IO 的操作方式通常分为几种:同步阻塞 BIO、同步非阻塞 NIO、异步非阻塞 AIO。 (1…

约瑟夫问题的环形链表实现[Java]

⭐作者介绍:大二本科网络工程专业在读,持续学习Java,努力输出优质文章 ⭐作者主页:逐梦苍穹 ⭐如果觉得文章写的不错,欢迎点个关注一键三连😉有写的不好的地方也欢迎指正,一同进步😁…

C++入门预备语法

C入门预备语法 C关键字命名空间C输入&输出初步缺省参数函数重载引用内联函数auto和范围for(C11)指针空值nullptr C关键字 命名空间 命名空间是一种将变量名、函数名、类名和库名称等封装到一个命名空间域中,与其他域的同名量相隔离&…

Go语言环境搭建(内附网P下载地址)

一、Golang语言的官网 首先我们登录Golang的官方网站:https://golang.org/ 因为Google和中国的关系,直接登录Golang的官网,需要翻墙。 当然你也可以登录Golang的国内网站:https://golang.google.cn/ 二、下载 在Mac、Windows和L…

如何基于LiveNVR实现无人机等RTMP推流转成GB28181协议级联到GB28181视频平台

1、需求介绍 目前很多移动终端设备(如无人机等)只支持RTMP推流输出,不支持GB28181协议。但是又有需要通过GB28181协议接入到视频平台的需求。比如有些大疆无人机产品不能直接注册国标平台,只能rtmp推流。那么,项目中如…

Linux-搭建web服务器

综合练习:请给openlab搭建web网站 ​ 网站需求: ​ 1.基于域名[www.openlab.com](http://www.openlab.com)可以访问网站内容为 welcome to openlab!!! ​ 2.给该公司创建三个子界面分别显示学生信息,教学资料和缴费网站,基于[www.…

javaWebssh车辆保养管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh车辆保养管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用 B/S模式开发。开发环境为TOMCAT7.…

湍流的数值模拟方法概述

湍流,又称紊流,是一种极其复杂、极不规则、极不稳定的三维流动。湍流场内充满着尺度大小不同的旋涡,大旋涡尺度可以与整个流畅区域相当,而小漩涡尺度往往只有流场尺度千分之一的数量级,最小尺度旋涡的尺度通过其耗散掉…

IO流详解

IO流 1. 文件 1.1 什么是文件 文件对大家来说都不陌生: 文件是保存数据的地方,它可以保存文字、图片、视频等等例如大家平时使用的word文档、Excel文档、PPT文档等都是文件 1.2 文件流 文件在程序中是以流的形式来操作的流是指数据在数据源&#x…

高通开发系列 - 音频驱动中的APR通道不能打开问题

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 问题概述问题现象问题分析问题解决问题概述 对msm8909平台进行内核升级,相应的其音频驱动也需要进行升级,使用了同平台的音频驱动作…

ZBX_NOTSUPPORTED: Unsupported item key.

问题 ZBX_NOTSUPPORTED: Unsupported item key. 详细问题 笔者安装zabbix后,自定义item key进行测试。需在zabbix-server 端 切换目录: cd /usr/local/zabbix/bin 执行查询命令: ./zabbix_get -s 192.168.174.136 -p 10050 -k “home.file…

六、数据仓库详细介绍(ETL)经验篇

0x00 前言 日常工作中大多数时候都是在做数据开发,ETL 无处不在。虽然最近两年主要做的大数据开发,但感觉日常干的这些还是 ETL 那点事儿,区别只是技术组件全换了、数据量大了很多。 前几年数仓势微,是因为传统的那些工具数据库等…

LeetCode 117. 填充每个节点的下一个右侧节点指针 II

117. 填充每个节点的下一个右侧节点指针 II 描述 给定一个二叉树: struct Node {int val;Node *left;Node *right;Node *next; }填充它的每个 next 指针,让这个指针指向其下一个右侧节点。如果找不到下一个右侧节点,则将 next 指针设置为 …

opencv缺陷检测

随着自动化生产设备的普及,工业机器人在各行各业的应用也越来越广泛,越来越多的生产线由自动化设备取代人工操作,实现自动化生产。在机器人分拣过程中,机器人不仅可以将不同规格和质量的产品准确地放入指定的托盘中,而…

Puppeteer入门实践

环境 1、安装nodejs 官网:https://nodejs.org/zh-cn 下载安装好nodejs只后 验证:node -v 出现版本号表示安装成功,否则需要配置环境变量 2、创建node项目并初始化 随便新建一个文件夹 进入文件夹搜索cmd回车 执行npm init -y 安装依赖 …

软件测试基础知识整理(八)- 软件缺陷

目录 一、软件缺陷 1.1 缺陷定义 1.2 缺陷判定标准 1.3 软件缺陷产生的原因 1.4 软件缺陷产生的根源 1.5 软件缺陷信息 1.5.1 缺陷状态 1.5.2 缺陷严重程度 1.5.3 缺陷优先级 1.6 缺陷报告模板 1.7 缺陷报告注意事项 1.8 缺陷跟踪流程 1.9 缺陷数据分析关注的问题 …

【ETH】以太网----PHY芯片LAN8720A----电路原理图

一、LAN8720A----简介 LAN8720A 是低功耗的 10/100M 以太网 PHY 层芯片,I/0 引脚电压符合EEE802.3-2005 标准,支持通过 RMI 接口与以太网 MAC 层通信,内置 10-BASE-T/100BASE-TX 全双工传输模块,支持 10Mbps 和 100Mbps。 LAN87…

内蒙古自治区住房和城乡建设分析及解决方案

安科瑞 徐浩竣 江苏安科瑞电器制造有限公司 zx acrelxhj 摘 要:为深入贯彻落实《国务院办公厅关于印发新能源汽车产业发展规划(2021—2035年)的通知》(国办发 ﹝2020﹞39号)、《国家发展改革委等部门关于进一步提升…

java前后端分离有详细内容吗?

微服务架构java前后端分离都有哪些具体内容?目前,有不少客户朋友经常询问我们类似的问题。其实,在新的经济发展形势下,提质增效的低代码开发平台微服务架构早已成为不少新老客户的选择,它们不仅能提高办公协作效率&…

多商户商城系统开发功能优势与选择技巧

电商行业的持续发展,让越来越多的商家企业开始选择入驻多商户商城,通过该系统不仅能够为消费者提供更加便捷良好的购物体验,而且也能够为企业提供一个高效稳定的电商平台,可以说是未来电商行业发展的重要趋势。那么多商户商城系统…
最新文章