论文阅读——X-Decoder

论文阅读——X-Decoder

article2024/5/24 0:15:32/文章来源:https://blog.csdn.net/weixin_43575791/article/details/135206929

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义）但尊重自然差异（例如空间掩码与序列语言）来无缝连接任务，从而全面显著改进不同的分割和VL工作。

输入：两个查询，(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation，(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出：两种类型，像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片：经过image encoder 得到特征，文本T经过text encoder 编码为，长度为n，非语义查询或者潜在查询，输入X-Decoder输出：

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中，图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决，而且使生成预训练也难以解决。相反，通过完全解耦图像和文本编码器，并将输出全部用作查询，X-Decoder可以从图像内监督和图像间监督中学习，这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation：

Referring Segmentation：，与一般分割类似，只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval：，

Image Captioning and VQA：，这两个任务有两个不同：Captioning遵循因果掩mask策略，而VQA则不遵循。其次，使用Os中的所有输出作为字幕，但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而，在这项工作中，我们提倡通过功能而不是接口来实现统一，即我们最大限度地共享不同任务的共同部分，同时保持单个任务的其余部分不变。

2.3 Unified Architecture

，不同level的特征

在每一层：先和视觉特征做交叉注意力，然后潜在查询和文本查询做自注意力：

其中，对第一个公式，所有查询和视觉特征做交叉注意力，对于潜在查询，使用masked cross-attention mechanism，对文本查询使用全部注意力。

对第二个公式，（i）我们使用最后一个潜在查询来提取全局图像表示，剩余的用于一般分割；（ii）对于图像Caption，每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力；（iii）对于参考分割，潜在查询与所有文本查询做注意力。

对，m个潜在查询输出mask，对于语义输出，为潜在查询和文本查询预测输出，

2.4 End-to-End Pre-training

两种类型的损失函数：Semantic Loss，Mask Loss

1）Semantic Loss：

三个任务对应三个损失函数：

对image-text retrieval，计算语言图片相对损失。最后一个有效的token feature 代表文本，记作，用潜在特征的表示全局图片的特征表示图片，记作，对minibatch B获得B对特征对：，然后计算点乘得到，然后计算双向交叉熵：

y是class labels。

对于mask classification，包括“background”在内C个类别编码为C个文本查询，提取每个查询最后一个有效特征作为概念表示，然后取对应前（m-1）个潜在查询的decoder输出，计算这些输出和概念表示的点乘，得到，最后计算交叉熵损失：。

对于image captioning，提取所有词汇向量，大小为V，X-Decoder最后n个语义输出，计算点乘得到，和GT的写一个token的id 计算交叉熵。

2）Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT，使用BCE和DICE计算损失。

3 实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L as the vision encoder

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/271155.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

实战：朴素贝叶斯文本分类器搭建与性能评估

实战：朴素贝叶斯文本分类器搭建与性能评估

💗💗💗欢迎来到我的博客，你将找到有关如何使用技术解决问题的文章，也会找到某个技术的学习路线。无论你是何种职业，我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章，也欢…

阅读更多...

生成超清分辨率视频，南洋理工开源Upscale-A-Video

生成超清分辨率视频，南洋理工开源Upscale-A-Video

大模型在生成高质量图像方面表现出色,但在生成视频任务中，经常会面临视频不连贯、图像模糊、掉帧等问题。这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯…

阅读更多...

基于电商场景的高并发RocketMQ实战-Broker写入读取流程性能优化总结、Broker基于Pull模式的主从复制原理

基于电商场景的高并发RocketMQ实战-Broker写入读取流程性能优化总结、Broker基于Pull模式的主从复制原理

🌈🌈🌈🌈🌈🌈🌈🌈 【11来了】文章导读地址：点击查看文章导读！ 🍁🍁🍁🍁🍁🍁&#x1f3…

阅读更多...

关于OpenCV中 CV_Assert() 的使用引起程序中止/崩溃问题

关于OpenCV中 CV_Assert() 的使用引起程序中止/崩溃问题

CV_Assert() 的作用是：若括号中的表达式值为 false ，则返回一个错误信息，并终止程序执行。但是 CV_Assert() 与 assert 不同，CV_Assert() 会通过异常抛出，所以如果使用 CV_Assert()，可以通过捕获异常而不是…

阅读更多...

三列布局 css

三列布局 css

实现如下图的三列布局： .box {width:1400px;margin:0 auto;padding-bottom:40px;> .left {float:left;width:180px;margin-top:100px;text-align:center;}> .center {float:left;margin-top:100px;margin-left:130px;item-box {float:left;text-align:left;…

阅读更多...

oom问题

oom问题

问题描述虚拟机集群节点上pod报oom，最后pod被驱逐，主节点上查看kubectl top node的mem使用率很高，重启系统后，mem会降下来，但还会慢慢增长。 node节点上查看 /sys/fs/cgroup/memory/memory.usage_in_bytes内存使用超…

阅读更多...

Spring Boot简单多线程定时任务实现 | @Async | @Scheduled

Spring Boot简单多线程定时任务实现 | @Async | @Scheduled

Spring Boot简单多线程定时任务实现实现步骤 1 创建一个Spring Boot项目 2 定义定时任务： package com.jmd.timertasktest.task;import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.annotation.Async; impor…

阅读更多...

GenerateBlocks Pro插件构建更好的WordPress网站

GenerateBlocks Pro插件构建更好的WordPress网站

GenerateBlocks Pro插件构建更好的WordPress网站 GenerateBlocks Pro插件是一个 WordPress 插件，几乎可以完成任何事情，可让您创建轻量级和多功能的网站。由与流行且快速的 GeneratePress 主题相同的创作者构建，该插件不负众望。使用 Genera…

阅读更多...

H266/VVC帧间预测编码技术概述

H266/VVC帧间预测编码技术概述

帧间预测编码简述帧间预测利用视频时间域的相关性，使用邻近已编码图像像素值预测当前图像的像素值，能有效去除视频时域冗余。目前主要的视频编码标准中，帧间预测都采用基于块的运动补偿技术，不同的编码标准有不同的分块方式。 …

阅读更多...

智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.驾驶训练算法4.实验参数设定5.算法结果6.…

阅读更多...

Android笔记（二十一）：Room组件实现Android应用的持久化处理

Android笔记（二十一）：Room组件实现Android应用的持久化处理

一、Room组件概述 Room是Android JetPack架构组件之一，是一个持久处理的库。Room提供了在SQLite数据库上提供抽象层，使之实现数据访问。 （1）实体类（Entity）：映射并封装了数据库对应的数据表中…

阅读更多...

微信小程序备案流程整理

微信小程序备案流程整理

一、备案流程 [找备案入口]–[填主体信息]–[填小程序信息]–[初审]–[短信核验]–[通管局审核] 1，在小程序后台找到备案入口 （1）新的未上架小程序，可以在小程序首页点击【去备案】进入。 （2）已上架小程…

阅读更多...

交换机端口镜像技术原理与配置

交换机端口镜像技术原理与配置

在网络维护的过程中会遇到需要对报文进行获取和分析的情况，比如怀疑有攻击报文，此时需要在不影响报文转发的情况下，对报文进行获取和分析。镜像技术可以在不影响报文正常处理流程的情况下，将镜像端口的报文复制一份到观察端口&…

阅读更多...

基于Java版本与鸿鹄企业电子招投标系统的二次开发实践-鸿鹄企业电子招投标系统源代码+支持二开+鸿鹄电子招投标系统

基于Java版本与鸿鹄企业电子招投标系统的二次开发实践-鸿鹄企业电子招投标系统源代码+支持二开+鸿鹄电子招投标系统

随着市场竞争的加剧和企业规模的扩大，招采管理逐渐成为企业核心竞争力的重要组成部分。为了提高招采工作的效率和质量，我们提出了一种基于电子化平台的解决方案。该方案旨在通过电子化招投标，使得招标采购的质量更高、速度更快，同…

阅读更多...

L1-061：新胖子公式

L1-061：新胖子公式

题目描述根据钱江晚报官方微博的报导，最新的肥胖计算方法为：体重(kg) / 身高(m) 的平方。如果超过 25，你就是胖子。于是本题就请你编写程序自动判断一个人到底算不算胖子。输入格式： 输入在一行中给出两个正数，依次为…

阅读更多...

ImageJ图像滤波基础

ImageJ图像滤波基础

文章目录滤波简单滤波器卷积滤波Unsharp MaskTop Hat ImageJ系列：安装与初步💎灰度图像处理滤波预设滤波器 ImageJ的Process菜单提供了诸多图像滤波器，其中大部分方法均可定制参数，但也提供了一些已经预设参数的处理方法。 …

阅读更多...

博易大师智星系统外盘资管系统的功能介绍！

博易大师智星系统外盘资管系统的功能介绍！

1. 市场行情数据接收和显示：软件需要接收实时的市场行情数据，并将其以图形或数字的形式显示出来，包括价格、成交量、成交额等信息。 2. 交易操作界面：软件需要提供一个交易操作界面，供用户进行交易操作，包括…

阅读更多...

少走十年弯路！！！webpack详解

少走十年弯路！！！webpack详解

webpack是什么？？ 本质上，webpack 是一个用于现代 JavaScript 应用程序的静态模块打包工具。当 webpack 处理应用程序时，它会在内部从一个或多个入口点构建一个依赖图(dependency graph)，然后将你项目中所需的每一个模…

阅读更多...

sql_lab之sqli中的搜索型注入

sql_lab之sqli中的搜索型注入

搜索型注入原理是运用模糊查询： select * from users where username like %a% 1.找到具有模糊查询的搜索框的注入点 2.构造闭合因为模糊查询的代码是 select * from users where username like %a% 所以应该鱼%’ -- s 判断构造闭合的函数是否正确鱼%…

阅读更多...

Spring Boot3 Web开发技术

Spring Boot3 Web开发技术

前期回顾 springboot项目常见的配置文件类型有哪些？哪种类型的优先级最高 yml properties yaml 读取配置文件里的数据用什么注解？ value restful风格 RESTful 风格与传统的 HTTP 请求方式相比，更加简洁，安全，能隐…

阅读更多...

最新文章