文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答

Authors: Long Bai1† , Mobarakol Islam2† , Lalithkumar Seenivasan3 and Hongliang Ren1,3,4∗ , Senior Member, IEEE

Source: 2023 IEEE International Conference on Robotics and Automation (ICRA 2023) May 29 - June 2, 2023. London, UK

Abstract:

尽管有计算机辅助模拟器和录制的外科手术视频,但初级住院医师仍然严重依赖专家来回答他们的问题。然而,专家外科医生往往因临床和学术工作量而超负荷工作,并限制了他们回答问题的时间。为此,开发了一种手术问答系统,以促进机器人辅助手术场景和活动从录制的视频中理解。大多数现有的视觉问答 (VQA) 方法都需要对象检测器和基于区域的特征提取器来提取视觉特征,并将它们与问题的嵌入文本融合以生成答案。然而,(i)由于数据集较小且缺乏边界框注释,手术对象检测模型稀缺;(ii)目前文本和图像等异构模态的融合策略是幼稚的;(iii) 缺少局部应答,这在复杂的手术场景中至关重要。

在本文中,提出了机器人手术中的视觉问题定位-回答(Surgical-VQLA)来定位答案预测过程中的特定手术区域。为了处理异构模态的融合,设计了门控视觉语言嵌入(GVLE)来为语言视觉转换器(LViT)构建输入补丁来预测答案。为了获得定位,将检测头与LViT的预测头并行添加。还集成了广义交集并集 (GIoU) 损失,通过保持问答模型的准确性来提高定位性能。利用来自 EndoVis-17 和 18 的 MICCAI 挑战的公开可用的手术视频对 VQLA 的两个数据集进行注释。验证结果表明,Surgical-VQLA可以更好地理解手术场景,并定位与问答相关的特定区域。GVLE通过展示优于现有基准的性能,提出了一种有效的语言视觉嵌入技术。

主要贡献和优势是:

– 设计并提出了一个外科视觉问题局部化回答 (Surgical-VQLA1) 模型,该模型可以根据给定的输入问题和手术场景预测局部答案。

– 使用新颖的 GVLE 技术为 VQLA 任务提出一种无需检测的 GVLE-LViT 模型,该模型可有效融合异构特征(视觉和文本)。

– 将GIoU损失与交叉熵损失和L1损失相结合,以提高VQLA模型的预测和定位性能。

– 通过广泛的验证,发现 (i) 即使答案与手术相互作用有关,SurgicalVQLA 也可以定位上下文。(ii) 无探测器VQLA通过避免计算昂贵且容易出现错误的检测模块,展示了更好的特征学习,并促进了外科问题本地化回答系统的端到端实时应用。(iii) 拟议的GVLE有效地融合了视觉和文字嵌入的异构模式,并优于现有方法。

图 1.针对传统 VQA 任务,提出的 VQLA pipline概述。方法不需要对象建议,边界框预测可以与分类结果一起输出。

图 2.提出的网络架构。机器人手术图像为预训练的特征提取器提供信息,问题为定制的分词器提供信息。然后,GVLE模块嵌入输入特征,并优化视觉和文字嵌入的组合。融合特征通过预训练的 ViT 模块传播。最后,由带有softmax的分类头和带有FFN的定位头给出答案和边界框预测。

表一 GVLE-LVIT模型与基于VISUALBERT 和VISUALBERT RESMLP 的模型的比较实验。RN 表示 RESNET。

图 3.通过VisualBERT [6]、VisualBERT ResMLP [2]和GVLE-LViT模型生成答案和边界框的几个例子。与基线模型相比,本模型的定位和分类预测结果更准确。边界框颜色的表示如下:红色:Ground-truth,蓝色:VisualBERT [6],绿色:VisualBERT ResMLP [2],黄色:GVLE-LViT (Ours)。

表 II GVLE-LVIT模型在VQLA任务上的K折比较实验,与基于VISUALBERT [6]和VISUALBERT RESMLP [2]的模型。

表 III 基于 VISUALBERT [6] 和 VISUALBERT RESMLP [2] 的模型,在提出的 GVLE-LVIT 模型上具有不同定位损失函数组合的消融研究

表IV 基于GVLE语言-视觉嵌入融合与CONCAT[6]、AFF[13]和IAFF [13]融合策略的比较实验。

本文设计并提出了一个外科视觉问题局部化回答(Surgical-VQLA)模型,该模型可以根据给定的输入问题和手术场景回答“什么”和“在哪里?”,使学生更容易推断“为什么?”。具体来说,提出了一种 GVLE-LViT 模型,该模型使用提出的 GVLE 技术更好地融合异构特征(视觉和文本),该技术在两个外科数据集上的外科-VQLA 任务中优于现有的 SOTA 模型。此外,将GIoU损失与交叉熵损失和L1损失相结合,以提高模型的预测和定位性能。通过广泛的比较、k 倍和消融研究,证明使用提出的损失组合训练的 GVLE-LViT 优于现有的 SOTA 模型。SurgicalVQLA系统可能成为外科培训中的重要辅助工具。虽然所提出的VQLA模型旨在提供可靠的答案预测,但在某种程度上,答案的定位可以帮助量化预测对新数据的可靠性,如果定位远于目标仪器或组织,用户可以推断预测可能是错误的,或者输入数据是分布外数据。因此,使用定位信息来预测预测可靠性可能是未来可能的工作。从应用的角度来看,提出的VQLA模型为医学诊断开辟了新的可能应用。更复杂的数据集和具有挑战性的 QA 对将进一步提高 Surgical-VQLA 系统的前景。

Reference:

[1] Bai, L., Islam, M., Seenivasan, L., & Ren, H. (2023, May). Surgical-vqla: Transformer with gated vision-language embedding for visual question localized-answering in robotic surgery. In 2023 IEEE International Conference on Robotics and Automation (ICRA) (pp. 6859-6865). IEEE.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/486396.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

反沙箱思路总结

文章目录 反调试反沙箱时间对抗环境检测 反虚拟机黑DLL父进程检测傀儡进程后记 反调试 IsDebuggerPresent #include<windows.h> #include<stdio.h> BOOL check() {return IsDebuggerPresent(); } BOOL isPrime(long long number){if (number < 1)return FALSE…

水下蓝牙耳机哪个好?必看4款购买单,拒绝踩雷!

在当今的科技时代&#xff0c;无线蓝牙耳机已经成为了我们生活中不可或缺的一部分。无论是运动、工作还是休闲娱乐&#xff0c;一款好的蓝牙耳机都能为我们带来极大的便利和乐趣。然而&#xff0c;在水下使用蓝牙耳机却是一个相对特殊的应用场景&#xff0c;需要考虑到防水、防…

关系(一)利用python绘制散点图

关系&#xff08;一&#xff09;利用python绘制散点图 散点图 &#xff08;Scatterplot&#xff09;简介 在笛卡尔座标上放置一系列的数据点&#xff0c;检测两个变量之间的关系&#xff0c;这就是散点图。 散点图可以了解数据之间的各种相关性&#xff0c;如正比、反比、无相…

[linux]--关于进程概念(下)

目录 孤儿进程 环境变量 将程序放到PATH路径下 设置PATH环境变量 设置别名 环境变量相关的命令 环境变量的组织方式​编辑 通过系统调用获取环境变量 环境变量通常是具有全局属性的 进程优先级 查看系统进程 用top命令更改已存在进程的nice&#xff1a; 程序地址空…

【Python实战】——神经网络识别手写数字

&#x1f349;CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一&#xff5c;统计学&#xff5c;干货分享          擅长Python、Matlab、R等主流编程软件          累计十余项国家级比赛奖项&#xff0c;参与研究经费10w、40w级横向 文…

评测i5 1335U和r7 8840HS差距 酷睿i51335U和r78840HS对比

r7 8840HS采用 Zen 4架构 4 nm制作工艺8核 16线程主频 3.3GHz睿频5.1GHz 三 级缓存16MB TDP 功耗 28w 搭载AMD Radeon 780M核显 选i5 1335U还是i5 1235U这些点很重要http://www.adiannao.cn/dy i5 1335U处理器采用10nm工艺制程&#xff0c;拥有10核心12线程&#xff0c;最大睿…

接口关联和requests库

一、接口关联 postman的接口 postman的接口关联配置&#xff1a;js代码&#xff0c;重点在于思路。 // 定义jsonData这个变量 接受登录接口的返回结果 var jsonData JSON.parse(responseBody); // 从返回结果里提取token/id值&#xff0c;并赋值给token/id变量值作为环境变…

电视盒子哪个好?最具性价比网络电视盒子排行榜

挑选电视盒子的时候预算有限的消费者会把性价比放在第一位&#xff0c;如何才能在预算范围内选到配置最好的产品呢&#xff1f;小编这次盘点的是最具性价比的网络电视盒子排行榜&#xff0c;整理了五款最值得入手的电视盒子&#xff0c;不知道电视盒子哪个好可以看看以下这些。…

python -- 循环语句

你好, 我是木木, 目前正在做两件事   1. 沉淀自己的专业知识   2. 探索了解各种副业项目&#xff0c;同时将探索过程进行分享&#xff0c;帮助自己以及更多朋友找到副业, 做好副业 文末有惊喜 循环语句 1、什么是循环语句 一般编程语言都有循环语句&#xff0c;为什么呢&am…

蓝桥杯STM32 G431 hal库开发速成——输入捕获

蓝桥杯的输入捕获较为简单&#xff0c;基本不涉及溢出的问题。所以这里就不介绍溢出了。文末有源码。 核心思想&#xff1a;在第一次上升沿的时候计第一个数&#xff0c;第一次下降沿的时候计第二个数&#xff0c;第二次上升沿的时候计第三个数。 占空比 (第二个数-第一个数…

2024年必用的九大顶级Java分析器:性能优化的利器

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

基于Java的桃花峪滑雪场租赁系统(Vue.js+SpringBoot)

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 游客服务2.2 雪场管理 三、数据库设计3.1 教练表3.2 教练聘请表3.3 押金规则表3.4 器材表3.5 滑雪场表3.7 售票表3.8 器材损坏表 四、系统展示五、核心代码5.1 查询教练5.2 教练聘请5.3 查询滑雪场5.4 滑雪场预定5.5 新…

性能测试丨GreatSQL TPC-H 性能测试报告正式发布!

1、测试背景概述 本次测试针对GreatSQL开源数据库基于标准 TPC-H 场景的测试。 TPC-H&#xff08;商业智能计算测试&#xff09;是美国交易处理效能委员会&#xff08;TPC&#xff0c;TransactionProcessing Performance Council&#xff09;组织制定的用来模拟决策支持类应用…

数据容器-序列-集合-Python

师从黑马程序员 序列 序列的常用操作-切片 切片&#xff1a;从一个序列中&#xff0c;取出一个子序列 语法&#xff1a;序列[起始下标:结束下标&#xff0c;步长] 注&#xff1a;此操作不会影响序列本身&#xff0c;而是会得到一个新的序列 my_list[0.1,2,3,4,5,6] result1…

【大模型】VS Code(Visual Studio Code)上安装的扩展插件用不了,设置VS Code工作区信任

文章目录 一、找到【管理工作区信任】二、页面显示处于限制模式&#xff0c;改为【信任】三、测试四、总结 【运行环境】win 11 相关文章&#xff1a; 【大模型】直接在VS Code(Visual Studio Code)上安装CodeGeeX插件的过程 【问题】之前在 VS Code上安装 CodeGeeX 插件后&…

C语言中如何动态分配内存并进行操作

C语言文章更新目录 C语言学习资源汇总&#xff0c;史上最全面总结&#xff0c;没有之一 C/C学习资源&#xff08;百度云盘链接&#xff09; 计算机二级资料&#xff08;过级专用&#xff09; C语言学习路线&#xff08;从入门到实战&#xff09; 编写C语言程序的7个步骤和编程…

100个openharmony开源demo:1.日历

准备用开发者手机写100个开源的demo不知道能不能实现&#xff0c;日拱一卒&#xff0c;期待蜕变。 第一个demo&#xff1a;日历&#xff0c;借鉴了网上的日历算法&#xff0c;自己用arkts写了界面和点击事件&#xff0c;各位可根据此demo写自己的日历选择器等组件。 1.目录结…

Go——map操作及原理

一.map介绍和使用 map是一种无序的基于key-value的数据结构&#xff0c;Go语言的map是引用类型&#xff0c;必须初始化才可以使用。 1. 定义 Go语言中&#xff0c;map类型语法如下&#xff1a; map[KeyType]ValueType KeyType表示键类型ValueType表示值类型 map类型的变量默认…

python总结-Linux系统使用

设置变量并输出 [rootldpbzhaonan py]$ cat var01.py str1hello str2worldprintf "${str1} ${str2} \n" printf ${str1} ${str2} \n\n就是代表换行&#xff0c;使用printf输出的话&#xff0c;没有自动换行。 不使用换行如下图显示 [rootldpbzhaonan py]$ cat var0…

C语言学习 五、一维数组与字符数组

5.1一维数组 5.1.1数组的定义 数组特点&#xff1a; 具有相同的数据类型使用过程中需要保存原始数据 C语言为了方便操作这些数据&#xff0c;提供了一种构造数据类型——数组&#xff0c;数组是指一组具有相同数据类型的数据的有序集合。 一维数组的定义格式为 数据类型 数…
最新文章