CLIMS:弱监督语义分割的跨语言图像匹配

文章目录

  • CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation
    • 摘要
    • 方法
      • 语言图像匹配框架
    • 实验结果

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

摘要

存在的问题
CAM(类激活图)通常只激活有区别的对象区域,并且错误地包含了大量与对象相关的背景,由于WSSS(弱监督语义分割)模型只有一组固定的图像级对象标签,因此很难抑制由开放集对象组成的不同背景区域。
本文方法
提出了一个跨语言图像匹配(CLIMS)框架,基于最近引入的CLIP模型,用于WSSS。
引入自然语言监督来激活更完整的目标区域,抑制密切相关的背景区域。
设计了目标区域、背景区域和文本标签匹配损失,引导模型为每个类别的CAM激发更合理的目标区域。
此外,还设计了一个共存背景抑制损失,以防止模型激活密切相关的背景区域,并使用预定义的类相关背景文本描述集。
在这里插入图片描述
代码链接
论文链接

方法

在这里插入图片描述
(a)用于预测初始cam的主干。σ表示sigmoid激活函数。W为卷积层的权值矩阵
(b)文本驱动的评价器。由三个基于clip的损失函数组成,即对象区域和文本标签匹配损失,背景区域和文本标签匹配损失和共现背景抑制损失

语言图像匹配框架

与传统的CAM解相似,不同之处是去掉了GAP层,在W后直接应用sigmoid函数σ:
在这里插入图片描述
文本驱动的评估器由来自CLIP模型的图像编码器fi(·)和文本编码器ft(·)组成。首先,Pk和(1−Pk)分别乘以X来屏蔽前景对象和背景像素。然后通过fi(·)将结果映射到表示向量viok和vibk:
在这里插入图片描述
在这里插入图片描述
可以取了解一下CLIP模型

给定第k个前景对象表示viok及其对应的文本表示vtok,我们首先计算图像和文本表示之间的余弦相似度,然后使用提出的对象区域和文本标签匹配损使其最大化:
在这里插入图片描述
生成的初始CAMs将在上面损失函数的监督下逐渐接近目标物体。但是,仅使用LOTM并不能促使模型探索非判别目标区域并抑制激活的背景区域
为了提高激活对象区域的完整性,我们设计了背景区域和文本标签匹配损失LBTM,以包含更多的对象内容。已知背景表示法vibk及其对应的文本表示法vtok(注意,LBTM的文本标签与LOTM的文本标签相同),则LBTM的计算方法如下:
在这里插入图片描述
上述两个损失函数只保证了P完全覆盖目标对象,没有考虑到共现类相关背景的假激活。同时出现的背景可能会显著降低生成的伪标签掩模的质量。然而,对这些背景进行像素级标记非常耗时且耗费人力,并且通常在WSSS中无法提供。由于背景的集合比前景的集合更加多样化,使用ImageNet训练的分类网络可能看不到其中的许多背景。然而,根据相应的文本描述,使用预训练的CLIP来识别这些背景要容易得多。为了解决这一问题,我们设计了以下共现背景抑制损失。给定目标对象表示形式viok及其对应的与类相关的背景文本表示形式vtbk,l,损失计算为:
在这里插入图片描述
在训练过程中,网络会逐渐抑制Pk中类相关背景区域的假激活,使LCBS最小化。

在只有LOTM、LBTM和LCBS的情况下,如果激活图中同时包含不相关的背景和目标对象,CLIP模型仍然可以正确预测目标对象。因此,我们设计了一个像素级区域正则化项来约束激活图的大小,以确保不相关的背景在激活图Pk中被排除:
在这里插入图片描述
总的训练目标:
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/12792.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

辉煌优配|黄金价格创近两年半新高!2只黄金股一季度预增

黄金板块早盘走强。 4月14日早盘,黄金板块团体走高,次新股四川黄金开盘半小时内拉升至涨停,封单资金到达7279.78万元,中润资源、晓程科技涨幅居前,分别为8.96%、8.48% 消息面上来看,近期全球黄金期货价格节…

HTML中表格标签<table><tr><tb><th>中单元格的合并问题

前情知晓 层级关系如下&#xff1a; <table><tr><td> </td><th> </th></tr></table> <table>...</table> 用于定义一个表格开始和结束 <tr>...</tr> 定义一行标签&#xff0c;一组行标签内可以建立…

Spring Cloud微服务网关Zuul的注解@EnableZuulProxy或@EnableZuulServer做了什么事情

一、Zuul的工作原理 Zuul 1.x的版本是由Servlet以及一系列的Filter组成的&#xff0c;各个组件之间协同合作完成功能&#xff0c;且易于扩展。参看官方的架构图我画了张图&#xff1a; Zuul声明周期&#xff1a; HTTP Request -> DispatcherServlet -> ZuulHandlerMappi…

面了 6 家大厂,并拿下 5 家 offer,进大厂好像也没有那么困难吧....

前言 二月份的时候因为换工作的缘故&#xff0c;陆续参加了华为、阿里巴巴、字节跳动、拼多多、百度、Paypal 的社招面试&#xff0c;除了字节跳动流程较长&#xff0c;我主动结束面试以外&#xff0c;其他的都顺利拿到了 Offer。 最近时间稍微宽裕点了&#xff0c;写个面经&…

2021遥感应用组二等奖:近20年黄河流域植被动态与生态环境效应

作品介绍 1 研究目的 基于MODIS NDVI植被指数、土地利用数据和气象数据集&#xff0c;辅以趋势分析、偏相关分析、马尔科夫转移矩阵变化分析、多元回归分析等方法&#xff0c;全面分析黄河流域2001-2020年植被时空变化特征&#xff0c;并通过构建统计模型方式&#xff0c;定量…

图染色问题的NP完全性证明

文章目录 1.Overview2.CNF 3-sat3. Gadgets3.1 Concolorous Edges3.2 Starter/Variable Gadget3.3 Splitter Gadget3.4 OR Gadget3.5 Clause Gadget 4. To Planar Graph 最近在学 6.890&#xff0c;然后 devans 刚好问了我这个问题&#xff0c;然后尝试编了一个证明。 1.Overv…

独家 | 招商银行:玩转校园招聘新方式 挖掘金融科技新人才

数字经济时代&#xff0c;金融科技人才队伍的引进与培养是招商银行人才体系建设的关键任务。 01.金融科技校招2大核心课题 招商银行数字化转型过程中&#xff0c;线上化、生态化、平台化、智能化、数据化全面加速发展&#xff0c;对人才队伍能力提出新要求。 2大核心课题&am…

Spring Bean的生命周期

Spring Bean 的完整生命周期主要包括以下阶段&#xff1a; 实例化&#xff08;Instantiation&#xff09;&#xff1a;Spring 容器通过调用 Bean 的构造函数来创建 Bean 的实例。这是 Bean 生命周期的第一步。 设置属性值&#xff08;Setting Bean Properties&#xff09;&…

【分布式】熔断、降级傻傻分不清楚-熔断和降级的真实关系

文章目录 前言降级熔断什么是服务熔断 熔断和降级的关系降级方式1、熔断降级&#xff08;不可用&#xff09;2、超时降级3、限流降级 总结 前言 刚开始我以为熔断和降级是一体的&#xff0c;以为他们必须配合使用&#xff1b; 只不过名字不一样而已&#xff0c;但是当我经过思…

如何实现视觉识别形状

1. 功能说明 通过摄像头识别圆形及矩形两种形状。 2. 电子硬件 本实验中采用了以下硬件&#xff1a; 主控板 Basra主控板&#xff08;兼容Arduino Uno&#xff09; 扩展板 Bigfish2.1 电池7.4V锂电池通信2510通信转接板WiFi路由器 其它 摄像头 配置OpenCV的Visual Studio 2015.…

MySQL having关键字详解、与where的区别

1、having关键字概览 1.1、作用 对查询的数据进行筛选 1.2、having关键字产生的原因 使用where对查询的数据进行筛选时&#xff0c;where子句中无法使用聚合函数&#xff0c;所以引出having关键字 1.3、having使用语法 having单独使用&#xff08;不与group by一起使用&a…

(SQL学习随笔3)SQL语法——SELECT语句

导航 基本认识FROM关键字LIMIT与OFFSETORDER BY WHERE条件查询单值比较多条件组合范围筛选空值匹配LIKE通配条件分组 运算符和函数数据变换 分组运算表连接内连接左(右)外连接全外连接 外键约束窗口函数UNION&#xff1a;表上下拼接子查询条件判断PostgreSQLMySQL 基本认识 SE…

两种方法实现杨辉三角(java实现)

&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了 博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳,欢迎大佬指点!人生格言&#xff1a;当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔&#x1f9be;&am…

Consul TTL健康检查方式

consul比较常用的健康检查方式为http健康检查方式&#xff0c;也还有使用TTL方式来进行健康检查的&#xff0c;下面从spring-cloud-consul-discovery这个SDK来着手分析。 构建ConsulAutoRegistration&#xff0c;这里的工作是组成服务注册的报文&#xff0c;有一个setCheck方法…

钉钉消息防撤回功能研究与实现-可查看历史消息[文件/图文/管理员/链接 撤回拦截]

研究背景 由于在某个大学进行上课的时候,遇到的某个老师,总是习惯发过的消息,到第二天的时候撤回,我们用聊天工具的其中一个原因,不就是因为可以随时去查看发过的消息吗&#xff0c;&#xff0c;而这位老师的操作,也让包括我在内的很多人感到痛不欲生。 想一想,当自己想要去看下…

常见的九种大数据分析模型

常见的9种大数据分析模型分别为&#xff1a; 事件分析、 属性分析、 渠道分析、 Session分析、 留存分析、 归因分析、 漏斗分析、 路径分析、 分布分析 1、【事件分析】 事件分析&#xff0c;是指用户在 APP、网站等应用上发生的行为&#xff0c;即何人&#xff0c;何时&…

【消费战略】解读100个食品品牌丨王小卤 4年10亿爆品破局

爆品破局 王小卤的聚焦发展! 王小卤创建于 2016 年&#xff0c;与饮料行业的独角兽元气森林同年。 相较于元气森林的快速增长&#xff0c;王小卤历经 三年坎坷之路&#xff0c;直至 2019 年才踏上高增长的赛道&#xff0c;实现四年十亿的增长。 “所有的消费品都值得重新 做…

网络安全-kali配置ssh服务+敏感文件泄+dirsearch脚本

网络安全-kali配置ssh服务敏感文件泄dirsearch脚本 seccure shell 就是加密的telnet 远程用的 service ssh start 开启ssh服务metstat -tpan |gerp 22 监听这个端口是否开启 可以看到本地的22端口这个文件是/etc/ssh/sshd_config 输入 set number 找到第57行 把这个前面的#注…

【记录】Truenas Scale|中危漏洞,需要SMB签名

部分内容参考&#xff1a;等保测试问题——需要SMB签名(SMB Signing not Required) 以及 ChatGPT。 Truenas常用SMB服务&#xff0c;但默认并不开启SMB签名。这样具有中间人攻击的风险。 一、漏洞详情 1.1 漏洞报告 漏洞提示如下&#xff1a; 1.2 漏洞介绍 SMB是一个协议名…

人工智能发展到GPT4经历了什么,从专家系统到机器学习再到深度学习,从大模型到现在的GPT4

大家好&#xff0c;我是微学AI&#xff0c;今天给大家讲一下人工智能的发展&#xff0c;从专家系统到机器学习再到深度学习&#xff0c;从大模型到现在的GPT4&#xff0c;讲这个的目的是让每个人都懂得人工智能&#xff0c;每个人都懂得人工智能的发展&#xff0c;未来人工智能…