【阅读笔记】Semi-supervised Domain Adaptation in Graph Transfer Learning

Background

真实世界的图上节点的标签数据是很难拿到的。
因此图转移学习被提出将知识从标记的源图转移出来,以帮助预测域变化的目标图中节点的标签。

尽管图迁移学习算法取得了重大进展,但它们通常假定源图中的所有节点都被标记出来了。
因此文章定义了半监督域自适应框架来进行图上的节点分类。
在这里插入图片描述
半监督域自适应面临2个挑战:

  1. 如何克服跨域带来的域转移问题,学习图的域不变信息来进行预测?
  2. 如何缓解标签稀疏的问题

Contributions

  1. 为了解决第一个挑战,文章提出在原图编码的时候加入 shift parameter ,并且提出一个对抗迁移模块去学习域不变节点表征
  2. 为了缓解标签稀疏,提出一个伪标签方法,使用后验评分来监督未标记节点的训练,提高了模型对目标图的鉴别能力。
  3. 实验效果好

Related Works

domain adaptation:

基于距离的方法:
基于距离的方法显式地计算源域和目标域之间的分布距离,并在嵌入空间中最小化它们。

基于对抗学习的方法:
通常在隐藏嵌入之上训练一个域鉴别器,并试图以隐式的方式融合它进行域对齐

Graph Transfer Learning:
大多数工作在图学习上建立了类似于那些在图像上的方法,而没有考虑图的复杂结构或显式地利用图的拓扑信息。

Semi-supervised Learning on Graphs.
针对节点分类,即图上只有少数节点有标签

Problem definition

源域(少量标签、目标域(没有标签 他们在数据分布上有明显的不同,但是共享相同的标签空间。
文章的目的是学习一个模型,在部分标记的源图的帮助下,准确地预测目标图中的节点类。

Methodology

在这里插入图片描述

  • Node embedding generalization:探索两个图中的高阶结构化信息来学习广义节点表示。
  • Adversarial transformation:在源图中引入了自适应分布的位移参数,并对一个域鉴别器以对抗性的方式进行训练。
  • Pseudo-labeling with Posterior Scores :解决标签稀疏问题。

Node embedding generalization

  1. 计算节点之间的 Positive Pointwise Mutual Information (PPMI)来探索高阶无标签图拓扑信息,并且使用图卷积网络去编码节点到泛化的低维空间。 【PPMI是一种用于衡量两个事件之间关联程度的统计量。它通常用于自然语言处理和信息检索领域
  2. 根据PPMI这个指标获得一个矩阵 P P P, P i , j P_{i,j} Pi,j代表节点i与j之间的相关性。
    在这里插入图片描述在这里插入图片描述

Adversarial Transformation via Shifting

领域自适应的一般学习目标是训练一个特征编码器来消除分布。
通常,域自适应的一般学习目标是训练一个特征编码器来消除源域与目标域之间的分布差异 ,生成在两个域上分布相似的embedding。

通过在输入空间上添加可训练参数(如扰动)来执行迁移已被证明在将一个分布转移到另一个分布方面是有效的。
文章提出了一个对抗变换模块,其目的是在源图上添加移位参数来修改其分布,并使用对抗学习来训练 graph encoder和shift parameters,以对齐跨域分布。

其中optimization objective定义为:
在这里插入图片描述
D d D_{d} Dd是一个域鉴别器,用于鉴别输入的节点embedding属于目标域还是源域;
具有shift parameters的编码器则生成难以区分的源节点嵌入,最后产生域不变节点嵌入。

Pseudo-Labeling with Posterior Scores

而在有监督情况下,由于标签比较少,所以容易导致过拟合。
特别是,在没有任何监督的情况下,目标图中分布在边界附近、远离其对应类的簇的质心的节点很容易被误分类。
文章提出了一种新的基于节点后验评分的伪标记策略,以提高对未标记节点的预测精度。
具体步骤:
在每次训练中,更新源域与目标域中原始无标签节点的伪标签;
文章假设节点靠近它们的伪标签聚类的结构质心则更容易被分类成功,文章将这种节点的伪标签视为更高质量的自监督信号,旨在提高这些节点embedding的识别能力。
因此,文章引入一个后验得分来定义ni如何接近其重构邻接矩阵P上的伪标签簇的结构质心:
从属于类X的节点到节点 n j n_{j} nj的互信息(变量间相互依赖性的量度),
文章中认为如果一个节点拥有的伪标签X与其他真实标签为X的节点的互信息值大,那么可以认为该节点的是接近类X的质心的,且 w i w_{i} wi值也会变大。
在这里插入图片描述
伪标签的损失函数如下所示:
在这里插入图片描述
最终的loss function:
在这里插入图片描述

Experiment

数据集:
在这里插入图片描述

在这里插入图片描述

conclusion:

  • 提出了一个新的图半监督域适应研究问题
  • 提出了一种称为SGDA的方法,它使用shift parameters和对抗性学习来实现模型迁移。
  • 此外,SGDA还使用带有自适应后验分数的伪标签来缓解标签稀疏的问题
读后感

框架图看了3遍没看懂什么意思,只知道会产生三种loss
感觉伪标签这块解释的有点绕,涉及到很多指标计算或者处理细节;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/281893.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

商品销售数据爬取分析可视化系统 爬虫+机器学习 淘宝销售数据 预测算法模型 大屏 大数据毕业设计(附源码)✅

毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题&#xff…

三角函数两角和差公式推导

一.几何推理 1.两角和公式 做一斜边为1的直角△ABC,任意旋转非 k Π , k N kΠ,kN kΠ,kN,补充如图,令 ∠ A B C ∠ α , ∠ C B F ∠ β ∠ABC∠α,∠CBF∠β ∠ABC∠α,∠CBF∠β ∴ ∠ D B F ∠ D B A ∠ α ∠ β 90 , ∠ D A …

OpenEular23.09(欧拉)操作系统为企业搭建独立的K8S集群环境,详细流程+截图

一.环境; win10,vmware16 pro,openeular23.09 集群模式:一主二从 主机硬件配置 主机名IP角色CPU内存硬盘k8s-master01192.168.91.100master4C4G40Gk8s-worker02192.168.91.101worker(node)4C4G40Gk8s-worker03192.168.91.102wor…

toto的2023年终总结

第一次写年终总结,其实顺带是把大学四年的学习都给总结了一下,称之为大学总结更为合适吧? 其实把年终总结发在CSDN上有些不适,之前一直想着搭一个自己的博客也因为种种事情一直没有完成, 索性发在这里了,作…

什么是边缘案例测试?如何查找并确定优先级

何为边缘情况? 在极端条件下发生的情况被称为边缘情况,有时候也叫边界情况,在功能、回归、单元和性能测试中都会应用。如果质量保证团队知道某项功能的最大和最小负载,他们就能防止这些情况发生。当用户不按照程序的预期工作流程…

Windows不同的域名由不同的DNS服务器解析

gpedit.msc(组策略)-计算机配置-Windows设置-域名解析策略 本次改动在注册表中体现的位置。 计算机\HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Services\Dnscache\Parameters\DnsPolicyConfig\{666881c9-5525-434b-a62a-2ed5c61d53e5} 计算机\HKEY_LOCAL_MACHINE\SYSTEM\Cur…

⑩①【缓存】Redis持久化 RDB + AOF

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ ⑩①Redis持久化 RDB AOF Redis数据快照 - RD…

XXE注入漏洞总结

XXE和XML概念 XML被设计为传输和存储数据,XML文档结构包括XML声明、DTD文档类型定义(可选)、文档元素,其焦点是数据的内容,其把数据从HTML分离,是独立于软件和硬件的信息传输工具。XXE漏洞全称XML Externa…

C++每日一练(8):图像相似度

题目描述 给出两幅相同大小的黑白图像(用0-1矩阵)表示,求它们的相似度。 说明:若两幅图像在相同位置上的像素点颜色相同,则称它们在该位置具有相同的像素点。两幅图像的相似度定义为相同像素点数占总像素点数的百分比。…

软件测试/测试开发丨Linux 数据处理三剑客学习笔记

一、Linux 三剑客之 grep 1、 内容检索 获取行(单行) grep pattern file获取内容 grep -o pattern file获取上下文 grep -A -B -C pattern file 2、 文件检索 递归搜索 grep pattern -r dir/展示匹配文件名 grep -H 111 /tmp/1只展示匹配文件名 grep …

算法学习系列(十四):并查集

目录 引言一、并查集概念二、并查集模板三、例题1.合并集合2.连通块中点的数量 引言 这个并查集以代码短小并且精悍的特点,在算法竞赛和面试中特别容易出,对于面试而言,肯定不会让你去写一两百行的代码,一般出的都是那种比较短的…

FPGA - 231227 - 5CSEMA5F31C6 - 电子万年历

TAG - F P G A 、 5 C S E M A 5 F 31 C 6 、电子万年历、 V e r i l o g FPGA、5CSEMA5F31C6、电子万年历、Verilog FPGA、5CSEMA5F31C6、电子万年历、Verilog 顶层模块 module TOP(input CLK,RST,inA,inB,inC,switch_alarm,output led,beep_led,output [41:0] dp );// 按键…

00-Git 详解

Git 应用 一、Git概述 1.1 什么是Git git 是一个代码协同管理工具,也称之为代码版本控制工具,代码版本控制或管理的工具用的最多的: svn、 git。 SVN 是采用的 同步机制,即本地的代码版本和服务器的版本保持一致(提…

社区医院挂号预约服务管理系统95an6

社区医院管理服务系统具有社区医院信息管理功能的选择。社区医院管理服务系统采用p[ython技术,基于django框架,mysql数据库进行开发,实现了首页、个人中心、用户管理、医生管理、预约医生管理、就诊信息管理、诊疗方案管理、病历信息管理、健…

创建您的第一个记忆卡片游戏

大家好!今天,我们将一起探索如何用HTML、CSS和JavaScript创建一个有趣的记忆卡片游戏。我们的游戏规则很简单:用户需要找到一对一样的卡片。如果你是编程新手,不用担心,我会逐步引导你完成这个项目。 正文&#xff1a…

MFC扩展库BCGControlBar Pro v34.0 - 仪表盘控件全面升级

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中,并为您节省数百个开发和调试时间。 BCGControlBar专业版 v34.0已正式发布了,该版本包括新的主题任务对话框、图像效果、旋转圆形刻度、…

C语言转WebAssembly的全流程,及Web端调用测试

第一步:安装环境 参考网址:https://emscripten.org/docs/getting_started/downloads.html 具体过程: 克隆代码:git clone https://github.com/emscripten-core/emsdk.git进入代码目录:cd emsdk获取最新远端代码&…

uniapp 安卓模拟器链接

下载genymotion 安装 配置adb路径 模拟端口设为 5307

C#上位机与欧姆龙PLC的通信06---- HostLink协议(FINS版)

1、介绍 对于上位机开发来说,欧姆龙PLC支持的主要的协议有Hostlink协议,FinsTcp/Udp协议,EtherNetIP协议,本项目使用Hostlink协议。 Hostlink协议是欧姆龙PLC与上位机链接的公开协议。上位机通过发送Hostlink命令,可…
最新文章