港大新工作 HiGPT:一个模型,任意关系类型 !

请添加图片描述
论文标题: HiGPT: Heterogeneous Graph Language Model

论文链接: https://arxiv.org/abs/2402.16024

代码链接: https://github.com/HKUDS/HiGPT

项目网站: https://higpt-hku.github.io/

1. 导读

异质图在各种领域,如推荐系统、知识图谱、社交网络分析和生物网络等获得了广泛的关注和应用。这些图包含了各种类型的实体和多种复杂关系,使得它们能够充分表示复杂系统。异质图学习的重点就是为这些图中的节点和边衍生出有意义的表征。这些表征旨在捕捉图内复杂的关系语义,以便更深入地理解底层的结构异质性。

近年来,人们越来越认识到异质图神经网络(HGNNs)在捕捉异质图结构中复杂和多样的信息方面的巨大潜力。HGNNs利用高阶消息传递技术的表达能力,使它们能够有效地建模图中存在的复杂关系、多样实体类型和异质语义。通过在各种节点和边类型上聚合和传播信息,HGNNs促进了对异质图结构内复杂关系的更深入理解和分析。

尽管当前用于异质图学习的框架已经显示出了有效性,但是在泛化于各种异质图数据集方面存在一定的限制。这些框架通常采用"预训练"和"微调"的范式,首先在特定数据集上进行训练,然后在同一数据集上进行微调。然而,这种方法无法泛化到新的、未见过的数据上。这些框架过度依赖原始训练数据集的结点和关系类别,限制了它们有效处理不同异质图数据集中结点和关系类别不同的能力。

因此,本研究旨在通过解决一个基本问题来扩大异质图模型的界限:"我们能否开发出有高度适应性的通用的异质图模型,即使面对节点类型和关系类型分布偏移时,也能有效地处理各种下游学习任务?“即"一个模型,建模任意关系类型”。为了应对这一挑战,本文将介绍香港大学数据智能实验室(https://sites.google.com/view/chaoh/group-join-us)提出的最新图结构大语言模型(HiGPT),专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待HiGPT能够吸引更多的开源社区开发者参与讨论和实践,进一步推动图结构与语言模型的有效结合。

2.概述

总得来说,我们将实现"一个模型,建模任意关系类型"的挑战归纳为以下三点,并给出了对应解决方案:

C1. 关系类型异质性偏移。本研究中我们关注的一个主要挑战是各种异质图结构中关系类型异质性的偏移。在这些图中,实体由各种类型的关系连接,而这些关系类型可能在各种数据集中有很大的差异。为了说明这一点,让我们考虑两个例子。在推荐系统中,异质图可能涉及user和item之间的节点关系。这种情况下的关系类型可能包括"点击"、“收藏”、“评论"和"购买”。另一方面,在学术图中,关系可能涉及"论文-论文"、“作者-论文"和"论文-会议”。这些例子说明了不同的异质图可能在不同领域中展示出具有不同语义的各种关系异质性。

S1. 上下文异质图Tokenizer。为了在具有不同节点和边类型的各种异质图场景中实现泛化性,我们引入了上下文异质图Tokenizer。这个Tokenizer捕捉到了不同异质图中存在的各种语义关系,提供了一个统一的建模方法。它包括两个重要组件:1)上下文参数化异质性投影器:利用语言对不同的节点和边类型进行编码;2)参数分配器:动态地为Tokenizer分配定制的参数。为了优化性能并将Tokenizer无缝集成到HiGPT框架中,我们采用了轻量级的文本-图对比对齐范式来预训练。这个预训练过程直接将Tokenizer集成到HiGPT中,提高了其语义建模能力,并确保其在整个模型架构中运行平稳。

C2. 复杂异质图结构。本研究的重点是解决将大语言模型(LLMs)集成到异质图学习中的挑战,以提高模型的泛化能力。我们的具体目标是开发一种面向图的语言模型,使得该模型在理解复杂异质图结构中所固有的复杂结构信息方面表现出色。通过这样做,我们希望使图模型不仅能够识别不同类型节点之间关系的异质性,还能够捕捉属于同一类型的实体的特征。

S2. 异质图指令微调。我们引入了一种新颖的异质图指令微调框架,该框架集成了跨类型和同类型token匹配任务来微调大语言模型(LLMs)。我们的框架专门针对提高LLMs对异质关系感知和同质关系感知的理解。通过这些任务,我们的目标是增强LLMs在以下方面的能力:(i)区分不同类型的图token,(ii)理解异质图内复杂的关系,(iii)保留同构图内实体的特定属性,以及(iv)在训练过程中有效利用各种图指令。

C3. 模型微调的数据稀缺。涉及异质图学习的实际场景中,其中一个关键挑战是数据的有限可用性。数据稀缺问题在微调模型时带来了重大障碍。例如,当使用异质图来建模推荐系统中的冷启动user/item时,用户交互数据的稀疏性限制了有监督信号的可用性。这种数据稀缺影响了下游任务模型微调的有效性,并需要开发新技术来应对这一挑战。

S3. Mixture-of-Thought指令增强。我们的方法引入了一种用于增强图指令的新机制Mixture-of-Thought(MoT),即混合各种提示技术结合使用。这种集成使我们能够生成一组多样化和全面的信息丰富的下游任务指令。通过无缝地将这些增强的图指令集成到我们的框架中,将有效地解决数据稀疏性的挑战。

3. 方法

这一部分,将阐述HiGPT图指令微调范式的技术细节,其整体框架如图1所示:

请添加图片描述

3.1 上下文异质图Tokenizer

为了使我们的HiGPT能够适应各种具有不同节点和边类型的异质图场景,我们提出了一种上下文异质图tokenizer。这种方法捕捉到了不同异质图中存在的各种语义关系,达到了统一建模的目的。它包括两个重要组件:上下文参数化异质性投影器和参数分配器。上下文自适应投影器利用语言对异质图中的不同节点和边类型进行编码,以实现模型的泛化性。同时,参数分配器动态地为tokenizer分配专门定制的参数。为了优化tokenizer的性能并将其无缝集成到HiGPT框架中,我们使用了一个简化的文本-图对比学习框架进行预训练。这个预训练过程直接将tokenizer集成到HiGPT框架中,并有效地将其与大语言模型(LLM)集成。这种方法提高了tokenizer的能力,并确保了其在整个模型架构中的平稳运行。

3.1.1 带有元投影器的图Tokenization

给定一个具有特征矩阵 X = { X T i ∈ R ∣ V T i ∣ × d T i , T i ∈ T } \mathbf{X} = \{X_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times d_{T_i}}, T_i \in \mathcal{T}\} X={XTiRVTi×dTi,TiT} 和邻接矩阵 A \mathbf{A} A的异质图 G \mathcal{G} G,异质图tokenizer的目标是对异质图的隐式表示进行编码,表示为 H = { H T i ∈ R ∣ V T i ∣ × f T i , T i ∈ T } \mathbf{H} = \{H_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times f_{T_i}}, T_i \in \mathcal{T}\} H={HTiRVTi×fTi,TiT}。这通过函数 H = HG-Tokenizer ( X , A ) \mathbf{H} = \text{HG-Tokenizer}(\mathbf{X}, \mathbf{A}) H=HG-Tokenizer(X,A)实现,其中 f T i f_{T_i} fTi表示节点类型 T i T_i Ti的隐式维度。 HG-Tokenizer ( ⋅ ) \text{HG-Tokenizer}(\cdot) HG-Tokenizer()可以使用各种基础HGNN架构来实现,例如HetGNN、HAN或HGT。

然而,这些异质GNN的泛化能力受到其固有设计的限制,这包括针对特定异质图进行的预定义参数学习。因此,训练好的异质GNN不能直接应用于其他未见过的异质图,这与使用HG-Tokenizer实现统一编码的目标相悖。例如,让我们考虑HGT。在HGT中,计算 h v ( l ) h_{v}^{(l)} hv(l)涉及使用函数如 A t t e n t i o n ( ⋅ ) \mathbf{Attention}(\cdot) Attention() M e s s a g e ( ⋅ ) \mathbf{Message}(\cdot) Message()来处理来自源节点的信息:
h ~ v ( l ) = ⊕ ∀ u ∈ N ( v ) ( A t t e n t i o n ( u , e , v ) ⋅ M e s s a g e ( u , e , v ) ) \widetilde{h}_{v}^{(l)} = \underset{\forall u \in \mathcal{N}(v)}{\oplus} \left(\mathbf{Attention}\left(u,e,v\right) \cdot \mathbf{Message}\left(u,e,v\right)\right) \nonumber h v(l)=uN(v)(Attention(u,e,v)Message(u,e,v))

h v ( l ) = F Θ 1 τ ( v ) ( σ ( h ~ v ( l ) ) ) + h v ( l − 1 ) = W 1 τ ( v ) ⋅ ( σ ( h ~ v ( l ) ) ) + b 1 τ ( v ) + h v ( l − 1 ) h_{v}^{(l)} = \mathcal{F}_{\Theta_1}^{\tau(v)} \left(\sigma\left(\widetilde{h}_{v}^{(l)}\right)\right) + h_{v}^{(l - 1)} = \mathbf{W}^{\tau(v)}_1\cdot \left(\sigma\left(\widetilde{h}_{v}^{(l)}\right)\right) + \mathbf{b}^{\tau(v)}_1 + h_{v}^{(l - 1)} hv(l)=FΘ1τ(v)(σ(h v(l)))+hv(l1)=W1τ(v)(σ(h v(l)))+b1τ(v)+hv(l1)

F Θ 1 τ ( v ) ( ⋅ ) \mathcal{F}_{\Theta_1}^{\tau(v)}\left(\cdot\right) FΘ1τ(v)()表示一个全连接层,其参数为 Θ 1 = { W τ ( v ) , b τ ( v ) } \Theta_1 = \{\mathbf{W}^{\tau(v)}, \mathbf{b}^{\tau(v)}\} Θ1={Wτ(v),bτ(v)}。其中, τ ( v ) \tau(v) τ(v)表示节点 v v v的类型, σ ( ⋅ ) \sigma(\cdot) σ()表示激活函数。具有 h h h个heads的 A t t e n t i o n ( ⋅ ) \mathbf{Attention}(\cdot) Attention() M e s s a g e ( ⋅ ) \mathbf{Message}(\cdot) Message()函数的具体形式:
A t t e n t i o n ( u , e , v ) = Softmax ∀ u ∈ N ( v ) ( ∥ i ∈ [ 1 , h ] F Θ 2 τ ( u ) ( h u ( l − 1 ) ) W 1 ρ ( e ) F Θ 3 τ ( v ) ( h v ( l − 1 ) ) ) \mathbf{Attention}\left(u,e,v\right) = \underset{\forall u \in \mathcal{N}(v)}{\text{Softmax}}\left(\underset{i\in [1, h]}{\parallel} \mathcal{F}_{\Theta_2}^{\tau(u)}\left(h_{u}^{(l - 1)}\right)\mathbf{W}^{\rho(e)}_1 \mathcal{F}_{\Theta_3}^{\tau(v)}\left(h_{v}^{(l - 1)}\right)\right) \nonumber Attention(u,e,v)=uN(v)Softmax(i[1,h]FΘ2τ(u)(hu(l1))W1ρ(e)FΘ3τ(v)(hv(l1)))

M e s s a g e ( u , e , v ) = ∥ i ∈ [ 1 , h ] F Θ 4 τ ( u ) ( h u ( l − 1 ) ) W 2 ρ ( e ) \mathbf{Message}\left(u,e,v\right) = \underset{i\in [1, h]}{\parallel} \mathcal{F}_{\Theta_4}^{\tau(u)}\left(h_{u}^{(l - 1)}\right)\mathbf{W}^{\rho(e)}_2 Message(u,e,v)=i[1,h]FΘ4τ(u)(hu(l1))W2ρ(e)

自适应参数的异质性投影器: 为了使我们的HiGPT能够适应各种具有不同图异质性设置的异质图,并消除提前预定义类型特定投影数量的要求,我们提出了一种类型感知参数化投影器的设计。这个投影器能够动态地将关系异质性编码到隐式表征中。更具体地说,根据以下过程自动生成类型感知投影器的参数 F Θ _ i τ ( v ) \mathcal{F}_{\Theta\_i}^{\tau(v)} FΘ_iτ(v) W i ρ ( e ) \mathbf{W}^{\rho(e)}_i Wiρ(e)
Θ i = { W i τ ( v ) ; b i τ ( v ) } = F Ω ( T τ ( v ) ) ; W i ρ ( e ) = F Ω ( T ρ ( e ) ) \Theta_i = \{\mathbf{W}^{\tau(v)}_i;\mathbf{b}^{\tau(v)}_i \}= \mathcal{F}_{\Omega}\left(\mathbf{T}^{\tau(v)}\right);\mathbf{W}^{\rho(e)}_i = \mathcal{F}_{\Omega}\left(\mathbf{T}^{\rho(e)}\right) Θi={Wiτ(v);biτ(v)}=FΩ(Tτ(v));Wiρ(e)=FΩ(Tρ(e))
F Ω \mathcal{F}_{\Omega} FΩ是一个带有参数 Ω \Omega Ω的全连接层,而 T τ ( v ) \mathbf{T}^{\tau(v)} Tτ(v) T ρ ( e ) \mathbf{T}^{\rho(e)} Tρ(e)分别是与节点类型 τ ( v ) \tau(v) τ(v)和边类型 ρ ( e ) \rho(e) ρ(e)相关联的特征。值得注意的是,提供的示例展示了在HGT框架中使用上下文参数化异质性投影器的用法,其允许集成到各种其他异质GNNs。

**语言富化的异质性表示:**我们利用自然语言来生成基于其各自类型的节点和边的通用异质性表示。例如,在异质IMDB数据集中,我们可以使用自然语言将"movie"节点描述为"This node represents a movie"。同样,边(“movie”, “to”, “director”)可以表述为"The movie is directed by the director"。为了对这些节点和边的自然语言描述进行编码,我们使用预训练的语言模型,如Sentence-BERT,来获得类型表示。为了确保不同类型之间的可区分性和多样性,我们使用多种语言来描述相同的类型。从预训练的语言模型中编码的表示被平均以获得最终的表示。这个过程可以定义如下:
T τ ( v ) = Mean-Pooling ( Sentence-BERT ( S τ ( v ) ) ) , T ρ ( e ) = Mean-Pooling ( Sentence-BERT ( S ρ ( e ) ) ) \mathbf{T}^{\tau(v)} = \text{Mean-Pooling}\left(\text{Sentence-BERT}\left( \mathbf{S}^{\tau(v)}\right)\right), \mathbf{T}^{\rho(e)} = \text{Mean-Pooling}\left(\text{Sentence-BERT}\left( \mathbf{S}^{\rho(e)}\right)\right) Tτ(v)=Mean-Pooling(Sentence-BERT(Sτ(v))),Tρ(e)=Mean-Pooling(Sentence-BERT(Sρ(e)))
S τ ( v ) \mathbf{S}^{\tau(v)} Sτ(v) S ρ ( e ) \mathbf{S}^{\rho(e)} Sρ(e)分别表示节点类型 τ ( v ) \tau(v) τ(v)和边类型 ρ ( e ) \rho(e) ρ(e)的描述集。例如,考虑边(“movie”, “to”, “director”)的例子。一个可能的描述是:
S ( "movie" , "to" , "director" ) = { "The   movie   is   directed   by   the   director" , "The   film   features   direction   by   the   director" , ⋯   } \mathbf{S}^{(\texttt{"movie"}, \texttt{"to"}, \texttt{"director"})} = \\ \{ \texttt{"The movie is directed by the director"}, \texttt{"The film features direction by the director"}, \cdots\} S("movie","to","director")={"The movie is directed by the director","The film features direction by the director",}

3.1.2 轻量化图-文对比对齐

基于最近在跨模态语义对齐方面的进展,我们借鉴了采用文本-图对比对齐范式来预训练所提出的异质图tokenizer。这种方法旨在对齐语言和异质结构的建模能力,使tokenizer和语言模型之间更好地协作。首先,我们考虑用 C = { c i ∈ R l i × d , 1 ≤ i ≤ N } \mathbf{C} = \{ c_i \in \mathbb{R}^{l_i\times d}, 1\leq i\leq N\} C={ciRli×d,1iN}表示的原始文本内容,其中 N N N表示异质图节点 X = { X T i ∈ R ∣ V T i ∣ × d T i } \mathbf{X} = \{X_{T_i} \in \mathbb{R}^{|\mathcal{V}_{T_i}|\times d_{T_i}}\} X={XTiRVTi×dTi}的总数。这里, l i l_i li表示与第 i i i个节点相关联的文本内容的长度。在我们的方法中,我们采用了一个轻量级的文本-图对比对齐范式,如下所示:
H ^ = norm ( HG-Tokenizer ( X ) ) , T ^ = norm ( LM-Tokenizer ( C ) ) \hat{\mathbf{H}} = \text{norm}\left(\text{HG-Tokenizer}\left(\mathbf{X}\right)\right), \hat{\mathbf{T}} = \text{norm}\left(\text{LM-Tokenizer}\left(\mathbf{C}\right)\right) \nonumber H^=norm(HG-Tokenizer(X)),T^=norm(LM-Tokenizer(C))

L = 1 2 ( CE ( Λ , y ) + CE ( Λ ⊤ , y ) ) , Λ = ( H ^ T ^ ⊤ ) ⋅ exp ⁡ ( τ ) \mathcal{L} = \frac{1}{2}\left(\text{CE}(\Lambda, \mathbf{y}) + \text{CE}(\Lambda^{\top}, \mathbf{y})\right), \Lambda = (\hat{\mathbf{H}} \hat{\mathbf{T}}^{\top}) \cdot \exp (\tau) L=21(CE(Λ,y)+CE(Λ,y)),Λ=(H^T^)exp(τ)

我们使用对比标签 y = ( 0 , 1 , ⋯   , n − 1 ) ⊤ \mathbf{y} = (0, 1, \cdots, n-1)^{\top} y=(0,1,,n1)和交叉熵函数 CE ( ⋅ ) \text{CE}(\cdot) CE()。我们的实现使用多层普通Transformer来进行 LM-Tokenizer ( ⋅ ) \text{LM-Tokenizer}(\cdot) LM-Tokenizer()

3.2 异质图指令微调

HiGPT的目标是使语言模型能够直接为具有未见过的异质图和相应指令的下游任务生成预测。首先,使用tokenizer对自然语言指令进行编码,得到文本嵌入,表示为 X I = LM-tokenizer ( instruction ) \mathbf{X}_{\mathcal{I}} = \text{LM-tokenizer}(\texttt{instruction}) XI=LM-tokenizer(instruction)。为了对齐维度,我们使用一个投影器将图tokens映射到与文本嵌入相同的维度,表示为 X G = f P ( H ) \mathbf{X}_{\mathcal{G}} = f_{\mathbf{P}}(\mathbf{H}) XG=fP(H),这可以是一个简单的线性层。对于长度为 L L L的序列,我们确定生成目标输出 X O \mathbf{X}_{\mathcal{O}} XO的概率:
p ( X O ∣ X G , X I ) = ∏ i = 1 L p Φ ( x i ∣ X G , X I , < i , X O , < i ) p(\mathbf{X}_{\mathcal{O}}|\mathbf{X}_{\mathcal{G}}, \mathbf{X}_{\mathcal{I}}) = \prod_{i=1}^{L}p_{\Phi}(x_i|\mathbf{X}_{\mathcal{G}}, \mathbf{X}_{\mathcal{I}, <i} , \mathbf{X}_{\mathcal{O}, <i}) p(XOXG,XI)=i=1LpΦ(xiXG,XI,<i,XO,<i)
其中 Φ \Phi Φ表示HiGPT中的可学习参数。

3.2.1 基于异质图“语料库”的指令微调

为了使语言模型(LLM)能够根据自然语言指令有效地区分不同类型的输入异质图tokens和每种类型中的特定节点,我们提出使用包含大量异质图-指令对的"语料库"进行指令预训练。这种方法使得微调后的HiGPT在同质和异质图结构方面都有全面的理解。

  • 异质关系感知: 我们的目标是增强语言模型在异质上下文中区分特定类型节点方面的能力,同时考虑复杂的关系。这通过利用图tokens中编码的信息来实现。

  • 同构关系感知: 我们的目标是使模型具有在图tokens序列与其对应的自然语言描述之间建立显著的对应关系的能力,这些图tokens序列属于同一类别。

异质图指令: 在我们的图指令中,我们通过随机邻居采样生成一个异质子图,并配有一个由人类生成的问题。为了增强异质图语料库的多样性,我们对不同类型的节点进行多次采样。此外,我们在人类问题中引入<graph> token作为图示意符。i)实现异质关系感知,我们引入了跨类型token匹配任务。这个任务涉及向语言模型(LLM)提供不同类型的图tokens编码序列,使其能够区分各种类型。ii)实现同构关系感知,我们设计了同类型匹配任务,其中LLM接收特定类型的图tokens编码序列,使其能够与相关描述建立对应关系。有关此阶段指令模板的更多详细信息,如表1所示。

请添加图片描述

3.2.2 异质感知微调

为了定制语言模型在异质图特定下游任务的推理能力,我们提出了异质感知微调。这种方法涉及在初始的异质图语料库指令预训练阶段之后,使用特定下游任务的指令进行监督学习。它使我们能够完善LLM的性能,并使其适应异质图上目标任务的特定要求。

在这个阶段,我们结合了一个以目标节点为中心随机采样的异质子图,以及一个由人类生成的问题。考虑到指令预训练阶段已经使模型具有异质和同构关系感知能力,我们设计了富有异质性的人类问题。这些问题包含不同类型的图tokens序列,由多个<graph>tokens表示。此外,人类问题包括与目标节点相关的辅助信息。这些指令的设计如表1所示。

3.3 Mixture-of-Thought (MoT) 图指令微调

在异质图学习的实际应用中,数据稀少通常是一个挑战。尤其是在使用异质图对推荐系统中的冷启动user/item进行建模时,稀疏的用户交互数据限制了可用的有监督信号。为了解决数据稀少的问题,我们提出通过将增强的图指令合并到我们的HiGPT中来增强我们的模型。在异质图指令微调的背景下,我们引入了一种用于指令增强的新方法。这种方法利用提示工程技巧,特别是Mixture-of-Thought(MoT),来生成多样化和信息丰富的指令,以有效地克服数据稀少带来的挑战。通过将增强的图指令合并到我们的模型中,我们期望我们的模型能够有效地解决数据稀少问题。

3.3.1 Mixture-of-Thought (MoT) 提示

我们的重点是设计和优化提示,以有效利用语言模型。我们采用了几种技巧来增强语言模型:i)Chain-of-Thought(CoT):CoT 提示引入中间步骤,使复杂的推理和高级能力成为可能。ii)Tree-of-Thought(ToT):ToT 保持一棵由一致的语言序列组成的树状结构,称为Thought。这些Thought作为系统的中间步骤用于问题解决。iii)PanelGPT:PanelGPT 在语言模型之间引入了讨论板块,通过协作来增强提示工程过程。iv)Generated Knowledge Prompting(GKP):GKP 涉及将额外的知识合并到提示中以进行增强。通过利用这些技巧,我们的目标是增强异质图指令,尤其是在数据有限可用性的场景中。

3.3.2 带有先验知识的指令增强

我们使用七种指令增强策略,每种策略为每个问题-答案对生成七个增强的指令,有机结合了以上Mixture-of-Thought(MoT)的特征。然而,闭源语言模型(如 ChatGPT)可能会产生错误的答案,从而导致错误的指导。为了解决这个问题,我们提出将先验知识,即正确的答案合并到提示中。它使LLM能够模拟生成正确的答案,并使用不同的MoT方法产生中间的推理步骤,如图2所示。最终经过MoT增强的指令和原始指令一起用于指令微调,实现了在不增加监督信号的条件下增加指令集数量。

请添加图片描述

4. 实验

4.1 总体性能对比

Obs.1 在few-shot设置下的优越性: HiGPT在监督学习设置下始终优于最新的基线方法,即使每个类别只有一个样本。这种成功可以归功于我们在大规模异质图语料库上的有效指令微调。这使得LLM能够从图tokens中提取有价值且可传递的异质结构信息,从而在下游任务中取得了显著的性能提升。此外,我们提出的MoT图指令增强方法使LLM具有各种混合推理能力,而无需额外的监督信号。因此,它在少样本场景中有效减轻了数据稀少问题带来的影响。

Obs.2 在zero-shot设置下的优越性: 在零样本设置下,我们的HiGPT显著优于基线方法。不像传统模型受到训练图类型的限制,我们的方法利用了一个上下文异质图tokenizer。这个tokenizer根据输入图进行适配tokenization,使LLM能够无缝地结合捕捉高阶结构特征的图tokens。因此,我们的模型有效地克服了图异质性偏移的限制,即使在跨域场景下也表现出色,展示了我们HiGPT的显著泛化性。

Obs.3 Mixture-of-Thought增强的有效性: 通过采用Mixture-of-Thought(MoT)方法,我们的模型利用了强大的LLM(即GPT-3.5)的各种推理能力,并无缝地将它们集成到规模更小的语言模型中。这种集成有助于增强我们模型在数据稀少情况下的推理能力,并提高其在有限监督信号情况下的性能。MoT技巧在生成动态和多样的指令方面发挥着关键作用,从而弥补了数据的不足,使我们的模型能够在监督和零样本设置下做出显著准确的预测。

请添加图片描述

4.3 消融实验

请添加图片描述

异质图指令微调的影响。为了验证在大规模异质图语料库上的指令微调阶段的有效性,我们生成了"w/o S1"变体,即仅在下游任务数据上微调指令。通过使用不同的epoch设置(15、50 和 100)进行实验,我们观察到,仅在下游任务数据上微调的模型在所有情况下都无法提供完整和准确的答案。然而,我们的HiGPT在所有设置中仅在15个epoch内就取得了最新的成果。这种成功可以归功于我们的HiGPT从广泛的异质图上下文语料库中学习,使其能够理解和提取重要的结构信息。因此,在第二阶段,我们的HiGPT仅需要很少的监督数据(甚至在1-shot场景下)就能快速适应下游任务。相比之下,直接将LLMs与稀疏的监督数据对齐是具有挑战性的。

异质图上下文tokenizer的影响。我们测试了引入上下文tokenizer的异质图结构信息的必要性。通过不引入异质图tokens,仅在下游数据上训练LLM的嵌入权重,我们获得了一个名为"w/o HG"的变体。在不同的shot设置下,我们的HiGPT始终优于这个变体,尤其是在样本有限的场景中(例如,1或3个shot)。这种改进可归功于引入了图令牌,使LLM能够从上下文图tokenizer中提取高维异质结构信息。这种增强的理解显著提高了LLM在稀疏监督信号下的准确性。

Mixture-of-Thought(MoT)指令增强的影响。为了验证Mixture-of-Thought(MoT)图指令增强策略的有效性,我们仅使用直接回答指令训练了变体"-IA"。结果显示,在没有指令增强的情况下,模型的性能有了显著下降,突出了其在解决下游任务中标签稀缺问题方面的重要性。此外,HiGPT在零样本设置下的优异性能可以归功于其在训练过程中获得的增强推理能力,该能力是通过使用各种推理指令获得的。这种提高的能力使得可以有效地进行跨数据集和跨域的转移。

4.4 图上下文学习(Graph ICL)

请添加图片描述

使用HiGPT中的Graph ICL,1-shot模型超过60-shot模型: 结果显示,即使只有一个例子,在没有进一步训练的情况下,使用Graph ICL的大多数1-shot模型在监督和零样本设置下始终优于不使用Graph ICL的60-shot模型。增加示例的数量会增强上下文学习的效果。这种改进可以归功于HiGPT的两阶段指令调整过程,使其能够理解和分析异质图tokens,从而益处下游任务。通过提供具有图tokens的问答示例,模型对图文关系有了更深的理解。分析并模仿这些示例会导致更准确的回答。

使用Graph ICL增强HiGPT的迁移性: 在HiGPT中使用Graph ICL的优势在零样本迁移场景下尤为明显。这表明Graph ICL方法显著提高了HiGPT的迁移性,而无需优化模型参数。我们的HiGPT不仅仅是过度适应单个数据集,而是发展出了分析文本与异质图tokens的能力。通过从其他数据集中融合图示例,模型无缝地转移这种分析能力,显示出强大的迁移学习能力。

使用无关图例的好处: 我们尝试使用无关的图例(如使用DBLP Q&A 示例来测试 ACM 数据集)进行Graph ICL实验。惊人的是,使用 DBLP 图例取得了最佳结果。尽管目标任务不同,我们的HiGPT有效地利用了异质图tokens中的上下文信息,从而提高了下游任务的性能。这证实了我们的HiGPT从异质图结构中学习到了有价值的信息,而不仅仅依赖文本。使用 ACM 自己的示例表现不是很好,这是因为在对齐和阶段1的过程中,我们没有使用ACM的数据进行训练,缺失了对于ACM数据的建模能力。然而,DBLP的示例在某种程度上缓解了这个问题。

4.5 模型案例研究

我们探究了在不同提示技巧下HiGPT的行为。具体来说,我们利用各种提示技巧对在10-shot IMDB数据上训练的模型进行提示,获得六种不同的响应,预测案例如表1所示。最终答案所在的部分以粉色高亮突出显示。我们做出了以下观察:Obs. 1 在使用MoT图指令增强策略进行指令调整后,我们的HiGPT能够动态地准确地回应不同的提示。Obs. 2 表1中的CoT提示,虽然未格式化,但也显示出了一定的格式(以黄色高亮突出显示),这是因为混合各种指令也能够惠及不同的提示技巧。Obs. 3 在案例中,我们的HiGPT在进行了我们设计的两阶段图指令调整后,会自觉地从图的角度考虑问题(以绿色高亮突出显示),进一步证明我们的模型不仅从文本角度解决下游问题,还开发出了一定程度的图感知能力。

请添加图片描述

5. 总结

本工作引入了HiGPT,一个通用而多功能的图模型,它能够从各种异质图中学习,而无需下游微调过程。为了解决异质性的分布偏移,我们提出了一个上下文异质图tokenizer,它能够捕捉不同异质图中的语义关系,从而实现模型的无缝适应。通过将异质性感知的图指令集成到我们的HiGPT中,该模型变得精通于理解复杂的关系异质性,并准确地区分各种类型的图token。我们所提出的框架在各种场景下经过了广泛的评估,表现出了出色的泛化性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/499076.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

编译与链接(想了解编译与链接,那么看这一篇就足够了!)

前言&#xff1a;在我们练习编程的时候&#xff0c;我们只需要将代码写入、运行&#xff0c;就可以得到计算之后的结果了&#xff0c;但是你有没有想过&#xff0c;为什么就可以得到计算之后的结果呢&#xff0c;它的底层又到底是什么呢&#xff1f; ✨✨✨这里是秋刀鱼不做梦的…

气象预测新篇章:Python人工智能的变革力量

Python是功能强大、免费、开源&#xff0c;实现面向对象的编程语言&#xff0c;在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能&#xff0c;这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以…

数据结构与算法分析2栈、队列

1.栈和队列本质上都是表&#xff0c;所以他们都有两种实现方式&#xff0c;链表实现和数列实现。栈的特点是后进先出。 2.栈的实现 3.应用有&#xff1a; 4.栈的危险操作&#xff1a;用尽栈空间&#xff0c;导致内容占用到别的寄存器里面去了&#xff0c;从而出现异常。还有尾…

武汉星起航:借亚马逊平台优势助力商家精准营销

在全球经济一体化的背景下&#xff0c;跨境电商已成为推动国际贸易发展的重要引擎。作为跨境电商领域的佼佼者&#xff0c;亚马逊平台以其全球化销售渠道和强大的数据分析能力&#xff0c;为商家提供了前所未有的商机。武汉星起航电子商务有限公司深知亚马逊平台的优势&#xf…

企业为什么要用MES管理系统来升级改造生产车间

随着信息技术的迅猛发展&#xff0c;工业制造领域正经历着深刻的变革。在这个大背景下&#xff0c;MES管理系统的引入和应用&#xff0c;已成为企业升级改造生产车间、提升竞争力的关键手段。本文将从多个维度探讨企业为何要用MES管理系统来升级改造生产车间。 MES管理系统能够…

查询优化-提升子查询-UNION类型

瀚高数据库 目录 文档用途 详细信息 文档用途 剖析UNION类型子查询提升的条件和过程 详细信息 注&#xff1a;图片较大&#xff0c;可在浏览器新标签页打开。 SQL: SELECT * FROM score sc, LATERAL(SELECT * FROM student WHERE sno 1 UNION ALL SELECT * FROM student…

云计算——大模型应用发展的“理想支点”

在数字化浪潮中&#xff0c;人工智能技术的突飞猛进为千行百业带来了前所未有的转型机遇。近期出现的Sora模型能够根据文本描述生成高质量的视频内容&#xff0c;为多领域带来大模型技术飞跃的冲击。如何推进大模型应用&#xff0c;已成为各行业面临的重要课题之一。 打造硬核…

亚信安慧AntDB数据库分布式架构剖析之snapshot sender进程

本文主要介绍亚信安慧AntDB数据库的分布式架构下的特有进程之snapshot sender进程的设计&#xff0c;与snapshot receiver进程是一对&#xff0c;也是分布式架构的核心进程之一。 进程简介 与Snapshot Receiver进程相对应&#xff0c;该进程的作用从整体上看也只包含两个方面&a…

Shopee 4月市场趋势及选品分析,shopee虾皮品类爆款预测

废话不多说&#xff0c;马上进入本周Shopee“现象爆品”、“热门爆品趋势”及“热搜词周榜"版块&#xff0c;帮助商家及时了解Shopee最新市场现状&#xff0c;掌握选品趋势。 1 现象爆品 近几来&#xff0c;为健康“买单”&#xff0c;已经成为全年龄层群体的“刚需”。 图…

第P1周:实现mnist手写数字识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)** 目录 一、前言 二、我…

青年才俊的聚集地 带你一览DATE 2024会议现场

会议之眼 快讯 第27届欧洲设计、自动化和测试会议&#xff08;Design, Automation and Test in Europe Conference &#xff09;已于2024 年 3 月 25 日-27日在西班牙瓦伦西亚圆满举办&#xff01;DATE第一届会议是在 1998 年在法国巴黎召开的。从那时起&#xff0c;DATE 会议…

ICLR 2024 | FeatUp: A Model-Agnostic Framework for Features at Any Resolution

论文&#xff1a;https://arxiv.org/abs/2403.10516代码&#xff1a;https://github.com/mhamilton723/FeatUp 背景动机 深层特征是计算机视觉研究的基石&#xff0c;捕获图像语义并使社区即使在零或少样本情况下也能解决下游任务。然而&#xff0c;这些特征通常缺乏空间分辨率…

俄罗斯深陷芯片自主困境,良率仅5成 |百能云芯

俄罗斯的芯片产业一直以来都面临着诸多挑战&#xff0c;尤其是在当前的国际形势下&#xff0c;这些挑战更加凸显。随着俄乌冲突的爆发&#xff0c;西方国家对俄罗斯实施了一系列经济制裁&#xff0c;导致俄罗斯科技产业受到了严重影响。据了解&#xff0c;俄国最大的本土芯片厂…

vue3使用vuedraggable实现拖拽(有过渡)

1. 安装与使用 vue中vuedraggable安装&#xff1a; pnpm i -S vuedraggablenext或者 yarn add vuedraggablenext注意&#xff1a;vue2和vue3安装的是不同版本的vuedraggable&#xff0c;写法上也会有一些区别。 比如在vue3中使用拖拽&#xff0c;要以插槽的方式&#xff0c;…

C# 操作 Word 全域查找且替换(含图片对象)

目录 关于全域查找且替换 Word应用样本 SqlServer数据表部分设计样本 范例运行环境 配置Office DCOM 设计实现 组件库引入 实现原理 查找且替换的核心代码 窗格内容 页眉内容 页脚内容 形状内容 小结 关于全域查找且替换 C#全域操作 Word 查找且替换主要包括如下…

GK7205V500国科微 GK7205RNCFV500 GOKE

GK7205V300 芯片是国科针对 IPC 市场推出的新一代支持 H.265 编码的低功耗 IPC SOC 芯片。 该芯片集成专用的 ISP&#xff0c;拥有高效的视频编码处理性能&#xff0c;支持 H.265 编码&#xff0c;满足客户各种差异化业务需求。集 成了 RTC、POR、Audio codec 以及丰富的外设…

大话设计模式之策略模式

策略模式是一种行为设计模式&#xff0c;它允许在运行时选择算法的行为。这种模式定义了一族算法&#xff0c;将每个算法都封装起来&#xff0c;并且使它们之间可以互相替换。 在策略模式中&#xff0c;一个类的行为或其算法可以在运行时改变。这种模式包含以下角色&#xff1…

Elasticsearch:语义搜索即服务处于卓越搜索的中心

作者&#xff1a;来自 Elastic Sherry Ger, Stephen Brown 对于许多企业来说&#xff0c;搜索卓越中心&#xff08;center of excellence - COE&#xff09;向其用户提供搜索服务&#xff0c;从不同的数据源中整理知识&#xff0c;并将搜索功能集成到其内部和外部应用程序中。…

Tensorflow2.0笔记 - metrics做损失和准确度信息度量

本笔记主要记录metrics相关的内容&#xff0c;详细内容请参考代码注释&#xff0c;代码本身只使用了Accuracy和Mean。本节的代码基于上篇笔记FashionMnist的代码经过简单修改而来&#xff0c;上篇笔记链接如下&#xff1a; Tensorflow2.0笔记 - FashionMnist数据集训练-CSDN博…

AI 异构计算机设计方案:902-基于6U VPX 高带宽PCIe的GPU AI 异构计算机

基于6U VPX 高带宽PCIe的GPU AI 异构计算机 一、产品概述 基于6U 6槽 VPX 高带宽PCIe的GPU AI 异构计算机以PCIe总线为架构&#xff0c;通过高带宽的PCIe互联&#xff0c;实现主控计算板、GPU AI板卡&#xff0c;FPGA接口板&#xff0c;存储板的PCIe高带宽互联访问&…
最新文章