大模型增强大模型：通过融合扩展能力（Google DeepMind2024）

1、写作动机：

存在如此多领域特定的模型自然引发一个问题：我们是否能够将一个固定模型与一个特定领域的增强模型组合，以实现新的能力？例如，我们是否可以将增强模型的代码理解能力与固定LLM的语言生成能力组合，以实现代码到文本的生成能力？

微调为什么不可行，组合为什么可行？

答：因为训练大型模型在计算上是昂贵的，尤其是增强模型本身可能是在大规模数据集上训练的LLM。此外，由于隐私和组织边界的原因，处理来自多个来源的数据可能是不可行的。使用多个不同的模型也是可取的，因为它允许重用具有已建立能力的现有模型，提供更好的控制，并避免在传统方法中普遍存在的灾难性遗忘。

2、主要贡献：

提出了CALM——增强语言模型的组合，引入了模型之间的交叉注意力，以组合它们的表示并启用新的功能。CALM的显著特点包括：(i) 通过“重用”现有LLM以及一些额外的参数和数据，扩大了LLM在新任务上的规模，(ii) 保持现有模型权重不变，因此保留了现有的能力，(iii) 适用于不同的领域和设置。

3、组合原则：

1）允许使用一个组合模型和至少一个增强模型进行组合。

2）不允许修改原模型和增强模型的权重。

3）允许使用少量数据训练组合模型拥有的新功能。

4、CALM框架：

4.1概述：

给定一个锚定模型 mB 和一个增强模型 mA，CALM的目标是将这两个模型（mA⊕B）组合起来，以实现作为两个单独模型能力的组合的新能力。具有以下假设：i）我们可以访问 mB 和 mA 的权重，运行前向和反向传播，并访问它们的中间表示；ii）不允许更改两个模型的权重；iii）我们无法访问基础模型的训练数据、超参数和训练状态；iv）我们提供了一些来自目标组合领域的示例。

4.2学习组合：

CALM在mA和mB的中间层表示上学习两组额外的参数：

1）对于LA中的每一层，学习一个投影函数，将这些层的表示投影到mB所需的表示大小：

2）在固定模型和增强模型的表示之间引入交叉注意。具体来说，使用来自增强模型的fproj(HAi)作为每个头中的键和值向量，使用来自固定模型的向量HBj作为查询向量：

3）最后，交叉注意的输出作为残差连接添加到mB的层表示中。得到的输出向量，反过来，是组合模型的第(j + 1)层的输入：

5、实验：

5.1实验设置：

在所有实验中，从一个PaLM2-XXS模型开始，并在领域特定的数据上进一步训练它，得到一个增强模型（mA），然后在组合过程中将其保持冻结。请注意，没有使用任务特定的训练数据来训练CALM。我们使用PaLM2-XS或PaLM2-S模型作为固定LLM（mB），在组合训练期间也将其保持冻结。对于所有的实验，设置NA/n = 4，即使用mA的每第4层输出进行组合。相应地，从mA（LB）选择层，使得nB = nA = n，因此nB = NA/4。

5.2实验一——键值算术：

研究一个小的增强语言模型，它已经被训练用于记忆字符串到整数键-值（KV）映射，以及一个大的固定语言模型，它能够在整数上执行算术运算。

数据集：

（i）KV-替换（DKV-SUBS）：该数据集将DKV-EXP中的每个表达式映射到一个表达式，其中键被其相应的值替换。

（ii）KV-算术（DKV-MATH）：该数据集将DKV-EXP中的每个表达式映射到通过解算术表达式得到的数值，当键被相应的值替换时。例如，该数据集中的示例看起来像（<K1> + <K2> - <K3>，8）。

（iii）数字-算术（DNUM-MATH）：该数据集将DKV-EXP中每个表达式的值替代版本映射到通过解算术表达式得到的数值。例如，该数据集中的示例看起来像（10 + 22 - 24，8）。

模型：

通过进一步在预训练的PaLM2-XXS模型上训练DKV-SUBS来获得增强模型mA，以使其记忆DKV中的KV对。接下来，使用预训练的PaLM2-XS模型作为锚定模型mB。该模型能够以相当好的性能解决数字表达式。从KV-替代数据集DKV-SUBS中取出仅跨越DKV中20%的键的示例，以形成组合训练数据（DC）。我们使用DC来组合具有DKV知识的增强模型（mA）和预训练的锚定模型mB，训练组合参数（ΘC）。mA和mB保持不变。

实验结果：