论文阅读_训练大模型用于角色扮演

英文名称: Character-LLM: A Trainable Agent for Role-Playing
中文名称: 角色-LLM：训练Agent用于角色扮演
文章: [https://arxiv.org/abs/2310.10158](https://arxiv.org/abs/2310.10158)
作者: Yunfan Shao,  Linyang Li,  Junqi Dai,  Xipeng Qiu
机构: 复旦大学计算机学院
日期: 2023-11-16
引用次数: 5

1 读后感

论文的目标是使用模型来模拟具体的人物角色，这个想法很有意思，有点类似于反思过程的逆向操作。反思的过程是从具体到抽象，我们根据生活中的具体场景和事件进行思考，通过层层抽象最终形成对一个人的理解。而角色扮演则相反，例如模拟一个历史人物，首先从维基百科获取这个人的信息，这些信息通常是抽象的，需要将这些抽象内容具体化，场景化，使其变成鲜活的经历，然后用这些经历来训练模型。

在从具体到抽象的过程中，数据量逐渐减少，因此可以使用提示，有限的上下文就足够支持；而在文中提出的从抽象到具体的扩展过程中，数据量逐渐增多，使用提示就会比较困难，也需要更多的资源，因此作者考虑使用这些新数据来训练模型，通过精调模型的方式来解决问题。

另一个有趣的点是，为了保持角色的完整性，需要让大模型忽略一些角色不应该拥有的知识，例如贝多芬不应该懂得编程。作者通过创建对话的方式来引导确定角色的知识范围，从而创建数据供大模型训练。这种攻防交替的过程有点像“左右互搏”。

我认为，这种逆向思维非常有意思。另一个小发现是：我们可以考虑利用大模型进行一些细化和扩写的工作，比如根据贝多芬的简介写一本贝多芬的故事。

换一个角度看，如果我们能记录一个人的日常生活，可能就能训练出一个能够模拟他的机器人。

2 摘要

目的：利用大模型的理解能力和文本生成能力，来模拟一个人。

方法：教大模型扮演特定的人，如贝多芬、凯撒大帝等。方法侧重于根据特定角色生成训练数据，训练模型模拟这个人。

实验：对训练过的模型代理进行访谈，并评估代理是否记住了他们的角色和经历。

3 引言

之前的实验提出了一个创新的想法，即使用语言模型来模拟人类的日常行为，如起床、做早餐、上班等。这个想法的核心是利用 LLMs 模拟人类的记忆、反思和行动，以生成多人的日常生活场景，实现这一目标的具体方法是通过提示工程。然而，当需要深入模拟一个人的思考和经验时，简单的提示可能就不再足够。一个更为理想的模拟方式是精细调整人工智能模型，让其能够体验事件、感受情绪，并记住与他人的互动。

文中提出了 Character-LLM，一种可训练的角色扮演 Agent，可以从实际经验、特征和情感中学习。

首先，收集某个人物的经历；然后，根据收集到的个人经历提取出场景，作为记忆的闪回；接着，我们将这些闪回扩展成具体的场景，并为这些场景添加详细的元素，使模型能够从详细的经验中学习，从而形成特定的性格和情感。例如，在论文中，作者构建了描述贝多芬父亲的场景，他是一位音乐家，对年轻的贝多芬进行了严格的教育。

最后，将这样的经验输入到特定的语言模型中，例如 LLaMA 7B 模型，并采用监督微调的策略来构建 Character-LLM。为了避免出现诸如古代著名人物的角色扮演代理拥有现代世界知识等不合理的情况，还引入了“保护经验”的概念，以确保角色的一致性。