Correlation Dimension of Auto-Regressive Large Language Models

📅 2026/7/4 4:56:52 👁️ 阅读次数 📝 编程学习
Correlation Dimension of Auto-Regressive Large Language Models

文章总结与翻译

一、主要内容总结

该研究针对大型语言模型(LLMs)评估中传统指标(如困惑度)仅关注局部预测准确性、忽视长程结构复杂性的局限,引入了源自分形几何和动力系统理论的关联维度(Correlation Dimension)作为新的评估指标。

核心内容

  1. 指标定义与计算:关联维度通过量化文本的自相似性来表征LLMs感知的文本认知复杂性,基于自回归模型的下一个token对数概率向量间的欧氏距离计算,可捕捉语言的层级递归结构,统一局部与全局文本属性。
  2. 关键实验发现
    • 揭示了LLM预训练的三个阶段:短程结构学习阶段(关联维度快速下降)、长程依赖捕捉阶段(关联维度上升)、上下文压缩泛化阶段(关联维度逐渐下降);
    • 反映文本内在复杂性和模型的上下文依赖特性,不同类型文本(自然语言、编程语言、随机文本)的关联维度呈现稳定谱分布(自然语言约6.5,编程语言约5.0,随机文本>10);
    • 可有效指示模型幻觉倾向:知识密集型文本中,能准确回忆知识的模型关联维度更高,幻觉模型则更低;
    • 可靠检测文本生成中的多种退化现象(重复、不连贯、平淡),弥补了困惑度等指标的不足。
  3. 实用性优势:计算效率高(推理时可执行,兼容现有推理框架)、对模型量化鲁棒(4位精度下仍稳定)、适用于多种自回归架构(Transformer