Correlation Dimension of Auto-Regressive Large Language Models

📅 2026/7/4 4:56:52 👁️ 阅读次数 📝 编程学习

文章总结与翻译

该研究针对大型语言模型（LLMs）评估中传统指标（如困惑度）仅关注局部预测准确性、忽视长程结构复杂性的局限，引入了源自分形几何和动力系统理论的关联维度（Correlation Dimension）作为新的评估指标。

指标定义与计算：关联维度通过量化文本的自相似性来表征LLMs感知的文本认知复杂性，基于自回归模型的下一个token对数概率向量间的欧氏距离计算，可捕捉语言的层级递归结构，统一局部与全局文本属性。
关键实验发现：
- 揭示了LLM预训练的三个阶段：短程结构学习阶段（关联维度快速下降）、长程依赖捕捉阶段（关联维度上升）、上下文压缩泛化阶段（关联维度逐渐下降）；
- 反映文本内在复杂性和模型的上下文依赖特性，不同类型文本（自然语言、编程语言、随机文本）的关联维度呈现稳定谱分布（自然语言约6.5，编程语言约5.0，随机文本>10）；
- 可有效指示模型幻觉倾向：知识密集型文本中，能准确回忆知识的模型关联维度更高，幻觉模型则更低；
- 可靠检测文本生成中的多种退化现象（重复、不连贯、平淡），弥补了困惑度等指标的不足。
实用性优势：计算效率高（推理时可执行，兼容现有推理框架）、对模型量化鲁棒（4位精度下仍稳定）、适用于多种自回归架构（Transformer

编程学习技术分享实战经验