26.人工智能实战：模型升级后线上效果反而变差？从 Prompt 回归测试到灰度发布的完整工程治理方案

📅 2026/7/4 19:37:34 👁️ 阅读次数 📝 编程学习

大模型系统上线后，最容易被低估的一件事是：

模型、Prompt、RAG 策略的任何一次小改动，都可能导致线上行为大幅变化。

在传统后端开发中，改一行代码通常能比较明确地判断影响范围。

但在大模型系统里，一次看似很小的改动，例如：

请回答得更详细一些

可能带来一系列连锁问题：

1. 原来简洁稳定的 JSON 输出开始多解释文字 2. 原来会拒答的问题开始强行编答案 3. 原来能引用资料的问题开始不引用 4. 原来 200 tokens 能回答的问题变成 800 tokens 5. P95 延迟和成本一起上升

我之前遇到过一次真实事故。

系统原 Prompt 是：

请严格根据资料回答问题，如果资料不足，请回答“根据现有资料无法确定”。

资讯详情