26.人工智能实战:模型升级后线上效果反而变差?从 Prompt 回归测试到灰度发布的完整工程治理方案

📅 2026/7/4 19:37:34 👁️ 阅读次数 📝 编程学习
26.人工智能实战:模型升级后线上效果反而变差?从 Prompt 回归测试到灰度发布的完整工程治理方案

人工智能实战:模型升级后线上效果反而变差?从 Prompt 回归测试到灰度发布的完整工程治理方案


一、问题场景:只是改了一行 Prompt,线上 Badcase 翻倍

大模型系统上线后,最容易被低估的一件事是:

模型、Prompt、RAG 策略的任何一次小改动,都可能导致线上行为大幅变化。

在传统后端开发中,改一行代码通常能比较明确地判断影响范围。

但在大模型系统里,一次看似很小的改动,例如:

请回答得更详细一些

可能带来一系列连锁问题:

1. 原来简洁稳定的 JSON 输出开始多解释文字 2. 原来会拒答的问题开始强行编答案 3. 原来能引用资料的问题开始不引用 4. 原来 200 tokens 能回答的问题变成 800 tokens 5. P95 延迟和成本一起上升

我之前遇到过一次真实事故。

系统原 Prompt 是:

请严格根据资料回答问题,如果资料不足,请回答“根据现有资料无法确定”。

后来为了让回答更像真人,改成: