Claude Code砍80%提示词:AI降本从拆Prompt债

📅 2026/7/6 6:42:49 👁️ 阅读次数 📝 编程学习
Claude Code砍80%提示词:AI降本从拆Prompt债

Anthropic 前两天做了一件反直觉的事——删掉了 Claude Code 80% 的 system prompt。从 65K tokens 砍到 13K 左右,表现反而更好。

你可能也注意到了:AI 编程工具跑了一年多,各家 agent 的 system prompt 从几百行膨胀到几千行。但 Anthropic 这次不是往里加东西,而是直接删。

本文从实操角度拆解:Anthropic 为什么敢删、怎么删的、以及你能从中借鉴什么。


一、背景:为什么 65K 的 Prompt 反而成了累赘

Claude Code 的 system prompt 原来有 65K tokens——相当于一份 4-5 万字的工程手册。问题在于,这套 prompt 是为上一代模型写的。当 Fable 5 上线后,情况变了。

据 Anthropic 研究员 Tariq Shihipar 在 WF2026 上的分享,Fable 5 比其自身的示例更有想象力。过多的示例反而成了限制。

一组数据很说明问题:OpenAI 的 GPT-5.5 medium 用 2 万 token 就能完成的任务,Anthropic 的 Opus 4.8 需要 5 万 token。这不是 Opus 不行,是它的 prompt 里塞了太多「保险条款」。反过来,如果你的 agent 每个请求都烧掉 5 万 token,一个月跑下来,算力开支就是薪资的 2.3 倍——这是 Anthropic 内部统计过的数字。

所以结论是:新模型不需要那么多约束。你的 prompt 不是在帮它,而是在拖后腿。

二、实操拆解:Anthropic 到底删了什么

分三层来说,每层你都可以在自己的项目里照做。

第一层:删除过时的规则

针对旧模型的「不要做 X」「先分解再执行」等约束,在新模型上反而是噪音。Anthropic 删掉这些规则后,代码准确率反而提升了——模型不需要在回答之前先查一遍 65K 的规则库来决定输出格式。

操作建议:打开你的 system prompt,找到所有以「不要」「请先」「注意:」开头的句子。逐条问自己:「如果删掉这条,模型会犯错吗?」如果不会,删掉。

第二层:合并冗余示例

bash 命令的输出格式原来有六七种不同用法,每种配一个完整样例。砍完后只保留一种模板,剩下的让模型自行推断。

操作建议:把同类示例合并到 1-2 个,去掉重复的变体。模型的泛化能力比你想象中强得多——你不需要给它看所有排列组合。

第三层:移除「保险条款」

那些「如果遇到 X 情况,请执行 Y」的条件分支,Prompt 越长就越多,推理路径越长,token 消耗越大。而且大多数条件分支在真实任务中根本碰不到。

操作建议:运行一次 prompt 审计,统计你的 prompt 里有多少条件分支。删掉那些在实际测试中从未被触发的分支。

最终效果:Claude Code 的 system prompt 从 65K 砍到 13K 左右。作为对比,有个叫 Pi 的 agent 工具启动上下文不到 1K tokens——不是砍了 80%,是压根没长起来。Pi 的哲学是:让模型用自己的能力,而不是用 prompt 替代模型。

三、实操再进一步:Caveman 插件——输出侧的优化

删 prompt 是输入侧的优化。输出侧,有个叫Caveman的插件,专为 Claude Code 设计,也支持 Codex。它的核心功能是减少 65-75% 的输出 token,但不伤代码、文件路径、函数名这些精确内容。

安装方式

# 通过 Claude Code 插件系统安装claude pluginsinstallcaveman# 或手动克隆gitclone https://github.com/caveman-ai/claude-code-plugincdclaude-code-plugin&&makeinstall

核心原理

去掉寒暄、模糊措辞和过渡语:

# 正常输出(~80 tokens): 现在我来分析一下这个函数……首先需要理解它的参数…… 接着我会检查它的返回类型……最后再来看它的异常处理…… # Caveman 模式(~30 tokens): 分析函数 check_auth。参数:userId str。返回:bool。 异常:ValueError if token expired。

信息量几乎一样,但 token 少了一半以上。OpenAI 的工程总监也贡献了代码到这个项目。

效果对比

# 开启 Caveman 前后对比(100次请求统计)# 关闭:平均输出 485 tokens/次# 开启:平均输出 158 tokens/次# 节省:67.4%

Caveman 的做法和 Anthropic 删 prompt 是同一个方向:对抗「AI 写废话」问题。模型输出被调教成了「完整句子 + 过渡语 + 礼貌表达」的风格,剪掉这些就是纯利润。

四、进阶思考:压缩 reasoning token 才是真正的大头

输入侧砍 prompt,输出侧砍寒暄,还有一个更大的坑:内部 reasoning token

模型在生成答案之前,会内部推演十几步,每一步都在消耗 token。更关键的是,前一步的思考结果会变成后一步的输入——这就像叠罗汉,前一层的 token 被链式放大。

# 完整英语推理(~200 tokens/步): "我还需要分析这个函数的边界条件。首先检查输入参数是否为空, 然后验证返回类型是否匹配。接下来要考虑异常情况……" # 压缩推理(~50 tokens/步): params: {x, y} → 边界条件检查 → 返回类型验证 → 异常处理

有分析指出,OpenAI 模型在内部推理时已经用了压缩过的工程速记。所以真正的方向是:不仅砍 system prompt,还要让模型自己学会用更少的 token 思考和输出。Caveman 和 Anthropic 的 prompt 瘦身都只是第一步。

五、给你的实操清单:5 步 Prompt 降本指南

你可能在想:这件事和我怎么落地?

以下是你可以今天就开始做的 5 个步骤:

步骤 1:做一次 prompt 审计

把你的 system prompt 拆出三部分:

类别说明去留判断
基础规则任务定义、输出格式保留,精简到最少
示例few-shot 样例每类保留 1 个,删掉变体
保险条款条件分支、边界提醒逐个测试,未触发即删除

判断标准:如果删掉这部分,模型还能不能完成 90% 的任务?能,就删。

步骤 2:按比例压缩

基础规则(~100 tokens)→ 业务逻辑模板(~200 tokens) → 动态指令(~50 tokens)via context 注入 总长 350 tokens,和 65K 差了两个数量级

步骤 3:安装输出优化工具

如果你在用 Claude Code 或 Codex,装一个 Caveman 试试。减少 65-75% 的输出 token,一天跑几百个请求,一个月下来省的就是可观数字。

步骤 4:监控 token 消耗

设置一个简单的监控脚本,统计每日 prompt 输入和输出 token 量,对比优化前后的变化。token 就是成本,量化才能管理。

步骤 5:定期重新评估

每季度或每次模型版本升级后,重新做一次 prompt 审计。新模型可能不再需要你写在上一代的规则。任何一条「因为上次遇到过所以加上的 prompt 规则」,都应该设定过期时间。

总结

真正的 AI 工程优化,不是一个 prompt 写得越来越厚,而是模型越来越强,我们写得越来越薄。Anthropic 的案例证明,砍掉 80% 的 prompt 不仅没有降智,反而提升了表现。这不是个例,而是一个可以复用到你自己的项目中的方法论。打开你的 prompt 文件,找到那些出于「保险」心态写下的陈年规则,逐条问自己:如果删掉这部分,模型还能不能完成 90% 的任务?如果答案是「能」,就删掉。记住:AI 降本的核心思路,不是换更便宜的模型,而是让现有模型用更少的 token 产出同样甚至更好的结果。从今天开始,做一个 prompt 断舍离——砍掉冗余,留下精华。参考来源:WF2026 Tariq Shihipar 演讲 / InfoQ 深度分析 / Caveman 项目 / Deep SWE 评测对比