Claude Code砍80%提示词:AI降本从拆Prompt债
Anthropic 前两天做了一件反直觉的事——删掉了 Claude Code 80% 的 system prompt。从 65K tokens 砍到 13K 左右,表现反而更好。
你可能也注意到了:AI 编程工具跑了一年多,各家 agent 的 system prompt 从几百行膨胀到几千行。但 Anthropic 这次不是往里加东西,而是直接删。
本文从实操角度拆解:Anthropic 为什么敢删、怎么删的、以及你能从中借鉴什么。
一、背景:为什么 65K 的 Prompt 反而成了累赘
Claude Code 的 system prompt 原来有 65K tokens——相当于一份 4-5 万字的工程手册。问题在于,这套 prompt 是为上一代模型写的。当 Fable 5 上线后,情况变了。
据 Anthropic 研究员 Tariq Shihipar 在 WF2026 上的分享,Fable 5 比其自身的示例更有想象力。过多的示例反而成了限制。
一组数据很说明问题:OpenAI 的 GPT-5.5 medium 用 2 万 token 就能完成的任务,Anthropic 的 Opus 4.8 需要 5 万 token。这不是 Opus 不行,是它的 prompt 里塞了太多「保险条款」。反过来,如果你的 agent 每个请求都烧掉 5 万 token,一个月跑下来,算力开支就是薪资的 2.3 倍——这是 Anthropic 内部统计过的数字。
所以结论是:新模型不需要那么多约束。你的 prompt 不是在帮它,而是在拖后腿。
二、实操拆解:Anthropic 到底删了什么
分三层来说,每层你都可以在自己的项目里照做。
第一层:删除过时的规则
针对旧模型的「不要做 X」「先分解再执行」等约束,在新模型上反而是噪音。Anthropic 删掉这些规则后,代码准确率反而提升了——模型不需要在回答之前先查一遍 65K 的规则库来决定输出格式。
操作建议:打开你的 system prompt,找到所有以「不要」「请先」「注意:」开头的句子。逐条问自己:「如果删掉这条,模型会犯错吗?」如果不会,删掉。
第二层:合并冗余示例
bash 命令的输出格式原来有六七种不同用法,每种配一个完整样例。砍完后只保留一种模板,剩下的让模型自行推断。
操作建议:把同类示例合并到 1-2 个,去掉重复的变体。模型的泛化能力比你想象中强得多——你不需要给它看所有排列组合。
第三层:移除「保险条款」
那些「如果遇到 X 情况,请执行 Y」的条件分支,Prompt 越长就越多,推理路径越长,token 消耗越大。而且大多数条件分支在真实任务中根本碰不到。
操作建议:运行一次 prompt 审计,统计你的 prompt 里有多少条件分支。删掉那些在实际测试中从未被触发的分支。
最终效果:Claude Code 的 system prompt 从 65K 砍到 13K 左右。作为对比,有个叫 Pi 的 agent 工具启动上下文不到 1K tokens——不是砍了 80%,是压根没长起来。Pi 的哲学是:让模型用自己的能力,而不是用 prompt 替代模型。
三、实操再进一步:Caveman 插件——输出侧的优化
删 prompt 是输入侧的优化。输出侧,有个叫Caveman的插件,专为 Claude Code 设计,也支持 Codex。它的核心功能是减少 65-75% 的输出 token,但不伤代码、文件路径、函数名这些精确内容。
安装方式
# 通过 Claude Code 插件系统安装claude pluginsinstallcaveman# 或手动克隆gitclone https://github.com/caveman-ai/claude-code-plugincdclaude-code-plugin&&makeinstall核心原理
去掉寒暄、模糊措辞和过渡语:
# 正常输出(~80 tokens): 现在我来分析一下这个函数……首先需要理解它的参数…… 接着我会检查它的返回类型……最后再来看它的异常处理…… # Caveman 模式(~30 tokens): 分析函数 check_auth。参数:userId str。返回:bool。 异常:ValueError if token expired。信息量几乎一样,但 token 少了一半以上。OpenAI 的工程总监也贡献了代码到这个项目。
效果对比
# 开启 Caveman 前后对比(100次请求统计)# 关闭:平均输出 485 tokens/次# 开启:平均输出 158 tokens/次# 节省:67.4%Caveman 的做法和 Anthropic 删 prompt 是同一个方向:对抗「AI 写废话」问题。模型输出被调教成了「完整句子 + 过渡语 + 礼貌表达」的风格,剪掉这些就是纯利润。
四、进阶思考:压缩 reasoning token 才是真正的大头
输入侧砍 prompt,输出侧砍寒暄,还有一个更大的坑:内部 reasoning token。
模型在生成答案之前,会内部推演十几步,每一步都在消耗 token。更关键的是,前一步的思考结果会变成后一步的输入——这就像叠罗汉,前一层的 token 被链式放大。
# 完整英语推理(~200 tokens/步): "我还需要分析这个函数的边界条件。首先检查输入参数是否为空, 然后验证返回类型是否匹配。接下来要考虑异常情况……" # 压缩推理(~50 tokens/步): params: {x, y} → 边界条件检查 → 返回类型验证 → 异常处理有分析指出,OpenAI 模型在内部推理时已经用了压缩过的工程速记。所以真正的方向是:不仅砍 system prompt,还要让模型自己学会用更少的 token 思考和输出。Caveman 和 Anthropic 的 prompt 瘦身都只是第一步。
五、给你的实操清单:5 步 Prompt 降本指南
你可能在想:这件事和我怎么落地?
以下是你可以今天就开始做的 5 个步骤:
步骤 1:做一次 prompt 审计
把你的 system prompt 拆出三部分:
| 类别 | 说明 | 去留判断 |
|---|---|---|
| 基础规则 | 任务定义、输出格式 | 保留,精简到最少 |
| 示例 | few-shot 样例 | 每类保留 1 个,删掉变体 |
| 保险条款 | 条件分支、边界提醒 | 逐个测试,未触发即删除 |
判断标准:如果删掉这部分,模型还能不能完成 90% 的任务?能,就删。
步骤 2:按比例压缩
基础规则(~100 tokens)→ 业务逻辑模板(~200 tokens) → 动态指令(~50 tokens)via context 注入 总长 350 tokens,和 65K 差了两个数量级步骤 3:安装输出优化工具
如果你在用 Claude Code 或 Codex,装一个 Caveman 试试。减少 65-75% 的输出 token,一天跑几百个请求,一个月下来省的就是可观数字。
步骤 4:监控 token 消耗
设置一个简单的监控脚本,统计每日 prompt 输入和输出 token 量,对比优化前后的变化。token 就是成本,量化才能管理。
步骤 5:定期重新评估
每季度或每次模型版本升级后,重新做一次 prompt 审计。新模型可能不再需要你写在上一代的规则。任何一条「因为上次遇到过所以加上的 prompt 规则」,都应该设定过期时间。
总结
真正的 AI 工程优化,不是一个 prompt 写得越来越厚,而是模型越来越强,我们写得越来越薄。Anthropic 的案例证明,砍掉 80% 的 prompt 不仅没有降智,反而提升了表现。这不是个例,而是一个可以复用到你自己的项目中的方法论。打开你的 prompt 文件,找到那些出于「保险」心态写下的陈年规则,逐条问自己:如果删掉这部分,模型还能不能完成 90% 的任务?如果答案是「能」,就删掉。记住:AI 降本的核心思路,不是换更便宜的模型,而是让现有模型用更少的 token 产出同样甚至更好的结果。从今天开始,做一个 prompt 断舍离——砍掉冗余,留下精华。参考来源:WF2026 Tariq Shihipar 演讲 / InfoQ 深度分析 / Caveman 项目 / Deep SWE 评测对比