Claude Code砍80%提示词：AI降本从拆Prompt债

📅 2026/7/6 6:42:49 👁️ 阅读次数 📝 编程学习

Anthropic 前两天做了一件反直觉的事——删掉了 Claude Code 80% 的 system prompt。从 65K tokens 砍到 13K 左右，表现反而更好。

你可能也注意到了：AI 编程工具跑了一年多，各家 agent 的 system prompt 从几百行膨胀到几千行。但 Anthropic 这次不是往里加东西，而是直接删。

本文从实操角度拆解：Anthropic 为什么敢删、怎么删的、以及你能从中借鉴什么。

一、背景：为什么 65K 的 Prompt 反而成了累赘

Claude Code 的 system prompt 原来有 65K tokens——相当于一份 4-5 万字的工程手册。问题在于，这套 prompt 是为上一代模型写的。当 Fable 5 上线后，情况变了。

据 Anthropic 研究员 Tariq Shihipar 在 WF2026 上的分享，Fable 5 比其自身的示例更有想象力。过多的示例反而成了限制。

一组数据很说明问题：OpenAI 的 GPT-5.5 medium 用 2 万 token 就能完成的任务，Anthropic 的 Opus 4.8 需要 5 万 token。这不是 Opus 不行，是它的 prompt 里塞了太多「保险条款」。反过来，如果你的 agent 每个请求都烧掉 5 万 token，一个月跑下来，算力开支就是薪资的 2.3 倍——这是 Anthropic 内部统计过的数字。

所以结论是：新模型不需要那么多约束。你的 prompt 不是在帮它，而是在拖后腿。

二、实操拆解：Anthropic 到底删了什么

分三层来说，每层你都可以在自己的项目里照做。

第一层：删除过时的规则

针对旧模型的「不要做 X」「先分解再执行」等约束，在新模型上反而是噪音。Anthropic 删掉这些规则后，代码准确率反而提升了——模型不需要在回答之前先查一遍 65K 的规则库来决定输出格式。

操作建议：打开你的 system prompt，找到所有以「不要」「请先」「注意：」开头的句子。逐条问自己：「如果删掉这条，模型会犯错吗？」如果不会，删掉。

第二层：合并冗余示例

bash 命令的输出格式原来有六七种不同用法，每种配一个完整样例。砍完后只保留一种模板，剩下的让模型自行推断。

操作建议：把同类示例合并到 1-2 个，去掉重复的变体。模型的泛化能力比你想象中强得多——你不需要给它看所有排列组合。

第三层：移除「保险条款」

那些「如果遇到 X 情况，请执行 Y」的条件分支，Prompt 越长就越多，推理路径越长，token 消耗越大。而且大多数条件分支在真实任务中根本碰不到。

操作建议：运行一次 prompt 审计，统计你的 prompt 里有多少条件分支。删掉那些在实际测试中从未被触发的分支。

最终效果：Claude Code 的 system prompt 从 65K 砍到 13K 左右。作为对比，有个叫 Pi 的 agent 工具启动上下文不到 1K tokens——不是砍了 80%，是压根没长起来。Pi 的哲学是：让模型用自己的能力，而不是用 prompt 替代模型。

三、实操再进一步：Caveman 插件——输出侧的优化

删 prompt 是输入侧的优化。输出侧，有个叫Caveman的插件，专为 Claude Code 设计，也支持 Codex。它的核心功能是减少 65-75% 的输出 token，但不伤代码、文件路径、函数名这些精确内容。

安装方式

# 通过 Claude Code 插件系统安装claude pluginsinstallcaveman# 或手动克隆gitclone https://github.com/caveman-ai/claude-code-plugincdclaude-code-plugin&&makeinstall

核心原理

去掉寒暄、模糊措辞和过渡语：

# 正常输出（~80 tokens）： 现在我来分析一下这个函数……首先需要理解它的参数…… 接着我会检查它的返回类型……最后再来看它的异常处理…… # Caveman 模式（~30 tokens）： 分析函数 check_auth。参数：userId str。返回：bool。 异常：ValueError if token expired。

信息量几乎一样，但 token 少了一半以上。OpenAI 的工程总监也贡献了代码到这个项目。

效果对比

# 开启 Caveman 前后对比（100次请求统计）# 关闭：平均输出 485 tokens/次# 开启：平均输出 158 tokens/次# 节省：67.4%

Caveman 的做法和 Anthropic 删 prompt 是同一个方向：对抗「AI 写废话」问题。模型输出被调教成了「完整句子 + 过渡语 + 礼貌表达」的风格，剪掉这些就是纯利润。

四、进阶思考：压缩 reasoning token 才是真正的大头

输入侧砍 prompt，输出侧砍寒暄，还有一个更大的坑：内部 reasoning token。

模型在生成答案之前，会内部推演十几步，每一步都在消耗 token。更关键的是，前一步的思考结果会变成后一步的输入——这就像叠罗汉，前一层的 token 被链式放大。

# 完整英语推理（~200 tokens/步）： "我还需要分析这个函数的边界条件。首先检查输入参数是否为空， 然后验证返回类型是否匹配。接下来要考虑异常情况……" # 压缩推理（~50 tokens/步）： params: {x, y} → 边界条件检查 → 返回类型验证 → 异常处理

有分析指出，OpenAI 模型在内部推理时已经用了压缩过的工程速记。所以真正的方向是：不仅砍 system prompt，还要让模型自己学会用更少的 token 思考和输出。Caveman 和 Anthropic 的 prompt 瘦身都只是第一步。

五、给你的实操清单：5 步 Prompt 降本指南

你可能在想：这件事和我怎么落地？

以下是你可以今天就开始做的 5 个步骤：

步骤 1：做一次 prompt 审计

把你的 system prompt 拆出三部分：

类别	说明	去留判断
基础规则	任务定义、输出格式	保留，精简到最少
示例	few-shot 样例	每类保留 1 个，删掉变体
保险条款	条件分支、边界提醒	逐个测试，未触发即删除

判断标准：如果删掉这部分，模型还能不能完成 90% 的任务？能，就删。

步骤 2：按比例压缩

基础规则（~100 tokens）→ 业务逻辑模板（~200 tokens） → 动态指令（~50 tokens）via context 注入 总长 350 tokens，和 65K 差了两个数量级

步骤 3：安装输出优化工具

如果你在用 Claude Code 或 Codex，装一个 Caveman 试试。减少 65-75% 的输出 token，一天跑几百个请求，一个月下来省的就是可观数字。

步骤 4：监控 token 消耗

设置一个简单的监控脚本，统计每日 prompt 输入和输出 token 量，对比优化前后的变化。token 就是成本，量化才能管理。

步骤 5：定期重新评估

每季度或每次模型版本升级后，重新做一次 prompt 审计。新模型可能不再需要你写在上一代的规则。任何一条「因为上次遇到过所以加上的 prompt 规则」，都应该设定过期时间。

总结

真正的 AI 工程优化，不是一个 prompt 写得越来越厚，而是模型越来越强，我们写得越来越薄。Anthropic 的案例证明，砍掉 80% 的 prompt 不仅没有降智，反而提升了表现。这不是个例，而是一个可以复用到你自己的项目中的方法论。打开你的 prompt 文件，找到那些出于「保险」心态写下的陈年规则，逐条问自己：如果删掉这部分，模型还能不能完成 90% 的任务？如果答案是「能」，就删掉。记住：AI 降本的核心思路，不是换更便宜的模型，而是让现有模型用更少的 token 产出同样甚至更好的结果。从今天开始，做一个 prompt 断舍离——砍掉冗余，留下精华。参考来源：WF2026 Tariq Shihipar 演讲 / InfoQ 深度分析 / Caveman 项目 / Deep SWE 评测对比

编程学习技术分享实战经验

资讯详情

Claude Code砍80%提示词：AI降本从拆Prompt债

一、背景：为什么 65K 的 Prompt 反而成了累赘

二、实操拆解：Anthropic 到底删了什么

第一层：删除过时的规则

第二层：合并冗余示例

第三层：移除「保险条款」

三、实操再进一步：Caveman 插件——输出侧的优化

安装方式

核心原理

效果对比

四、进阶思考：压缩 reasoning token 才是真正的大头

五、给你的实操清单：5 步 Prompt 降本指南

步骤 1：做一次 prompt 审计

步骤 2：按比例压缩

步骤 3：安装输出优化工具

步骤 4：监控 token 消耗

步骤 5：定期重新评估

总结

最新新闻

日新闻

周新闻

月新闻

资讯详情

Claude Code砍80%提示词：AI降本从拆Prompt债

一、背景：为什么 65K 的 Prompt 反而成了累赘

二、实操拆解：Anthropic 到底删了什么

第一层：删除过时的规则

第二层：合并冗余示例

第三层：移除「保险条款」

三、实操再进一步：Caveman 插件——输出侧的优化

安装方式

核心原理

效果对比

四、进阶思考：压缩 reasoning token 才是真正的大头

五、给你的实操清单：5 步 Prompt 降本指南

步骤 1：做一次 prompt 审计

步骤 2：按比例压缩

步骤 3：安装输出优化工具

步骤 4：监控 token 消耗

步骤 5：定期重新评估

总结

相关新闻

最新新闻

日新闻

周新闻

月新闻