AI Runtime 重构:会话即事件日志的工程实践
1. 这不是新赛道,是 runtime 层的“操作系统时刻”来了
你有没有在深夜调试一个跑了三小时的 AI 代理,突然发现它开始胡言乱语?不是模型崩了,不是 prompt 写错了,而是——它的“记忆”被挤掉了。上下文窗口就那么大,工具调用日志、中间结果、用户多轮对话、系统指令……全塞进去,像往一个20升的桶里硬灌35升水。最后溢出的不是水,是逻辑:它忘了自己上一步查了什么数据库,忘了用户明确说“别联系销售”,甚至把两个不同客户的订单号混在一起生成发票。更糟的是,你没法回溯——没有日志,没有快照,没有“重放”按钮。整个 session 就像一盘没保存的棋局,输得悄无声息,修得无从下手。
这就是 Anthropic 在 2026 年 4 月 8 日发布的Claude Managed Agents真正解决的问题。它不是又一个“让 AI 更聪明”的玩具,而是一次对 AI 应用底层运行时(runtime)的外科手术式重构。关键词不是“智能”,而是“可靠”、“可审计”、“可恢复”、“可隔离”。它把过去散落在 prompt 里、藏在内存中、混在环境变量下的关键要素——状态、凭证、执行痕迹——全部抽离出来,放到一个独立、持久、受控的外部层。这个层,Anthropic 叫它Session-as-Event-Log;我把它理解为 AI 世界的“操作系统内核”:不负责思考(那是模型的事),但负责确保每一次思考都有迹可循、每一次操作都安全可控、每一次失败都能原地复活。
这和 Towards AI 上那篇原文的调性一致,但我要说得更直白:它解决的不是“能不能做”,而是“敢不敢在生产环境里用”。Notion 为什么敢把它嵌进团队工作流?因为一个会议纪要代理崩溃了,不会导致整个 Slack 集成失联;Rakuten 为什么敢用它跑销售线索分发?因为哪怕某个 agent 在处理第 17 个客户时挂了,它的完整操作链路(谁触发的、调了哪个 CRM API、返回了什么数据、为什么失败)都清清楚楚躺在审计日志里,而不是消失在模型的 token 海洋中。这不是锦上添花的功能,这是企业级 AI 应用的准入门槛。你不需要成为 LLM 架构师才能理解它的价值,你只需要经历过一次“那个跑了半天的 agent 突然开始瞎编”的绝望,就能立刻明白——Anthropic 这次,真的把大家最痛的那个点,给按住了。
2. 核心设计解构:为什么是“会话即事件日志”,而不是“模型即一切”
2.1 剥开营销话术,看透三层抽象的本质
Anthropic 的工程博客里反复强调“session”、“harness”、“sandbox”这三个词,并类比 90 年代操作系统对硬件的虚拟化。这话没错,但容易让人误以为他们在造一个新世界。实际上,他们是在给一个已经混乱不堪的旧世界,强行装上一套工业级的管道系统。我们来一层层拆:
Session(会话):它不再是模型 context window 里一段随时可能被覆盖的文本。它是一个独立的、持久化的、结构化的事件日志(event log)。每一次用户输入、每一次工具调用(
execute("search_db", {"query": "Q1 revenue"}))、每一次模型输出、每一次 guardrail 拦截,都被打上时间戳、session ID、trace ID,写入一个专门的存储后端(很可能是基于 OLAP 的列存数据库,类似 ClickHouse 或 Druid)。这意味着,你可以用 SQL 查询:“过去 24 小时内,所有因‘权限不足’被拦截的send_email工具调用,发生在哪些客户会话中?” 这种能力,在旧架构下是天方夜谭。Harness(执行器):它被刻意设计成“无状态”(stateless)。它不保存任何关于 session 的信息,它的唯一职责就是接收一个
sessionId和一个input,然后去调用指定的容器(container)。它像一个高效的快递员,只管把包裹(请求)送到指定地址(工具容器),再把回执(字符串响应)带回来。如果它自己宕机了?没关系。另一个 harness 实例可以立刻接手,调用awake(sessionId),从 event log 里读取到上一步的状态,接着往下跑。模型 context window 不再是“承重墙”,它只是 harness 执行当前步骤时的一个临时工作台。这种解耦,直接消除了“上下文爆炸”导致的静默失败。Sandbox(沙箱):它彻底告别了“宠物式”(pet)运维。过去,为了运行一个 Python 工具,你可能要手动部署一个 VM,装好依赖,配置好网络,再把 API key 塞进环境变量——这玩意儿一旦跑起来,就成了你的“宠物”,你得天天喂它、哄它、修它。Managed Agents 的 sandbox 是“牲畜式”(cattle):按需创建、用完即焚。每次
execute()调用,都启动一个全新的、干净的、预置好 runtime(Python 3.11, Node 20, etc.)的轻量级容器。最关键的是,凭证(credentials)绝不以环境变量形式注入。它们被安全地存放在 Anthropic 自建的 vault 中,sandbox 容器只能通过一个受控的、单向的、带严格 scope 限制的内部 API 来临时获取 token。这就堵死了最经典的 LLM 安全漏洞:模型被诱导输出curl -H "Authorization: Bearer xxx" https://api.example.com/data,然后人类或自动化脚本真的去执行了它。沙箱看到的永远只是一个“已授权”的抽象句柄,而不是裸露的密钥。
这三层抽象,共同指向一个核心哲学:将不可靠的、易变的、与模型强耦合的部分(context),与可靠的、持久的、可审计的部分(state & trace),进行物理隔离。这不是炫技,这是在用工程确定性,去对抗 LLM 本身的概率不确定性。就像当年 Linux 用虚拟内存管理,把程序员从直接操作物理地址的噩梦中解放出来一样,Managed Agents 也在把 AI 工程师,从与 context window 的永恒搏斗中解放出来。
2.2 为什么“会话即事件日志”是真正的分水岭?
让我用一个真实场景对比,说明这个设计为何致命:
旧方式(Context-as-State):
一个客服 agent 处理一个复杂投诉,流程是:1) 查用户历史订单 → 2) 查物流轨迹 → 3) 查客服工单记录 → 4) 综合判断责任方 → 5) 生成补偿方案。每一步的结果都拼接进 context。当处理到第 4 步时,context 已接近 Claude 3.5 Sonnet 的 200K token 上限。模型在生成最终判断时,为了腾空间,自动丢弃了第 1 步的订单查询结果(因为它“最老”)。于是,它基于不完整的数据,错误地判定是用户下单时选错了地址,而非物流方丢件。补偿方案发出去了,用户投诉升级。你想复盘?打开日志,只看到最后几轮对话和一个错误结论。丢失的订单数据,永远消失了。
新方式(Session-as-Event-Log):
同样的流程,每一步的
execute()调用结果,都作为一条独立的、带 schema 的事件({"type": "tool_result", "tool_name": "lookup_order", "result": {"order_id": "ORD-789", "status": "shipped"}, "timestamp": "2026-04-08T14:22:11Z"})写入 event log。模型 context 里只保留当前步骤所需的最小摘要(如“用户订单 ORD-789 已发货”)。即使模型在第 4 步因其他原因崩溃,awake(sessionId)也能从 log 里精确读取到所有四步的完整、原始、未被篡改的结果。你可以用SELECT * FROM events WHERE session_id = 'sess_abc123' ORDER BY timestamp一键还原整个决策链。更重要的是,审计部门可以要求导出这个 session 的完整 event log,作为合规证据。
这个区别,决定了一个 AI 应用是玩具还是生产工具。前者的价值在于“能动”,后者的价值在于“可信”。而“可信”,正是企业采购 AI 服务时,排在“智能”之前的首要考量。Anthropic 把这个“可信”的基础设施,打包成了一个开箱即用的托管服务,这才是它真正的产品力,远超任何关于“十倍提速”的宣传。
3. 实操细节与落地要点:从 YAML 定义到生产监控
3.1 定义一个 Agent:YAML 是你的新“源代码”
Managed Agents 的入口,是你写的一份 YAML 文件。这看起来简单,但里面藏着大量工程权衡。一个典型的sales_agent.yaml可能长这样:
# sales_agent.yaml name: "sales-lead-qualifier" description: "Qualifies inbound leads from website form and routes to correct rep" system_prompt: | You are a senior sales development representative at Acme Corp. Your goal is to qualify leads based on budget, timeline, and use case. Only route leads that meet ALL criteria: budget > $50k, timeline < 6 months, use_case in ["cloud_migration", "ai_analytics"]. If unqualified, send a polite email template. tools: - name: "fetch_lead_data" description: "Fetches full lead profile from CRM by lead_id" input_schema: type: "object" properties: lead_id: type: "string" description: "The unique ID of the lead in Salesforce" - name: "check_budget_timeline" description: "Checks lead's budget and timeline against internal DB" input_schema: type: "object" properties: lead_id: type: "string" - name: "route_to_rep" description: "Routes qualified lead to the correct sales rep based on territory" input_schema: type: "object" properties: lead_id: type: "string" rep_id: type: "string" - name: "send_rejection_email" description: "Sends a templated rejection email to unqualified leads" input_schema: type: "object" properties: lead_id: type: "string" reason: type: "string" guardrails: - type: "output_safety" policy: "block_if_contains_pii" - type: "tool_call_safety" policy: "allow_only_whitelisted_tools" allowed_tools: ["fetch_lead_data", "check_budget_timeline", "route_to_rep", "send_rejection_email"]实操心得:
system_prompt的长度陷阱:别把所有业务规则都塞进这里!它只应包含 agent 的“角色”和“终极目标”。具体规则(如“预算 > $50k”)必须放在 tool 的逻辑里或外部 policy 引擎中。否则,prompt 本身就会吃掉大量宝贵的 context 空间。input_schema是契约:这是 harness 和 tool 容器之间的接口定义。务必用严格的 JSON Schema。我见过太多团队因为这里写了个"type": "number",而实际传过来的是字符串"100000",导致工具解析失败,整个 session 卡死。Schema 就是你的 API 文档,写错一个字段,下游就全崩。guardrails是生命线:output_safety和tool_call_safety是必选项。block_if_contains_pii会扫描所有模型输出,如果检测到身份证号、手机号等,直接拦截并返回预设的友好提示,而不是让 agent 把 PII 泄露到日志里。allow_only_whitelisted_tools则强制 harness 只能调用你在 YAML 里明确定义的工具,杜绝了模型“灵机一动”去调用一个根本不存在的delete_all_customers工具的风险。这是生产环境的底线。
3.2 会话生命周期管理:从创建到归档的全流程
一个 Managed Agent 的 session 不是“启动就完事”,它有一套完整的生命周期,你需要像管理数据库连接池一样管理它:
- 创建(Create):调用
POST /v1/sessions,传入 agent name 和初始用户消息。Anthropic 返回一个唯一的session_id(如sess_claude_abc123)和一个session_url(用于前端集成)。 - 交互(Interact):所有后续消息都发往
POST /v1/sessions/{session_id}/messages。Harness 接收后,根据当前 state 和 model 输出,决定是否调用工具。每次execute()都会生成一条新的 event log。 - 暂停/恢复(Pause/Resume):用户离开页面?没问题。调用
PATCH /v1/sessions/{session_id},设置status: "paused"。session 的所有状态(event log)都完好保存。用户回来时,awake(sessionId)会无缝续上。 - 终止(Terminate):当任务完成或用户明确结束,调用
DELETE /v1/sessions/{session_id}。Anthropic 会清理所有关联的 sandbox 容器,并将该 session 的 event log 标记为archived,进入长期冷存储(通常是 S3 Glacier)。
注意事项:
提示:不要滥用
awake()。它不是“重启”命令,而是“从上次 checkpoint 恢复”。如果你在 session 还在活跃时(比如正在等待一个慢速 API 响应)就调用awake(),它可能会重复执行上一步。正确的做法是,让 harness 自己管理状态,只有在 harness 进程真正崩溃、需要由另一个实例接管时,才由系统自动触发awake()。日常开发中,你应该监听 harness 的健康检查 endpoint,而不是手动干预。
监控与告警:Anthropic 提供了/v1/sessions/{session_id}/metricsendpoint,返回实时指标:
active_runtime_seconds:当前 harness 已运行秒数(用于计费)tool_call_count:总调用次数guardrail_triggered_count:安全策略触发次数(这是最重要的健康指标!)p95_latency_ms:最近 100 次请求的 p95 延迟
你应该把这些指标接入你的 Prometheus + Grafana。我建议设置一个关键告警:guardrail_triggered_count > 0。一旦有触发,立刻通知 SRE 团队。这往往意味着你的system_prompt有歧义,或者某个 tool 的input_schema写得太松,让模型钻了空子。这不是 bug,这是你的 agent 在“学习”如何绕过你的规则,必须立刻干预。
3.3 定价模型:$0.08/小时背后的精算逻辑
定价是实操中最容易踩坑的地方。$0.08 per session-hour of active runtime看似简单,但“active runtime”有明确定义:仅指 harness 进程实际在 CPU 上执行的时间,不包括等待工具响应、等待用户输入、或处于paused状态的时间。
举个例子:
- 用户发起一个 lead qualification 请求。
- Harness 启动,用 200ms 调用
fetch_lead_data。 - 等待 CRM API 响应,耗时 1.2 秒(这段时间 harness 是 idle,不计费)。
- Harness 收到响应,用 150ms 调用
check_budget_timeline。 - 等待 DB 查询,耗时 800ms(idle,不计费)。
- ……如此循环,直到最终输出。
整个 session 从创建到结束历时 5 分钟(300 秒),但 harness 的 active runtime 可能只有 1.5 秒。那么本次 session 的 runtime 费用是:(1.5 / 3600) * $0.08 ≈ $0.000033,几乎可以忽略。
实操心得:
- 计费优化的核心是减少 harness 的“思考”时间。这意味着你要把尽可能多的逻辑下沉到 tool 容器里。例如,不要让模型去解析一个复杂的 JSON 响应,而是写一个
parse_crm_responsetool,让它返回一个干净的布尔值{"is_qualified": true}。模型只需做最终的AND判断,active runtime 就能从几百毫秒降到几十毫秒。 - 警惕“长尾延迟”:p95 latency 是你的敌人。如果 95% 的请求都在 500ms 内完成,但 5% 的请求卡在某个慢工具上长达 30 秒,那么这 5% 的 session 会吃掉你 90% 的 runtime 费用。必须对每个 tool 设置严格的 timeout(比如
timeout_ms: 5000),并在 YAML 中定义 fallback 行为(如“超时则标记为needs_manual_review”)。 - 与 token 费用的协同:Claude 的 token 费用是按输入+输出 token 总数计算的。而 runtime 费用是按 harness 执行时间计算的。两者是正交的。一个“聪明”的 agent 设计,是让模型少说废话(省 token),让 tool 多干实事(省 runtime)。我见过一个客户,把一个原本需要 1200 tokens 和 800ms runtime 的 agent,优化成 400 tokens 和 120ms runtime,总成本下降了 65%。
4. 竞争格局与避坑指南:为什么说“Runtime 层正在归零”
4.1 超越 Anthropic:一张真实的竞争地图
原文提到 AWS Bedrock AgentCore、Google Vertex AI Agent Builder、Microsoft Azure AI Foundry,这绝非虚言。这张地图的真实情况,比媒体渲染的“Anthropic 开创了一个新类别”要残酷得多:
| 特性 | Anthropic Managed Agents | AWS Bedrock AgentCore | Google Vertex AI Agent Builder | Microsoft Azure AI Foundry |
|---|---|---|---|---|
| GA 时间 | 2026-04-08 (Beta) | 2025-11-15 (GA) | 2026-02-20 (GA) | 2026-03-10 (GA) |
| 底层沙箱 | Anthropic 自研容器 | Firecracker microVM (isolated CPU/Mem/FS) | gVisor (user-space kernel) | Hyper-V Isolated Containers |
| 最大会话时长 | 24 小时 | 8 小时 | 12 小时 | 24 小时 |
| 框架兼容性 | Anthropic 原生 | LangChain, LangGraph, CrewAI, Strands (any request-response loop) | Vertex-native + LangChain | AutoGen, Semantic Kernel, LangChain |
| 模型锁定 | Claude only | Any Bedrock model (Claude, Llama, Command R+, etc.) | Any Vertex model (Gemini, PaLM, etc.) | Any Azure OpenAI or Phi-3 model |
| 定价模式 | $0.08/session-hour + Claude tokens | Free with Bedrock usage(no separate runtime fee) | $0.05/session-hour + Vertex tokens | Bundled with Azure AI credits |
这张表揭示了真相:Anthropic 的 Managed Agents,本质上是一个“Claude 专属的、付费的 runtime”。而它的所有主要竞争对手,都是“云厂商的、免费的、多模型的 runtime”。AWS 的策略最激进:你只要在 Bedrock 上调用模型,AgentCore 就自动为你提供 runtime,不额外收费。这就像当年 VMware 卖 ESX 时,AWS 说:“你买我的 EC2,虚拟化已经送你了。”
实操心得:
注意:如果你的项目未来有切换模型的需求(比如想试试 Llama 3 在某个垂直任务上的表现),那么从第一天起,就不要把 agent 逻辑写死在 Anthropic 的 YAML 语法里。坚持使用 LangChain 的
AgentExecutor或 LangGraph 的StateGraph,它们的抽象层天然兼容所有主流 runtime。Anthropic 的 YAML 是一个很好的快速原型工具,但不是一个长期的、可移植的架构选择。我见过一个创业公司,花了三个月用 Managed Agents 做出了 MVP,结果在融资路演前一周,投资人问:“你们怎么保证不被 Anthropic 锁死?” 他们答不上来,差点丢了那轮 2000 万美金的融资。
4.2 “Runtime 归零”的历史必然性:从 VMware 到 AI Runtime
原文用 VMware 的兴衰作类比,非常精准。但我们可以把这个类比拉得更细,看看它对今天的开发者意味着什么:
- 2005 年的 VMware:ESX 是一个昂贵的、封闭的、性能卓越的商业产品。它卖的是“虚拟化”这个概念本身。企业愿意付钱,因为这是他们第一次能安全地把多个应用塞进一台物理服务器。
- 2010 年的 Xen/KVM:开源方案成熟,性能追平,社区生态爆发。VMware 的护城河开始被侵蚀。
- 2015 年的 AWS/GCP/Azure:云厂商把虚拟化变成了“水电煤”。它不再是一个可以单独售卖的产品,而是整个云平台的默认能力。你无法想象一个云服务商说:“哦,虚拟化功能要另外加钱”。
AI Runtime 正在走完全相同的路径:
- 2024 年的 DIY Agent Frameworks(LangChain, CrewAI):就像早期的 Xen,需要你自己编译、部署、维护、打补丁。适合极客,不适合企业。
- 2025 年的 Hyperscaler Runtime(AgentCore, Vertex, Foundry):就像 KVM 被集成进 Linux 内核,它们把 runtime 当作云平台的“基础服务”来提供。你用 Bedrock,就自动获得 AgentCore;你用 Vertex,就自动获得 Agent Builder。它不追求“最好”,只追求“足够好”和“零摩擦”。
- 2026 年的 Anthropic Managed Agents:它就像 2008 年的 VMware,是一个优秀的、专业的、但注定会被“免费”浪潮淹没的商业产品。它的存在,恰恰证明了这个层已经足够成熟,可以被 commoditize(商品化)了。
所以,作为开发者,你的避坑指南是:
- 不要押注 runtime 的“性能差异”:p50 降低 60% 很酷,但如果你的 p95 是 2 秒,而 AWS 的 p95 是 2.1 秒,这个 0.1 秒的差距,在企业采购决策中毫无意义。企业关心的是 SLA(99.95% uptime)、合规认证(SOC2, HIPAA)、以及和现有 IAM 的集成深度。
- 警惕“供应商锁定”:Anthropic 的 YAML 语法、其特有的
guardrailDSL、其 event log 的 schema,都是私有格式。一旦你深度绑定,迁移成本极高。我的建议是:用 LangChain 的Tool和AgentExecutor作为你的核心代码,把 Anthropic 的 Managed Agents 当作一个 deploy target(部署目标),而不是你的 source of truth(唯一真相)。 - 关注“上层建筑”:既然 runtime 会变便宜,那么钱会流向哪里?答案是:Trace Store(追踪存储)、Governance(治理)、Vertical Marketplaces(垂直市场)。这才是你应该投入精力的地方。
5. 价值迁移:当 Runtime 归零,钱流向哪里?
5.1 Trace Store:谁掌握了“AI 的行车记录仪”,谁就拥有了话语权
当 runtime 变得像空气一样无处不在且免费时,最大的价值洼地,就是记录它的一切。一个 agent 的 event log,是比任何数据库都更真实的业务流水账。它告诉你:
- 哪些客户在反复询问同一个问题?(暴露产品文档缺陷)
- 哪个销售代表的线索转化率最低?(暴露培训需求)
- 哪个
send_invoice工具的失败率最高?(暴露 ERP 集成问题)
这就是为什么 Braintrust、Arize、LangSmith 这三家公司在疯狂融资。它们卖的不是 dashboard,而是OLAP 数据库 + 专用 schema + 审计 API。
实操心得:
提示:不要等到上线后再考虑 trace store。在你写第一个
sales_agent.yaml时,就要规划好 event log 的 schema。例如,强制所有tool_result事件都必须包含business_context: { "deal_id": "DEAL-456", "account_tier": "enterprise" }字段。这样,当你把 log 导入 Brainstore 时,就能直接用SELECT COUNT(*) FROM events WHERE business_context.account_tier = 'enterprise' AND tool_name = 'send_invoice' AND status = 'failed'来定位问题。schema 设计,就是你的数据资产的“地契”。
5.2 Governance:当 AI 成为企业员工,“规章制度”就是生产力
一个能自己写 PR 的 agent,和一个能自己删库的 agent,只有一线之隔。Governance 就是画这条线的工具。AWS AgentCore 的 Policy Controls GA,意味着你可以用 JSON Policy 定义:
{"Effect": "Deny", "Action": "bedrock:InvokeModel", "Resource": "*", "Condition": {"StringEquals": {"bedrock:model-id": "anthropic.claude-3-opus-20240229-v1:0"}}}—— 禁止调用 Opus 模型(太贵)。{"Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": "*", "Condition": {"StringLike": {"bedrock:model-id": "anthropic.claude-3-sonnet*"}}}—— 只允许调用 Sonnet。
这不再是技术问题,而是采购、法务、风控部门的日常工作。OWASP Agentic Top 10 的发布,标志着这个领域已经从“黑客的玩具”进入了“企业的合规清单”。
常见问题速查表:
| 问题现象 | 排查思路 | 解决方案 |
|---|---|---|
Agent 在测试环境正常,生产环境频繁触发output_safety | 检查生产环境的system_prompt是否被意外截断?检查输入消息是否包含未清洗的 HTML 标签? | 在 agent 入口处增加一个sanitize_inputtool,移除所有<script>、<iframe>标签。 |
tool_call_safety拦截了合法调用 | 检查 YAML 中allowed_tools列表是否遗漏了新添加的 tool?检查 harness 是否缓存了旧版 YAML? | 建立 CI/CD 流程:每次更新 YAML,自动触发GET /v1/agents/{name}/validateendpoint 进行语法和白名单校验。 |
审计日志显示guardrail_triggered_count持续为 0,但业务反馈 agent “不听话” | 检查guardrail的policy是否配置为log_only而非block?检查是否只配置了output_safety,却忽略了tool_call_safety? | 在 YAML 中显式声明mode: "block",并为每个 guardrail 配置on_violation: "log_and_alert",确保违规行为被记录并告警。 |
5.3 Vertical Marketplaces:当“AI 员工”有了工牌,企业才肯付钱
Salesforce 的 Agentforce ARR 达到 8 亿美元,这个数字背后是一个深刻的洞察:企业不为“AI”付费,只为“解决具体业务问题的 AI 员工”付费。一个“销售开发代表”agent,一个“保险理赔专员”agent,一个“IT 服务台助手”agent,它们有明确的岗位描述(job description)、KPI(如“线索转化率提升 15%”)、以及和现有 CRM/ERP/ITSM 系统的深度集成。这才是 Procurement 部门能看懂、能审批、能放进年度预算的合同。
开源社区已经在孵化这些种子:
virattt/ai-hedge-fund:一个能自动分析财报、新闻、监管文件,并生成交易信号的金融 agent。vxcontrol/pentagi:一个能执行渗透测试、生成报告、并提出修复建议的安全 agent。
我个人在实际操作中的体会是:如果你是一个创业者,现在押注一个“通用 agent runtime”公司,风险极高。但如果你能做出一个“医疗影像报告初筛 agent”,并和 PACS 系统、放射科医生的工作流深度绑定,那你就有机会拿到医院的 PO(采购订单)。因为医院不在乎你用的是 Claude 还是 Gemini,它在乎的是这个 agent 能不能把放射科医生每天 2 小时的初筛工作,压缩到 20 分钟,并且准确率超过 95%。当 runtime 归零,价值就回归到最朴素的东西上:它解决了谁的什么具体问题,带来了多少可量化的 ROI。这才是 Anthropic 这次发布背后,最值得所有从业者屏息凝神去倾听的、真正的时代脉搏。