从确定性代码到非确定性Agent：AI Agent工程的核心挑战与实战指南

📅 2026/7/3 3:02:35 👁️ 阅读次数 📝 编程学习

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

最近在尝试将 LangChain 等 AI Agent 框架应用到实际项目中时，我深刻体会到，构建一个真正可用的 Agent 应用，其工程复杂度和开发范式与传统软件开发有着天壤之别。这不仅仅是“加一层 AI”那么简单，而是整个工程范式的根本性转变。LangChain 创始人 Harrison Chase 近期也指出，2026 年将是“Agent 工程”的分水岭，传统软件公司正面临一场严峻的生存考验。本文将结合我的实践经验和行业洞察，深入拆解 Agent 工程的核心挑战、技术栈演进以及开发者如何应对这场范式变革。无论你是希望将 AI 能力集成到现有产品的工程师，还是探索 Agent 应用方向的创业者，这篇文章都将为你提供从概念到实战的系统性指南。

1. 背景与核心概念：从确定性代码到非确定性 Agent

在传统软件开发中，我们遵循一个基本前提：系统的行为完全由代码决定。工程师通过阅读代码，就能推断出系统在绝大多数场景下的运行逻辑。测试、调试、上线，都围绕着“确定性”展开。我们构建的是“指令执行机”。

然而，AI Agent 的出现彻底动摇了这个前提。在一个 Agent 应用中，决定系统行为的不仅仅是工程师编写的代码，更关键的是大语言模型（LLM）本身——一个在代码之外运行、带有显著非确定性的“黑箱”。你无法仅通过阅读代码来准确预测 Agent 在特定输入下会做什么，只能让它实际运行起来，观察其执行轨迹（Trace），才能真正理解系统“到底在干什么”。

这种转变催生了所谓的“Agent 工程”。它不再仅仅是软件工程的一个子集，而是一套全新的、围绕非确定性智能体进行设计、开发、测试和运维的方法论。其核心目标是：在承认模型“黑箱”特性的前提下，构建出可靠、可控、可解释的智能应用。

1.1 关键术语解析

在深入之前，我们先厘清几个核心概念，避免混淆：

Agent（智能体）：一个能够感知环境、进行决策并执行行动以实现目标的系统。在本文语境下，特指基于大语言模型（LLM）、能够使用工具（Tools）、在循环（Loop）中自主运行的 AI 程序。
长任务 Agent（Long-horizon Agent）：区别于单轮对话的简单聊天机器人，指那些能够在较长时间跨度内持续执行复杂任务、反复试错、并进行自我修正的 Agent。例如，自动编写一个完整功能模块的编程 Agent，或分析事故日志并生成根因报告的 AI SRE。
Framework（框架） vs. Harness（运行框架）：这是 LangChain 创始人 Harrison 强调的重要区分。
- Framework（如 LangChain）：提供构建 Agent 所需的基础组件和抽象，如模型封装、工具调用、记忆管理、链式调用等。它相对“无偏好”，强调灵活性和可组合性，是基础设施。
- Harness（如 LangChain 的 Deep Agents）：在 Framework 之上，提供一套带有明确“主张”的、开箱即用的运行环境。它内置了特定的工作流、规划策略、上下文管理机制（如压缩）等，旨在让特定类型的 Agent（如编程 Agent）运行得更稳定、更高效。Harness 更接近一个“产品化”的运行时。
上下文工程（Context Engineering）：随着任务变长，Agent 与模型的交互历史（上下文）会不断增长，而模型的上下文窗口是有限的。如何高效地管理、压缩、检索和利用这些上下文，使其既能保留关键信息又不至于溢出，这就是上下文工程。它是长任务 Agent 能否成功的关键。

2. 环境准备与思维转变

开始 Agent 工程实践前，除了技术栈，更重要的是完成思维模式的切换。

2.1 技术环境准备

一个典型的 Agent 开发环境可能包含以下组件：

Python 3.8+：目前大多数 Agent 框架的首选语言。
LangChain / LangGraph：用于构建 Agent 工作流的核心框架。
大语言模型 API：如 OpenAI GPT-4/4o, Anthropic Claude 3.5 Sonnet，或本地部署的开源模型。
向量数据库：用于存储和检索长期记忆或知识，如 Chroma, Pinecone, Weaviate。
开发与观测平台：如LangSmith，用于追踪（Tracing）、评估（Evaluation）和调试 Agent。这在 Agent 工程中至关重要。
代码执行环境：为 Agent 提供安全的沙箱（Sandbox），以执行它生成的代码或命令。

2.2 开发思维转变：从“读代码”到“看轨迹”

传统开发中，我们通过阅读源代码（Source Code）来理解逻辑。在 Agent 开发中，源代码（Prompt、工具定义、工作流）只定义了可能性，而执行轨迹（Trace）才揭示了实际发生的行为。

因此，Agent 工程师的核心工作流变成了：

设计：编写 Prompt、定义工具、构建工作流图（如使用 LangGraph）。
运行与观察：启动 Agent，在 LangSmith 等平台实时查看其完整的执行轨迹，包括每一步的思考、调用的工具、输入输出。
调试与迭代：基于轨迹分析 Agent 在哪里“跑偏”，是 Prompt 指令不清？工具返回异常？还是上下文管理失效？然后修改设计，再次运行观察。
评估与优化：收集大量轨迹，进行人工或自动评估（Eval），建立评估数据集，持续优化系统。

Trace 成为了新的“源代码”。当团队协作时，问题讨论从“把代码发给我看看”变成了“把 LangSmith Trace 链接发给我”。

3. Agent 工程的核心组件与实战

理解了范式转变后，我们来看如何具体构建一个长任务 Agent。本节将以一个“自动分析日志并生成报告”的 AI SRE Agent 为例。

3.1 定义 Agent 的“大脑”：Prompt 工程

Prompt 是 Agent 的“软逻辑”。一个好的系统 Prompt 需要明确角色、目标、约束和工作流程。

# 示例：AI SRE Agent 的系统提示词 system_prompt = """ 你是一个专业的网站可靠性工程师（SRE）助手。你的任务是分析提供的应用程序错误日志，定位根本原因，并生成一份简洁的故障报告。 ## 你的能力 1. **日志分析**：理解常见的错误模式、堆栈跟踪和系统指标。 2. **根因推断**：基于日志信息，推断最可能的故障原因。 3. **报告撰写**：生成包含摘要、时间线、根因、影响评估和建议行动的报告。 ## 你的工作流程 1. 首先，请求用户提供需要分析的日志文件或内容。 2. 接收到日志后，仔细阅读并识别关键错误事件、时间戳和模式。 3. 使用你的知识进行根因分析。如果需要更多上下文（如系统架构图、近期变更记录），可以向用户提问。 4. 最终，生成一份结构化的 Markdown 格式报告。 ## 约束 - 如果日志信息不足以下结论，请明确说明需要哪些额外信息。 - 报告必须基于日志事实，避免无根据的猜测。 - 使用专业、清晰的工程师语言。 """

3.2 为 Agent 装配“手脚”：工具（Tools）

工具让 Agent 能够与世界交互。在我们的例子中，Agent 需要能读取日志文件、查询监控系统。

from langchain.tools import tool from typing import Optional import os @tool def read_log_file(file_path: str) -> str: """读取指定路径的日志文件内容。""" try: with open(file_path, 'r', encoding='utf-8') as f: return f.read() except FileNotFoundError: return f"错误：找不到文件 {file_path}" except Exception as e: return f"读取文件时出错：{str(e)}" @tool def query_metrics(metric_name: str, start_time: str, end_time: str) -> str: """从监控系统查询指定时间范围内的指标数据。""" # 这里模拟一个查询过程，实际应接入 Prometheus、Datadog 等 # 返回模拟数据 return f""" 指标 '{metric_name}' 在 {start_time} 到 {end_time} 期间的数据： - 平均值: 85% - 峰值: 98% @ 2026-01-29T14:30:00Z - 谷值: 60% @ 2026-01-29T14:05:00Z - 在 14:05 左右出现显著下跌，与错误日志时间吻合。 """

3.3 构建工作流与记忆：使用 LangGraph

对于长任务，我们需要一个明确的工作流来管理 Agent 的状态和步骤。LangGraph 非常适合用来定义这种有状态的、多步骤的图。

from langgraph.graph import StateGraph, END from typing import TypedDict, Annotated import operator # 定义 Agent 运行时的状态 class AgentState(TypedDict): messages: Annotated[list, operator.add] # 对话消息历史 log_content: Optional[str] # 日志内容 analysis_report: Optional[str] # 分析报告 needs_more_info: bool # 是否需要更多信息 # 定义各个节点（函数） def request_logs(state: AgentState): """节点1：请求用户提供日志""" return {"messages": [{"role": "assistant", "content": "请提供需要分析的错误日志文件路径或直接粘贴日志内容。"}]} def analyze_logs(state: AgentState): """节点2：分析日志（调用LLM）""" from langchain_openai import ChatOpenAI llm = ChatOpenAI(model="gpt-4o") # 这里简化处理，实际应从state中提取用户提供的日志 prompt = f""" 基于以下日志片段，分析可能的问题： {state.get('log_content', '暂无日志')} 请给出初步分析。 """ response = llm.invoke(prompt) return {"messages": [{"role": "assistant", "content": response.content}], "analysis_report": response.content} def decide_next_step(state: AgentState): """节点3：根据分析结果决定下一步""" # 简单的逻辑：如果报告里提到“信息不足”，则标记需要更多信息 if "信息不足" in state.get('analysis_report', ''): return {"needs_more_info": True} else: return {"needs_more_info": False} # 构建图 workflow = StateGraph(AgentState) workflow.add_node("request_logs", request_logs) workflow.add_node("analyze_logs", analyze_logs) workflow.add_node("generate_final_report", lambda state: state) # 最终报告节点（简化） workflow.set_entry_point("request_logs") workflow.add_conditional_edges( "analyze_logs", decide_next_step, { True: "request_logs", # 需要更多信息，跳回请求节点 False: "generate_final_report" # 信息足够，生成最终报告 } ) workflow.add_edge("request_logs", "analyze_logs") workflow.add_edge("generate_final_report", END) # 编译图 app = workflow.compile()

3.4 上下文管理（Compaction）实战

当对话或任务步骤很长时，我们需要压缩历史上下文，以防超出模型令牌限制。以下是一个简单的基于总结的压缩策略示例。

from langchain_openai import ChatOpenAI from langchain_core.messages import HumanMessage, AIMessage, SystemMessage from langchain_core.prompts import ChatPromptTemplate llm = ChatOpenAI(model="gpt-4o") def summarize_conversation(messages: list) -> str: """将一段长的对话历史总结成一段简洁的摘要。""" prompt = ChatPromptTemplate.from_messages([ ("system", "你是一个高效的对话总结助手。请将以下对话历史总结成一段连贯的摘要，保留所有关键事实、决策和结论。"), ("human", "{conversation_history}") ]) chain = prompt | llm history_text = "\n".join([f"{m.type}: {m.content}" for m in messages]) summary = chain.invoke({"conversation_history": history_text}) return summary.content # 模拟一个长对话历史 long_history = [ HumanMessage(content="服务器在14:05宕机了。"), AIMessage(content="我看到了。请提供当时的错误日志。"), HumanMessage(content="日志显示数据库连接池耗尽。"), AIMessage(content="这可能是慢查询导致的。请检查当时是否有新的部署。"), HumanMessage(content="是的，14:00有一个新的API版本上线。"), # ... 更多轮对话 ] # 当历史消息太多时，进行压缩 if len(long_history) > 10: # 假设阈值是10条消息 summary = summarize_conversation(long_history[:8]) # 总结前8条 # 用总结替换旧的历史，保留最新的几条消息 compressed_history = [ SystemMessage(content=f"之前的对话摘要：{summary}"), *long_history[-2:] # 保留最新的2条消息 ] print("压缩后的上下文长度：", len(compressed_history))

4. 新范式的核心挑战与工程实践

构建 Agent 应用面临着一系列传统软件开发中不存在的挑战。

4.1 非确定性与测试困境

传统软件的单元测试可以断言确定的输入产生确定的输出。Agent 的输出是非确定的，测试方式必须改变。

实践：基于轨迹（Trace）的评估

收集轨迹数据集：运行 Agent 处理一系列真实或模拟的任务，在 LangSmith 中保存所有执行轨迹。
人工标注（Annotation）：工程师或领域专家查看这些轨迹，对 Agent 的最终输出、关键决策步骤进行打分或提供反馈（好/坏/如何改进）。
构建评估器（Evaluator / Judge）：利用标注好的数据，训练或提示（Prompt）另一个 LLM（即 LLM-as-a-Judge）来自动化评估新的轨迹。
持续集成：将自动化评估集成到 CI/CD 流程中，确保 Agent 的修改不会导致性能回归。

# 一个简单的 LLM-as-a-Judge 示例，评估报告质量 from langchain_openai import ChatOpenAI from langchain_core.prompts import ChatPromptTemplate def evaluate_report_with_llm_judge(original_log: str, generated_report: str) -> dict: """使用LLM作为裁判，评估生成的报告质量。""" llm = ChatOpenAI(model="gpt-4o", temperature=0) prompt = ChatPromptTemplate.from_messages([ ("system", "你是一个SRE专家，负责评估故障报告的质量。请根据原始日志和生成的报告，从准确性、完整性、可操作性三个方面打分（1-5分），并给出简短理由。"), ("human", "原始日志：\n{log}\n\n生成的报告：\n{report}") ]) chain = prompt | llm evaluation = chain.invoke({"log": original_log, "report": generated_report}) # 解析 evaluation.content 为结构化分数 # 这里简化为返回文本 return {"evaluation_text": evaluation.content}

4.2 记忆（Memory）与持续学习

为了让 Agent 在多次交互中变得更“聪明”，需要记忆机制。记忆不仅仅是存储历史对话，更是让 Agent 能从过去的成功和失败中学习。

实践：向量存储记忆将重要的交互片段（如用户反馈、成功的解决方案）转换为向量，存入向量数据库。当遇到类似新问题时，Agent 可以检索相关记忆来辅助决策。

from langchain_chroma import Chroma from langchain_openai import OpenAIEmbeddings from langchain_core.documents import Document from datetime import datetime # 初始化向量存储 embeddings = OpenAIEmbeddings(model="text-embedding-3-small") vectorstore = Chroma(embedding_function=embeddings, persist_directory="./chroma_db") def save_to_memory(question: str, solution: str, feedback: str = ""): """将一次成功的问答或反馈保存到记忆库。""" doc = Document( page_content=f"问题：{question}\n解决方案：{solution}\n反馈：{feedback}", metadata={"timestamp": datetime.now().isoformat(), "type": "solution"} ) vectorstore.add_documents([doc]) def retrieve_similar_memory(query: str, k=3): """从记忆库中检索类似问题的解决方案。""" docs = vectorstore.similarity_search(query, k=k) return "\n---\n".join([doc.page_content for doc in docs])

4.3 文件系统作为“外部大脑”

Harrison Chase 强调，对于长任务 Agent，文件系统访问能力几乎是必须的。它不仅是存储工具，更是上下文管理的关键。

存储中间状态：将大型工具调用结果（如完整的日志文件）写入文件，而不是全部塞回有限的模型上下文。
实现检查点（Checkpoint）：Agent 可以将任务进度保存到文件，意外中断后可以从检查点恢复。
代码生成与执行：Agent 可以将复杂逻辑写成脚本文件，然后执行，这是完成许多长尾任务的强大通用手段。

5. 传统软件公司的挑战与机遇

Harrison Chase 将 2026 年视为分水岭，那么传统软件公司面临什么？

5.1 挑战：工程范式的代沟

开发流程不同：从“设计-编码-测试”的确定性流程，转向“设计-运行-观察轨迹-调试Prompt/工具-评估”的迭代式、探索性流程。
核心资产变化：传统优势（如精心设计的代码架构）的权重下降，而高质量数据、领域特定的API、以及封装了领域知识的Prompt和工具链成为新护城河。
人才结构：需要既懂传统软件工程，又深刻理解AI模型特性、Prompt工程、评估体系的复合型人才。年轻开发者可能因没有历史包袱而更快适应。

5.2 机遇：数据与流程的价值释放

传统公司最大的优势往往在于其积累的专有数据和业务流程。

数据资产：客户使用数据、业务日志、知识库等，可以用于微调领域模型、构建检索增强生成（RAG）系统，让 Agent 更专业。
API资产：已有的业务API，可以轻松封装成 Agent 的工具，让AI直接操作业务系统。
领域知识：将内部业务流程、最佳实践、故障处理手册等，转化为结构化的Prompt指令和工具使用规范，注入到Agent中。

行动建议：

从小型、高价值的内部助手开始：例如，构建一个基于内部知识库的客服问答Agent，或一个自动处理IT工单的Agent。用实际项目训练团队。
投资于观测与评估体系：立即引入像 LangSmith 这样的平台。Trace 是理解、调试和优化 Agent 的生命线。
建立“Prompt 库”和“工具库”：像管理代码库一样，版本化、评审和管理优质的Prompt模板和工具函数。
拥抱“人类在环”：将Agent定位为“初级员工”或“协作者”，其产出是“初稿”，由人类专家审核、修正和最终批准。这是当前最可靠的落地模式。

6. 未来展望与学习路径

Agent 工程仍在飞速演进，但一些趋势已清晰可见：

Harness 标准化：大多数团队不会从头构建自己的 Harness，而是使用 LangChain Deep Agents 等成熟方案，专注于业务逻辑和工具。
评估即代码（Evaluation as Code）：如何系统化地评估Agent性能，将成为工程化的核心部分。
自我改进（Self-Improvement）：Agent 通过分析自己的轨迹（Trace）来自动优化 Prompt 或工作流，减少人工调优。
UI/UX 革新：管理异步运行的大量Agent，需要类似任务队列（如Jira）的界面；而与单个Agent进行深度、同步的协作，则需要融合聊天、代码编辑和文件浏览的混合界面。

给开发者的学习路线：

基础入门：深入理解 LangChain/LangGraph 核心概念（Model, Prompt, Chain, Agent, Tool, Memory）。完成官方教程。
实战项目：选择一个具体场景（如个人知识库问答、自动化周报生成），构建一个简单的 Agent，并集成 LangSmith 进行全链路追踪。
深入原理：研究高级模式，如 ReAct 推理框架、Graph 工作流、子Agent（Multi-Agent）协作、复杂的记忆机制。
工程化实践：学习如何为 Agent 设计测试套件、构建评估流水线、实现持续部署和监控。
关注前沿：紧跟 Claude Code、GPT Engineer、OpenDevin 等编程 Agent 的发展，理解其 Harness 设计思想。

2026年正在迫近，Agent 从炫酷的概念走向扎实的工程应用已成定局。这场变革不是要取代所有软件，而是将软件的能力边界从“确定性自动化”扩展到“非确定性智能协作”。对于开发者而言，尽早拥抱 Trace-Driven Development、掌握上下文工程和评估体系，将成为在新时代构建有价值应用的关键技能。这场范式转移的浪潮中，最大的风险不是技术难度，而是固守旧地图，错过了新大陆。

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

编程学习技术分享实战经验

资讯详情

从确定性代码到非确定性Agent：AI Agent工程的核心挑战与实战指南

1. 背景与核心概念：从确定性代码到非确定性 Agent

1.1 关键术语解析

2. 环境准备与思维转变

2.1 技术环境准备

2.2 开发思维转变：从“读代码”到“看轨迹”

3. Agent 工程的核心组件与实战

3.1 定义 Agent 的“大脑”：Prompt 工程

3.2 为 Agent 装配“手脚”：工具（Tools）

3.3 构建工作流与记忆：使用 LangGraph

3.4 上下文管理（Compaction）实战

4. 新范式的核心挑战与工程实践

4.1 非确定性与测试困境

4.2 记忆（Memory）与持续学习

4.3 文件系统作为“外部大脑”

5. 传统软件公司的挑战与机遇

5.1 挑战：工程范式的代沟

5.2 机遇：数据与流程的价值释放

6. 未来展望与学习路径

最新新闻

日新闻

周新闻

月新闻

资讯详情

从确定性代码到非确定性Agent：AI Agent工程的核心挑战与实战指南

1. 背景与核心概念：从确定性代码到非确定性 Agent

1.1 关键术语解析

2. 环境准备与思维转变

2.1 技术环境准备

2.2 开发思维转变：从“读代码”到“看轨迹”

3. Agent 工程的核心组件与实战

3.1 定义 Agent 的“大脑”：Prompt 工程

3.2 为 Agent 装配“手脚”：工具（Tools）

3.3 构建工作流与记忆：使用 LangGraph

3.4 上下文管理（Compaction）实战

4. 新范式的核心挑战与工程实践

4.1 非确定性与测试困境

4.2 记忆（Memory）与持续学习

4.3 文件系统作为“外部大脑”

5. 传统软件公司的挑战与机遇

5.1 挑战：工程范式的代沟

5.2 机遇：数据与流程的价值释放

6. 未来展望与学习路径

相关新闻

最新新闻

日新闻

周新闻

月新闻