--- title: "AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解" source_url: "https://mp.weixin.qq.com/s/dmlwqGylzG0eQVUlcZocUQ" created: 2026-06-30 updated: 2026-07-02 type: source tags: [ai-infra, agent-framework, production, architecture, infrastructure, llm-serving, agent-orchestration] source: wechat source_account: ThinkingAgent author: Knock ingested: 2026-07-02 sha256: 18a6bcb763089000951b79a518acb9f6e53529789edfbc844f4e987b37d9ef33 --- # AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解 2026 年,几乎每家公司都在做 AI Agent。 但一个残酷的事实是:绝大多数 Agent 项目停留在Demo阶段,无法融入生产。 不是模型不行,不是算法不行——是 Infra 不行。 构建一个生产级 AI Agent 系统,你需要的远不止一个大模型和一个向量库。你需要算力调度、模型网关、数据管道、Prompt 管理、Agent 编排、工具沙箱、记忆系统、评测体系、可观测平台——还要让安全、CI/CD、成本和开发者体验贯穿每一层。 这就是完整的 AI Infra。 本文从 L0 到 L8,逐层拆解 9 层架构 + 4 个横切能力,给出工具选型和生产级最佳实践。 全景图:9 层 + 4 横切 先看全景,再逐层拆解。 纵向 9 层(从底层资源到上层应用): | 层级 | 名称 | 核心问题 | |------|------|----------| | L0 | 基础资源层 | 模型和应用运行在哪里? | | L1 | 模型与推理层 | 用哪个模型?怎么调用?怎么降本? | | L2 | 数据与知识层 | 模型如何安全、准确地使用企业私有知识? | | L3 | Prompt 与上下文层 | 如何组织模型能可靠执行的输入? | | L4 | 编排与 Agent 层 | 复杂任务如何被拆解、调度、执行? | | L5 | 工具执行层 | Agent 能做什么?执行边界在哪里? | | L6 | 状态与记忆层 | 系统如何记住一切而不越权? | | L7 | 评测与质量层 | 改动后质量是变好了还是变坏了? | | L8 | 可观测与运营层 | 出了问题能否定位?成本能否归因? | 横向 4 个能力(贯穿所有层): - 安全治理 - CI/CD 与发布治理 - FinOps 成本治理 - 开发者体验(DevEx) 关键洞察:大多数团队只关注 L4(Agent Framework)+ L2(向量库),忽略了其他 7 层和 4 个横切能力。但生产级 Agent 的稳定性,恰恰取决于那些「不起眼」的基础设施。 L0:基础资源层——算力、存储、网络 L0 是所有 AI 系统的物理和云原生底座。 核心组件: - 计算:GPU / TPU / NPU / CPU — NVIDIA A100/H100、Google TPU v5e - 编排:容器调度 — Kubernetes、Ray、Slurm、Volcano、Kueue - 存储:对象 / 块 / 文件 — S3、MinIO、JuiceFS、Alluxio - 网络:高速互联 — RDMA、InfiniBand、VPC、服务网格 - 镜像:容器与模型 — Harbor、Artifact Registry、HuggingFace Hub - 安全:密钥与隔离 — Secret Manager、KMS、多租户隔离 这一层回答的问题:模型和 AI 应用运行在哪里,资源如何调度,如何保证稳定、弹性和成本可控。 生产级实践: - 推理用 GPU 按需弹性伸缩(如 Modal、RunPod Serverless),避免空跑 - 训练用 Ray Cluster + Kueue 做任务队列,多租户公平调度 - 模型权重统一存到 Artifact Registry,版本化管理,禁止散落本地磁盘 L1:模型与推理层——模型服务与智能网关 L1 管理模型的来源、调用和路由,是 AI Infra 的「神经中枢」。 核心组件清单: - Model Gateway:统一入口,屏蔽不同供应商 API 差异 - Model Router:根据任务类型智能选择模型 - Inference Server:vLLM、TGI、TensorRT-LLM 等高性能推理引擎 - Model Registry:模型版本管理、元数据、A/B 测试 - Fallback / Rate Limit / Quota:容错、限流、配额 - Cache / Batching / Streaming:缓存、批处理、流式输出 - Quantization / KV Cache:量化和 KV 缓存优化 L1 核心竞争点:保证模型调用的低延迟、高吞吐、高可用,同时控制成本。 L2:数据与知识层——企业私有知识与 RAG 管道 模型固有的知识截止日期、幻觉和缺乏企业特定知识——RAG 解决了这些问题。 核心组件: - ETL Pipeline:数据提取、清洗、分块(Spark、Airbyte、Unstructured) - Embedding Model:文本向量化(OpenAI Ada、BGE、E5) - Vector Database:向量存储与检索(Pinecone、Qdrant、Milvus、Weaviate) - Hybrid Search:语义 + 关键词 + 多模态搜索 - Reranker:重排序提升召回精度(Cohere Rerank、BGE Reranker) - Knowledge Graph:实体关系图谱(Neo4j、Amazon Neptune) - Data Governance:数据溯源、权限、合规 生产级 RAG 的最佳实践: - 多分块策略:按语义段落切分,保留文档结构 - Hybrid Search:向量相似度 + BM25 关键字,提升长尾召回 - 多路召回:多个来源同时检索,reranker 统一排序 L3:Prompt 与上下文层——如何组织模型能可靠执行的输入 模型的能力上限是模型决定的,但下限是 Prompt 工程决定的。 核心实践: - Template Management:LangFuse、Helicone - Context Window Management:动态压缩、滑动窗口、Token 预算 - Guardrails:NeMo Guardrails、Guardrails AI - System Prompt 版本管理:每个生产变更都过 A/B 测试 - Few-shot 示例选择:按任务相似度动态选择示例 L4:编排与 Agent 层——复杂任务拆解、调度、执行 这是大多数人最熟悉的一层。 核心框架对比: - LangGraph:基于有状态图的 Agent 编排,适合复杂多步骤工作流 - CrewAI:多 Agent 角色扮演,定义 Agent 角色和任务 - AutoGen:微软多 Agent 对话框架,Agent 间自动协商 - OpenAI Agents SDK:轻量级、原生支持 - Dify:低代码 Agent 构建平台 - Coze:字节跳动 Agent 平台 - Semantic Kernel:微软企业级集成框架 - Agno / Smolagents:轻量替代 L4 最佳实践——Agent 不是银弹,框架不是万能的: - 简单任务:硬编码工作流 > Agent 自主编排 - 中等复杂:LangGraph 有状态图 - 高度复杂:多 Agent 分层 + Human-in-the-loop L5:工具执行层——Agent 能做什么?执行边界在哪里? Agent 的能力上限由它能调用的工具决定。工具越多,Agent 越强大,风险也越大。 实现方式: - MCP(Model Context Protocol):标准化工具接口协议 - Function Calling:OpenAI 原生函数调用 - Tool Sandbox:E2B、Fly(安全隔离的代码执行环境) - Browser Use:Playwright、Browserbase(浏览器自动化) - API Gateway:工具注册、鉴权、限流 安全边界: - Agent 只能调用已注册的工具 - 工具执行返回结果,不返回原始系统权限 - 高危操作(写数据库、发邮件)加人工确认 - 所有工具调用记录日志 L6:状态与记忆层——系统如何记住一切而不越权 多轮对话、跨会话记忆、长期记忆——这是生产级 Agent 区别于 Demo 的关键。 记忆类型: - 短期记忆(会话内):LangGraph 状态管理、Memory Manager - 长期记忆(跨会话):Mem0、MemGPT、Zep - 结构化记忆:用户画像、偏好、历史决策 - 非结构化记忆:对话摘要、知识积累 记住什么、不记住什么,是隐私和体验的平衡。 L7:评测与质量层——改动后质量是变好了还是变坏了? 没有评测,就没有质量控制。 评测体系: - 单元评测:单个工具/函数调用是否正确(RAGAS、DeepEval) - 端到端评测:完整任务完成度评分 - 回归评测:Golden Dataset + 自动评分 - 在线评测:A/B 测试、用户反馈 - 安全评测:Prompt Injection、Jailbreak 检测 生产实践: - Golden Set:100-500 条典型用例,每次模型更新 / 技能修改都跑 - Auto-Eval:LLM-as-Judge 自动化评分 - 门禁:评分下降 > 5% 阻止发布 L8:可观测与运营层——出了问题能否定位?成本能否归因? Agent 的复杂性和不可预测性使得可观测性比传统软件更重要。 核心组件: - Tracing:OpenTelemetry、LangFuse、LangSmith、Arize - Logging:Agent 决策轨迹、Token 消耗、延迟 - Metrics:成功率、平均轮次、Token/次、延迟 P50/P99 - Alerting:异常检测、成本异常、质量下降 - Dashboard:LangFuse Dashboard、Grafana Agent 独有的可观测关注点: - 每一轮 Agent 的决策是什么?为什么选这个工具? - Token 花在哪里?哪个模型调用最贵? - 哪个步骤最常失败?失败模式是什么? 横切能力 1:安全治理——贯穿所有层 - L0:网络隔离、密钥管理 - L1:模型输出过滤、PII 脱敏 - L2:数据权限、行级安全 - L3:Prompt Injection 防护 - L4:Agent 权限边界 - L5:沙箱隔离、工具鉴权 - L6:记忆隐私、遗忘机制 - L7:安全评测 - L8:审计日志 横切能力 2:CI/CD 与发布治理 - 模型更新发布流程 - Prompt 版本控制 + A/B 测试 - Agent 配置变更管理 - 评测门禁卡点 - 回滚机制 横切能力 3:FinOps 成本治理 - Token 成本追踪 - GPU 利用率优化 - 模型路由策略(便宜模型优先) - Cache 命中率优化 - 预留实例 vs 按需实例 横切能力 4:开发者体验(DevEx) - 本地开发环境标准 - 一键部署 - 变更预览 - 调试工具 - 文档 分阶段落地路线图 阶段 1:验证期(0-1 月) - L1:调用 OpenAI / Anthropic API,Aliyun Bailian - L2:Qdrant 向量库(自建或 Cloud) - L3:硬编码 System Prompt - L4:LangGraph / CrewAI - L6:LangGraph 内置 Memory - L8:LangFuse 阶段 2:原型期(1-2 月) - L1:LiteLLM(统一接口 + Fallback) - L2:Pinecone / Qdrant Cloud - L3:LangFuse Prompt 管理 - L4:LangGraph / CrewAI - L5:E2B 沙箱 - L6:LangGraph Memory - L7:RAGAS + Golden Set - L8:LangFuse(开源部署) 阶段 3:生产期(持续迭代) - L0:K8s + GPU 弹性伸缩 - L1:自建网关 + vLLM + 智能路由 - L2:多分块策略 + Hybrid Search + Reranker - L3:Guardrails + 动态上下文 - L4:多 Agent 分层 + Human-in-the-loop - L5:MCP 标准化 + 沙箱隔离 - L6:长期记忆系统 - L7:在线评测 + 发布门禁 + 人审抽检 - L8:OpenTelemetry + Grafana + 告警 横切:安全治理、CI/CD、FinOps、DevEx 全面落地 总结:一句话定义完整 AI Infra 完整 AI Infra 不是「模型 + LangChain + 向量库」,而是: 算力资源底座 + 模型服务与网关 + 数据 / RAG 管道 + Prompt / Context 管理 + Agent / Workflow 编排 + 工具执行沙箱 + 状态记忆系统 + 评测质量体系 + 可观测 / SRE + 安全治理 / 合规 + 成本与开发者平台。 9 层纵向架构 + 4 个横切能力,缺一不可。 Demo 只需要 L1 + L4。生产需要全部 9 层 + 4 横切。 参考资料: - LangGraph (https://langchain-ai.github.io/langgraph/) - CrewAI (https://docs.crewai.com/) - Microsoft AutoGen (https://microsoft.github.io/autogen/) - OpenAI Agents SDK (https://platform.openai.com/docs/guides/agents) - E2B 沙箱 (https://e2b.dev/docs) - Mem0 记忆管理 (https://docs.mem0.ai/) - LangFuse 可观测性 (https://langfuse.com/docs) - OpenTelemetry GenAI (https://opentelemetry.io/blog/2024/genai/) - RAGAS 评测 (https://docs.ragas.io/) - vLLM 推理引擎 (https://docs.vllm.ai/) - LiteLLM 统一网关 (https://docs.litellm.ai/) - Pinecone 向量数据库 (https://docs.pinecone.io/) - Qdrant 向量数据库 (https://qdrant.tech/documentation/) 作者:Knock | ThinkingAgent