--- source: https://mp.weixin.qq.com/s/qehsKZfTs2WDggV80BkGfg title: "AReaL 2.0:面向自演进 Agent 的在线强化学习系统" author: 机器之心 source_account: 机器之心 created: 2026-07-02 fetched: 2026-07-02 --- AReaL 2.0 由蚂蚁集团 + 香港科技大学 + 清华大学联合推出,面向真实部署中 Agent 的在线强化学习训练基础设施。 ## 自演进 Agent 的三根支柱 ### ATDP(Agent Trajectory Data Protocol) 面向学习的智能体轨迹协议。以步骤为单位记录完整决策过程:Agent 观察到的状态、内部 Harness 状态、选择的动作与结果、奖励/反馈到达时间、模型版本、工具版本、租户、成本、权限、治理状态等元数据。一次复杂任务被拆分为可追责、可回放、可归因的学习样本。 ### Agentic Data Proxy 部署在 Agent 与模型/工具/检索/记忆/人类反馈等关键边界上的学习数据层。负责拦截、采集、脱敏、权限控制、轨迹持久化、奖励收集和回放管理。数据进入训练队列前治理先完成——哪些字段可见/脱敏、哪些轨迹具备训练资格、哪些只用于审计。 ### Agent Evolution Control Plane 把「是否更新、更新哪里」变成可治理的系统性决策。根据轨迹统计、用户修正率、工具失败簇、评估器得分、成本信号、安全约束和分布漂移,判断演进应落在哪个层面(记忆/tool schema/Harness/策略模型)。每一次更新须经过回放评估、离线回归测试、租户级安全检查、灰度发布和版本化追踪。 ## 工程架构:Online RL 微服务化 AReaL 2.0 将 RL 基础设施拆分为可组合的服务组件: **Gateway**:链路入口,支持 HTTP/WebSocket 和 OpenResponses bridge(/v1/responses 兼容)。 **Router**:维护 session 与 Data Proxy 的绑定关系,确保同一会话持续落到对应后端,支持横向扩展。 **Data Proxy**:会话状态和轨迹管理。在推理服务中记录轨迹,在训练服务中提供训练数据。把普通 Agent 调用整理成可被训练系统消费的经验轨迹。 **Agent-Compute Worker**:接收 AgentRunnable 协议请求,每次调用对应一轮执行。在推理服务中实例化 SGLang/vLLM 等后端;在训练服务中使用 Megatron/FSDP。 **Controller**:调度组件,启动 guard worker,管理扩容/缩容/流量排空/健康检查。 ## 实践案例 ### Hermes Agent 接入 将标准推理后端替换为 AReaL 2.0 管理的 Agent-Compute Worker,即可将真实交互纳入 RL 闭环,无需重写规划逻辑、工具调用、沙箱或记忆模块。 ### Claude Code SWE 训练 - 数据筛选:只保留至少有一个外部模型能解出的问题 - Agent Infra:基于大规模并发 sandbox + 分布式调度 + 毫秒级 fork 启动 + 镜像预热 - 算法:KPop 稳定化策略,token 级自适应过滤 logp diff - 防 reward hacking:禁用部分 git 操作 - 效果:800 步训练后稳定涨分 ## 开源生态 AReaL 已从蚂蚁 inclusionAI 孵化成为独立社区并加入 PyTorch Foundation Ecosystem 项目。华为云提供昇腾 NPU 端到端适配,MindLab 提供 LoRA 低算力方案。 参考链接: - 论文:https://arxiv.org/pdf/2607.01120 - GitHub:https://github.com/areal-project/AReaL - Hermes 范例:https://github.com/areal-project/AReaL/tree/main/examples/hermes - SWE 范例:https://github.com/areal-project/AReaL/tree/main/examples/swe