--- title: "Dockerless: 免环境补丁验证器,让 Coding Agent 后训练不再依赖 Docker" source_url: "https://mp.weixin.qq.com/s/940okCms5A4PdJEdrh2Gtg" author: "AGI Hunt" created: 2026-07-02 updated: 2026-07-02 type: raw tags: [dockerless, coding-agent, verifier, swe-bench, agent-training, sft, rl, grpo, post-training] ingested: 2026-07-02 sha256: d6875c5bf3b88ce8653ca50892026fc5a79d509902678a691a4ad957b45173be --- # Dockerless: 免环境补丁验证器,让 Coding Agent 后训练不再依赖 Docker 上海交通大学与抖音集团提出 Dockerless——一种无需为每个仓库单独配 Docker 环境的 Agent 式补丁验证器,靠并行子 Agent 在代码库里搜证据来判断补丁对不对;用它做 SFT 筛选和 RL 奖励,整条后训练流水线都可以免环境,SWE-bench 三项基准上分别达到 62.0%、50.0%、35.2% 的解决率,与跑测试的常规方案几乎打平。 论文标题:Dockerless: Environment-Free Program Verifier for Coding Agents 论文链接:https://arxiv.org/abs/2606.28436 ## 核心问题:Verifier 是后训练瓶颈 训练 Coding Agent 的标准流程:SFT 喂高质量轨迹 → RL 用奖励信号推动模型。两条线都绕不开同一个裁判——验证器(Verifier)。 传统做法:把补丁丢进仓库专属 Docker 镜像,跑单元测试。这在 SWE-bench 基准上可行,但在真实世界: - 每个仓库需定制 Docker 镜像、锁定依赖版本、写执行脚本 - 企业内部代码、遗留系统常常没有可复现的测试环境 - Agent 可能改对了,但没法用测试来确认 现有免环境验证器大多只看补丁文本,拿候选补丁和参考补丁做表面比对,或让 LLM 凭 diff 打分,从不真正翻代码库。 ## Dockerless 方法 两阶段 Agent 流水线: **第一阶段:出题 + 并行探索** 验证器从 Issue 和参考补丁里提炼 2-4 个验证问题(如:修复落在哪?预期行为?会不会误伤其他模块?)。每个问题派一个子 Agent,用只读 shell 工具在代码库里搜证据,返回带来源定位的短答案。 **第二阶段:综合判决** 主模型拿到 Issue、两个补丁、所有问答对,输出二元判决 token(0/1)。推理时把 verdict token 的 logit 转成连续分数,作为 SFT 筛选和 RL 奖励信号。 ### 训练 - 数据:SWE-Gym + Multi-SWE-RL 共 3.7K Issue - 教师模型:GLM-5 - 拒绝采样:只保留判决正确的轨迹 - 骨干:Qwen3.5-9B(与下游 Agent 同尺度) ### 免环境后训练管线 **SFT 数据筛选(RFT)**:在最小 Linux 镜像里采集 16K 轨迹,Dockerless 打分取 top 4K 做 SFT。 **RL(GRPO + Dockerless 奖励)**:每条 rollout 的补丁用 Dockerless 打分作为奖励,GRPO 优化。 ## 核心结果 | 模型 | Verified | Multilingual | Pro | |------|----------|-------------|-----| | Qwen3.5-9B 基座 | 59.6 | 41.3 | 32.3 | | SWE-Lego-8B(次强开源) | 41.2 | 19.0 | 16.1 | | Dockerless-RL-9B | **62.0** | **50.0** | **35.2** | | Test-Execution RL(oracle) | 62.4 | 51.3 | 35.7 | SFT 阶段:Dockerless 筛轨迹 vs 有环境采集几乎打平(60.6 vs 60.0)。 RL 阶段:Dockerless 奖励 vs 真跑测试的 oracle 奖励差距仅 0.4-1.3 个点。 **验证器 AUC**:Dockerless 81.0,DeepSWE Verifier 66.7(+14.3),GPT-5.4 零样本 75.9。 ## 关键洞察 1. **前沿模型可在「裸 Linux」里干活**:去掉 per-repo 环境,解决率仅掉 3.0-13.9 个百分点,远未崩盘 2. **验证问题数量**:2-4 个最优,过多引入冗余/噪声 3. **Agent 式仓库探索**:判决依据来自仓库的真是文件片段和调用关系,而非补丁文本相似度