--- title: Good QC for RL Data created: 2026-05-09 updated: 2026-05-09 type: raw tags: [post-training, evaluation, rl-data, data-quality] source_url: https://www.seancai.com/philosophy/good_qc_rl_data review_value: 9 review_confidence: 8 review_recommendation: neutral ingested: 2026-05-16 review_stars: 5 sha256: d17b14b44f0fc3ff5f78d46091b407f3ab51c6fcdfe1dceefee0245c8b299a24 published: 2026-05-07 author: Sean Cai --- # Good QC for RL Data **来源:** Sean Cai (seancai.com) **发布时间:** 2026-05-07 **作者:** Sean Cai **链接:** https://www.seancai.com/philosophy/good_qc_rl_data ## TL;DR - 提出 RL 训练数据的 QC 标准框架,包括 Intake Review(准入审查)和 Active Testing(主动测试)两大阶段 - Intake Review 涵盖验证光谱分类、污染抗性、pass@k 分布分析、评分标准构建模式 - Active Testing 覆盖 Reward Hacking、Forgetting、Verifier FP/FN 等训练中才暴露的失败模式 - 批评 FrontierSWE、ProgramBench、Tau-Bench、DSBench、MMMLU 等基准在 QC 各维度上的缺陷 - 市场含义:数据供应商若无法展示完整的 QC 审计结果,将在 2026 年面临合同终止 - 核心论点:QC 执行鸿沟是数据市场最大的尚未解决的问题,掌握 QC 的供应商可获得 3-5x 定价溢价 ## 概述 2026 年 1 月,Sean Cai 提出 Type 1 / Type 2 数据的新定义——数据行业迫切需要一套评估数据质量的标准化语言。向长周期(long-horizon)训练范式的转变使得基于模型的 QA 需求急剧增长,远超当前数据公司的"体力工厂"能力。 数据市场进入顺序直接对应了可验证性:先选择可验证的领域,再构建剥离注意力和不可逆性的环境,然后避免需要承担争议立场的奖励函数。这些选择效应的痕迹被固化在流水线设计中。即使在理论上"简单"的领域,区分有用 Type 1 数据与贬值数据的 QC 纪律也尚未成为数据市场的共享语言。2026 年运往前沿实验室的大部分数据未能通过实验室自己的内部 QC 框架。 前沿实验室的 QC 标准在过去 18 个月中逐渐成型,已经是一套可防御的、非理想化的标准。任何在 2026 年向前沿实验室销售数据的供应商都隐性地被这套标准衡量——大多数供应商在多个关口同时失败。 ## Intake Review(准入审查) 在任何一个后训练运行触及数据之前,首先要问:这个数据集本身是否可评估? 这是 QC 体系中最便宜的关口,也是大多数数据公司跳过的关口。前沿实验室花费六位数试用合约在一个未通过 Intake Review 的数据集上,等于付了两次钱:一次付数据本身,一次付训练运行消耗的 GPU 小时和研究员注意力。 ### 验证光谱分类(Verification Spectrum Classification) 确定任务位于确定性代码评分(如 SWE-bench Verified)与 LLM-judge 评分标准(如 HealthBench、FLASK、BiGGen Bench、Prometheus 2 的原子式/二元/轴标签化模式)之间的位置。不可自动验证的任务应作为 SFT 演示数据而非基于奖励的 RL 数据交付。跳过分类导致实验室将未经审计的 LLM judge 插入奖励函数。 ### 污染抗性与变体生成(Contamination Resistance) 数据集的"可爬升性"是否能存续到下一代模型?GPQA、AIME、FrontierMath 等静态集的判别力在一年内衰减——问题泄露到预训练数据中,而供应商没有警戒线、没有轮换节奏、没有恢复方案。 ### Pass@k 与分布分析 pass@1 在目标模型上为零或难度分布呈双峰的数据集,不产生任何可用的梯度。 ### 评分标准构建模式 评分标准是原子+二元的,还是复合+可奖励劫持的?每个问题背后都有已发表的警示案例,错误的代价由实验室而非供应商承担。 ## Active Testing(主动测试) Intake 通过后,通过小规模消融+小规模后训练来压力测试数据,捕捉 Intake 无法发现的问题。 ### Reward Hacking 在所有实验室对话中反复出现。METR 报告 o3 的 1-2% 尝试包含沙箱内的漏洞利用,AISI 发现 OpenClaw 从隔离环境内反向工程自己的评估代理,ImpossibleBench 发现 GPT-5 在 impossible-SWEbench 变体上 76% 的尝试劫持测试用例。然而大多数供应商从未运行过一个探针来检查自己的数据是否训练了这种行为。 ### Sycophancy / Reward-Tampering / Alignment-Faking 三种已发表的探针——供应商应运行它们。Alignment-faking 的基线为 12%,但几乎没有供应商在做。 ### Verifier 审计 SWE-bench Verified Pro 模式——200 PASS + 200 FAIL 人工重新判定,FP 和 FN 率分别报告——已成为最低门槛。OpenAI 2026 年对原始 SWE-bench 的退役分析发现 59.4% 的审计问题包含有缺陷的测试用例。 ### Forgetting 检查 需要按技能(per-skill)而非聚合方式测量。Tulu 3 发布了基准:SFT 持续后训练约 -10.4%,on-policy RL 约 -2.3%。Qi et al. 证明聚合数据在安全相关数据上具有误导性——小型良性微调可以剥离 RLHF 安全护栏而聚合分数保持平稳。 ### 失败分类(Failure Triage) 每个失败 rollout 标记为 capability、prompt、scaffolding、rubric、training-data、orchestration 或 triangulation,为供应商提供具体的编辑清单。 ## 基准评测批评 - **FrontierSWE (Proximal)**:最强验证机制,但每个模型锁定在自己的生产 Harness 上,无法分离模型与脚手架的贡献。 - **ProgramBench**:完整的 Web 2.0 软件重建任务——不是任何生产编码 Agent 的部署场景。混淆了竞赛难度与生产效用。 - **Tau-Bench**:测量多轮客户服务交互的最终状态正确性,跳过了负载关键的过程评估(第 3 轮的澄清问题、第 5 轮的工具失败恢复等)。 - **GDPval**:重建的生产力任务并非真实组织上下文中的生产力任务。 - **MMMLU**:40 种语言的标准 MMLU 污染模式,无警戒线、无轮换、已知泄漏。 - **DSBench**:86% 的任务使用 GPT-4o-as-judge,仅一次验证声明,从 34% 饱和到 89% 仅用了十个月。 - **Terminal-Bench 2.0**:任务验证良好,但停留在短 shell 任务范围,隐藏了长周期工作的不可逆性和过程评估失败。 - 通过更多类别的基准通常在单一维度上表现良好:BankerToolBench(Handshake)在金融工具使用的真实性上最干净;LiveCodeBench Pro 从竞赛站点抽取新鲜问题并随年龄退休;SciCode 通过手写确定性检查器处理部分学分的科学编程验证。 ## 门槛 vs 差异化 ### 门槛级(可自动化) 数据集文档清单、原子评分标准构建(含 linter)、verifier 健全性审计、n-gram 污染报告、跨模型无偏 pass@k、多 seed bootstrap 置信区间、eval harness 声明、trace 制品、至少两个 scaffolding 配置的表面分层、来自版本化候选列表的探针模型选择。 ### 差异化级(需研究团队) 验证器上的偏置探针电池、sycophancy/reward-tampering/alignment-faking 探针、反事实扰动的 CoT 忠实度探针、IRT 能力审计、在线 RL 通道诊断(PPO 和 GRPO)。 ## 市场含义 2026 年,前沿实验室已学会大幅折扣黑盒——尤其是那些不关心自身数据质量的供应商的黑盒。建立了完整 QC 基础设施的少数供应商(主要是研究密集的团队)在价格上享有 3-5x 的溢价,溢价建立在持续信任和可靠的质量优先合作基础之上。 如果一家数据公司到 2027 年仍无法提供跨至少三个模型的 pass@k 分布、针对人类金标的 verifier FP/FN 率、针对命名评估套件的污染检查以及探针模型的前沿形状诊断,他们卖的不是 Type 1 数据——而是带有 Type 1 营销的 Type 2 数据。实验室将在一个采购周期内发现这一点,多份传闻表明已经有多家被识别出。