--- title: "OneReason:当推荐系统学会思考" created: 2026-06-09 updated: 2026-06-09 type: article source_url: "https://mp.weixin.qq.com/s/-qZ_Z8RMm67tv0ciFbpSSA" ingested: 2026-06-09 sha256: "onereason_kuaishou_2026" review_value: 9 review_confidence: 9 --- > 来源:机器之心 > 作者:快手技术团队 / OneRec 团队 > 技术报告:https://arxiv.org/abs/2606.06260 > HuggingFace:https://huggingface.co/OpenOneRec/OneReason-0.8B-pretrain ## 摘要 快手技术团队推出 **OneReason**——把 Reasoning 真正注入推荐基模的系统性尝试。核心改进包括:(1) 578B 数据的三阶段预训练,分层递进地完成推荐与通识知识的语义对齐;(2) 设计基于归纳/溯因/演绎的推荐 CoT 格式;(3) 通过"先专后合"的强化学习链路平衡多业务推荐能力。 **业务收益:** 快手本地生活广告 10 天 A/B 实验:+10.33% 曝光、+8.23% 广告收入、ROI > 5,对应年化数亿元商业增量。 **技术突破:** 首次在推荐基础模型上让 thinking 模式稳定超过 non-thinking 模式(Pass@4 领先 +13.45%),解决了之前 OneRec-Think 、OpenOneRec 反而受损的反常识现象。 ## 一、背景:为什么推荐需要 Reasoning? 推荐系统的过去十年,本质是把 "用户-物料" 的统计共现挖到极致。但纯把"统计"做大已在多个方向上撞到硬墙:冷启用户、长尾物料推不准、跨域迁移做不好。 基础大模型领域主旋律从 Scaling → Reasoning → Agentic。OpenAI o1、DeepSeek R1 已把"先思考再回答"做成共识范式。这条主轴并非 LLM 专属——推荐系统下一阶段同样需要 Reasoning 来释放新的增长曲线。 ### Reasoning 在推荐里的三个本质问题 1. **推荐天然是"溯因",不是模式匹配**:用户行为是"果",潜在意图是"因"——从喧杂、跨域、跨时段的行为序列里反推某个具体物料"为什么适合此刻",本质是溯因推理。 2. **推荐从"黑盒打分"变成"可解释、可干预的认知过程"**:会推理的基模把过去藏在权重里的决策过程显式写在 CoT 里,让业务策略迭代节奏从周级降到天级。 3. **Reasoning 是 Agentic RecSys 的前置地基**:规划、工具调用、长程对话推荐都需要一个懂物料语义、有推理能力的基模在底层托住。 ## 二、推荐 CoT 应该怎么做? ### 推荐推理 vs 数学推理 数学推理通常是演绎式的:从明确前提出发,推导出确定结论。 推荐推理更接近溯因推理:用户兴趣并不直接可见,模型需要从长期、喧杂且不断变化的行为序列中反推出潜在兴趣。一条有效的推荐 CoT 不是简单地"展开更多思考",而是要完成高质量的信息压缩:从噪声行为中提取有效信号,从历史行为中假设用户兴趣,再从兴趣假设中收敛到推荐决策。 ### 推荐基模需要的四层能力 - **R0 感知:** 看懂每个 itemic pattern,解释每个物料含义 - **R1 推导:** 学习 Item2Item 关系,通过常识知识理解关联原因 - **R2 演进:** 学习用户序列长期演化过程,找到影响未来决策的原因 - **R3 推荐:** 根据兴趣点推理,推荐高质量、高相关物料,有跨域推荐能力 ## 三、预训练设计 ### 四层递进式数据架构 总规模 578B token(相比 OpenOneRec 160B 大幅提升): 1. **Token 粒度:** 单 Token 释义、前缀语义预测、部分到整体的层级推理 2. **Item 粒度:** 容量感知的粗粒化处理、多视角 Item QA 3. **Relational 粒度:** 用户看后搜、协同过滤、跨用户共窗等多源信号 4. **User 粒度:** 分域分组、全时序穿插两种范式 ### 三阶段分步训练 - **预热(110B):** 冻结主干,仅优化新增 item 嵌入 - **全参训练(449B):** 全参数开放,四层数据联合深度对齐 - **长序列优化(19B):** 上下文窗口放开至 32K **效果:** R0 物品锚定涨幅160.5%,R3 跨域推荐指标提升65.1%。 ## 四、SFT 设计 ### R3 推荐 CoT 三模块 将推荐思维链显式拆解为三个连贯模块: 1. **Persona Abstraction (用户抽象):** 从稀疏、包含噪声的行为里抽象出20类可解释的偏好先验 2. **Interest Expansion (兴趣发散):** 将用户近期行为转化为一组候选兴趣假设(消融实验显示 n=1,3,5 时最佳) 3. **Transition Inference (兴趣推断):** 对候选方向进行综合评估(证据强度、行为近期性、画像匹配、目标域兼容性) ### CoT 质量评估五维度 - **Safety:** 排查目标 Item ID、商品标题等特征泄露 - **Consistency:** 校验推理结论与系统预设目标对齐 - **Logic:** 辨别真正归纳 vs 流水账式"复读" - **Factuality:** 确保严格基于真实用户行为序列 - **Informativeness:** 评估是否提供具体有洞察的解释视角 ## 五、RL 设计 ### 针对推荐任务的 GRPO 改进 1. **两阶段轨迹生成:** 先生成推理轨迹,再基于同一轨迹扩展多个候选推荐 2. **Set-wise 奖励:** 从 point-wise 抬升到 set-wise/list-wise,基于候选组整体评估覆盖度、多样性 3. **优化稳定策略:** 针对推理文本 token 和推荐 itemic token 采用不同的裁剪范围 ### 先专后合(Specialize-then-Unify) 首先在每个领域内独立进行强化学习,学习领域特有的推荐知识;随后再将多个领域专家模型的能力融合到统一模型中。探索了两条技术路线: - **RFT (Rejection Sampling Fine-tuning):** 通过学习专家生成的高质量成功轨迹进行知识整合 - **MOPD (Multi-Teacher On-Policy Distillation):** 从策略层面持续吸收多个领域专家的能力 ## 六、实验结果 ### 主实验 | 对比组 | 指标 | |---------|------| | 传统 ID 架构 (SASRec、HSTU) | 受大量新物品冷启剂约 | | 通用大模型 (Qwen3、DeepSeek-V3.2、GPT-5.4) | 缺少用户协同行为特征,跨域推荐效果落后 | | 物品 Token 架构 (TIGER、LC-全系列) | OneReason 领先 >60% (短视频域) | **OneReason-RFT 综合全维度领跑,thinking 范式在推荐领域全面超越 non-thinking 范式。** ### 关键发现 1. **推理增益依托 RL 专项优化,原生 SFT 无法激活思考能力**:仅经过 SFT 微调的模型,thinking 表现反而劣于 non-thinking 2. **CoT 能力内化现象:** 引入 CoT 推理监督不仅能提升 think 能力,还能间接反哺 non-think 的推荐性能 3. **RFT 后全域 Delta LL 转正:** 证明经过成功轨迹筛选与强化学习后,CoT 才真正具备辅助推荐决策的能力 ## 七、业务部署 ### Fast-Slow Thinking 架构 - **近线 OneReason (慢思考):** 负责慢思考召回 - **实时 OneReason for OneRec (快思考):** 赋能 OneRec 负责在线快思考服务 - **两者结果进入排序模型融合** ### 业务收益 | 部署方式 | 曝光 | 收入 | |----------|------|------| | OneReason (Slow) | +0.940% | +4.528% | | OneReason for OneRec (Fast) | +6.831% | +4.636% | | Combined (Slow+Fast) | **+10.332%** | **+8.234%** | **对应年化数亿元人民币级别的商业收入增量,ROI > 5。** ## 八、总结与展望 ### 三个曾经悬而未决的问题 a. **推荐基模能不能"会推理"?** 答:能,但必须先做好 itemic token 感知对齐,同时设计合理的溯因类型 CoT 格式 b. **推荐 CoT 应该长什么样?** 答:"用户抽象 -> 兴趣发散 -> 兴趣转移和推导"形式 c. **推理基模能不能上线工业场景?** 答:完全可以,通过 Fast-Slow Thinking 架构结合近线与实时部署,ROI 可观 ### 下一步 打造 **Agentic Recommender Harness**,让推荐基模具备规划与工具调用能力,逐步驱动推荐系统向 Agentic 架构演进。