---
title: "OneReason：当推荐系统学会思考"
created: 2026-06-09
updated: 2026-06-09
type: article
source_url: "https://mp.weixin.qq.com/s/-qZ_Z8RMm67tv0ciFbpSSA"
ingested: 2026-06-09
sha256: "onereason_kuaishou_2026"
review_value: 9
review_confidence: 9
---

> 来源：机器之心
> 作者：快手技术团队 / OneRec 团队
> 技术报告：https://arxiv.org/abs/2606.06260
> HuggingFace：https://huggingface.co/OpenOneRec/OneReason-0.8B-pretrain

## 摘要

快手技术团队推出 **OneReason**——把 Reasoning 真正注入推荐基模的系统性尝试。核心改进包括：(1) 578B 数据的三阶段预训练，分层递进地完成推荐与通识知识的语义对齐；(2) 设计基于归纳/溯因/演绎的推荐 CoT 格式；(3) 通过"先专后合"的强化学习链路平衡多业务推荐能力。

**业务收益：** 快手本地生活广告 10 天 A/B 实验：+10.33% 曝光、+8.23% 广告收入、ROI > 5，对应年化数亿元商业增量。

**技术突破：** 首次在推荐基础模型上让 thinking 模式稳定超过 non-thinking 模式（Pass@4 领先 +13.45%），解决了之前 OneRec-Think 、OpenOneRec 反而受损的反常识现象。

## 一、背景：为什么推荐需要 Reasoning？

推荐系统的过去十年，本质是把 "用户-物料" 的统计共现挖到极致。但纯把"统计"做大已在多个方向上撞到硬墙：冷启用户、长尾物料推不准、跨域迁移做不好。

基础大模型领域主旋律从 Scaling → Reasoning → Agentic。OpenAI o1、DeepSeek R1 已把"先思考再回答"做成共识范式。这条主轴并非 LLM 专属——推荐系统下一阶段同样需要 Reasoning 来释放新的增长曲线。

### Reasoning 在推荐里的三个本质问题

1. **推荐天然是"溯因"，不是模式匹配**：用户行为是"果"，潜在意图是"因"——从喧杂、跨域、跨时段的行为序列里反推某个具体物料"为什么适合此刻"，本质是溯因推理。

2. **推荐从"黑盒打分"变成"可解释、可干预的认知过程"**：会推理的基模把过去藏在权重里的决策过程显式写在 CoT 里，让业务策略迭代节奏从周级降到天级。

3. **Reasoning 是 Agentic RecSys 的前置地基**：规划、工具调用、长程对话推荐都需要一个懂物料语义、有推理能力的基模在底层托住。

## 二、推荐 CoT 应该怎么做？

### 推荐推理 vs 数学推理

数学推理通常是演绎式的：从明确前提出发，推导出确定结论。

推荐推理更接近溯因推理：用户兴趣并不直接可见，模型需要从长期、喧杂且不断变化的行为序列中反推出潜在兴趣。一条有效的推荐 CoT 不是简单地"展开更多思考"，而是要完成高质量的信息压缩：从噪声行为中提取有效信号，从历史行为中假设用户兴趣，再从兴趣假设中收敛到推荐决策。

### 推荐基模需要的四层能力

- **R0 感知：** 看懂每个 itemic pattern，解释每个物料含义
- **R1 推导：** 学习 Item2Item 关系，通过常识知识理解关联原因
- **R2 演进：** 学习用户序列长期演化过程，找到影响未来决策的原因
- **R3 推荐：** 根据兴趣点推理，推荐高质量、高相关物料，有跨域推荐能力

## 三、预训练设计

### 四层递进式数据架构

总规模 578B token（相比 OpenOneRec 160B 大幅提升）：

1. **Token 粒度：** 单 Token 释义、前缀语义预测、部分到整体的层级推理
2. **Item 粒度：** 容量感知的粗粒化处理、多视角 Item QA
3. **Relational 粒度：** 用户看后搜、协同过滤、跨用户共窗等多源信号
4. **User 粒度：** 分域分组、全时序穿插两种范式

### 三阶段分步训练

- **预热（110B）：** 冻结主干，仅优化新增 item 嵌入
- **全参训练（449B）：** 全参数开放，四层数据联合深度对齐
- **长序列优化（19B）：** 上下文窗口放开至 32K

**效果：** R0 物品锚定涨幅160.5%，R3 跨域推荐指标提升65.1%。

## 四、SFT 设计

### R3 推荐 CoT 三模块

将推荐思维链显式拆解为三个连贯模块：

1. **Persona Abstraction (用户抽象)：** 从稀疏、包含噪声的行为里抽象出20类可解释的偏好先验
2. **Interest Expansion (兴趣发散)：** 将用户近期行为转化为一组候选兴趣假设（消融实验显示 n=1,3,5 时最佳）
3. **Transition Inference (兴趣推断)：** 对候选方向进行综合评估（证据强度、行为近期性、画像匹配、目标域兼容性）

### CoT 质量评估五维度

- **Safety：** 排查目标 Item ID、商品标题等特征泄露
- **Consistency：** 校验推理结论与系统预设目标对齐
- **Logic：** 辨别真正归纳 vs 流水账式"复读"
- **Factuality：** 确保严格基于真实用户行为序列
- **Informativeness：** 评估是否提供具体有洞察的解释视角

## 五、RL 设计

### 针对推荐任务的 GRPO 改进

1. **两阶段轨迹生成：** 先生成推理轨迹，再基于同一轨迹扩展多个候选推荐
2. **Set-wise 奖励：** 从 point-wise 抬升到 set-wise/list-wise，基于候选组整体评估覆盖度、多样性
3. **优化稳定策略：** 针对推理文本 token 和推荐 itemic token 采用不同的裁剪范围

### 先专后合（Specialize-then-Unify）

首先在每个领域内独立进行强化学习，学习领域特有的推荐知识；随后再将多个领域专家模型的能力融合到统一模型中。探索了两条技术路线：

- **RFT (Rejection Sampling Fine-tuning)：** 通过学习专家生成的高质量成功轨迹进行知识整合
- **MOPD (Multi-Teacher On-Policy Distillation)：** 从策略层面持续吸收多个领域专家的能力

## 六、实验结果

### 主实验

| 对比组 | 指标 |
|---------|------|
| 传统 ID 架构 (SASRec、HSTU) | 受大量新物品冷启剂约 |
| 通用大模型 (Qwen3、DeepSeek-V3.2、GPT-5.4) | 缺少用户协同行为特征，跨域推荐效果落后 |
| 物品 Token 架构 (TIGER、LC-全系列) | OneReason 领先 >60% (短视频域) |

**OneReason-RFT 综合全维度领跑，thinking 范式在推荐领域全面超越 non-thinking 范式。**

### 关键发现

1. **推理增益依托 RL 专项优化，原生 SFT 无法激活思考能力**：仅经过 SFT 微调的模型，thinking 表现反而劣于 non-thinking
2. **CoT 能力内化现象：** 引入 CoT 推理监督不仅能提升 think 能力，还能间接反哺 non-think 的推荐性能
3. **RFT 后全域 Delta LL 转正：** 证明经过成功轨迹筛选与强化学习后，CoT 才真正具备辅助推荐决策的能力

## 七、业务部署

### Fast-Slow Thinking 架构

- **近线 OneReason (慢思考)：** 负责慢思考召回
- **实时 OneReason for OneRec (快思考)：** 赋能 OneRec 负责在线快思考服务
- **两者结果进入排序模型融合**

### 业务收益

| 部署方式 | 曝光 | 收入 |
|----------|------|------|
| OneReason (Slow) | +0.940% | +4.528% |
| OneReason for OneRec (Fast) | +6.831% | +4.636% |
| Combined (Slow+Fast) | **+10.332%** | **+8.234%** |

**对应年化数亿元人民币级别的商业收入增量，ROI > 5。**

## 八、总结与展望

### 三个曾经悬而未决的问题

a. **推荐基模能不能"会推理"？** 答：能，但必须先做好 itemic token 感知对齐，同时设计合理的溯因类型 CoT 格式

b. **推荐 CoT 应该长什么样？** 答："用户抽象 -> 兴趣发散 -> 兴趣转移和推导"形式

c. **推理基模能不能上线工业场景？** 答：完全可以，通过 Fast-Slow Thinking 架构结合近线与实时部署，ROI 可观

### 下一步

打造 **Agentic Recommender Harness**，让推荐基模具备规划与工具调用能力，逐步驱动推荐系统向 Agentic 架构演进。