---
source_url: "https://mp.weixin.qq.com/s/-G6f4vHZpbyazSI8EXMWKg"
title: "推荐系统进入大模型时刻：昇腾 NPU 如何支撑千亿级生成式推荐落地"
author: "郭威 / 华为基础大模型部主任工程师 / InfoQ"
published: 2026-05-19
created: 2026-05-19
type: article
platform: wechat
tags:
  - Recommendation-System
  - FuXi
  - Scaling-Law
  - HSTU
  - Performance-Law
  - Ascend-NPU
  - Huawei
  - Generative-Recommender
  - LLM
  - Distributed-Training
sha256: "191f1d5b87d5b7e2a4de81da55be4673e01e4aa0d5b5eb832f09076aa59bf9b9"
rating: 8.5/9.0
review_value: 8.5
review_confidence: 9.0
review_result: strong
---
# 推荐系统进入"大模型时刻"：昇腾 NPU 如何支撑千亿级生成式推荐落地
> 来源：InfoQ，作者郭威，华为基础大模型部主任工程师
> 基于 2025 AICon 全球人工智能开发与应用大会·北京站 演讲
> 演讲主题：《基于昇腾 NPU 的生成式推荐 Scaling Law 落地实践》
## 一、背景：推荐系统技术演进
### 2024 年之前的深度学习推荐技术
两大路径：
1. **特征交叉建模**：DeepFM、DCN 等，自动挖掘或人工构造高阶交叉特征
2. **行为序列建模**：早期聚焦短序列（DIN），2021-2022 年长序列建模成为热点（两阶段检索方式）
### 生成式推荐系统阶段
同样分两条路径：
1. **端到端模型 Scaling Law**：以探索模型规模上限为核心，单一大模型替代召回、粗排、精排、重排多环节架构
2. **大语言模型重构技术底座**：2025 年下半年起逐步获得业界重视，搭建用户行为与大模型的对齐表征空间
### 2025 年三大显著趋势
- **模型结构持续创新**：HSTU 序列规模化 → RankMixer 特征交互规模化 → OneTrans/Meta GEM 融合规模化
- **训练范式革新**：从单阶段建模 → 多阶段联合训练（华为 UniGRF、快手 OneRec、腾讯 GPR）
- **训练方式**：从"从零训练" → 基于大语言模型增量式训练（谷歌 PLUM、快手 OneRec-Think）
## 二、模型架构探索：FuXi-α、β 系列
### 2.1 背景发现
Meta 2024 年 2 月发布 HSTU 后，推荐系统领域迎来属于自己的 "ChatGPT 时刻"——推荐系统同样具备 Scaling Law。
实验发现：SASRec 和 GPT 在推荐系统场景中不具备规模化效应；Llama 和 HSTU 则能够呈现该效应。
**原因**：残差连接方式与归一化策略起着关键作用。Llama 和 HSTU 将归一化置于注意力机制之前，使特征分布更加稳定与均匀，从而更好支持大规模模型训练。
### 2.2 FuXi-Alpha 架构
**核心设计理念：特征交互增强。**
引入自适应多通道显式特征交互增强机制：将语义、时间、位置信息构建三个独立通道分别开展特征交叉操作，后续进行拼接处理，可更完整地保留多维特征的表达能力。
设计并引入多阶段前馈网络（FFN）：
- 第一阶段：多通道信息的深度融合
- 第二阶段：隐式特征的交叉建模
**优势**：
- 确保特征交叉建模的充分性
- FFN 核心操作主要基于矩阵乘法，具有极高的硬件计算亲和性，可有效提升模型的 MFU
**实验结果**：
- 在 2 层及 8 层配置下，Fuxi Alpha 均展现出优于 Llama 与 HSTU 的性能表现
- 已成功验证至 32 层
- 歌曲播放次数提升 4.67%，播放时长增长 5.1%
**Attention Map 可视化分析**：
- 语义通道的最大注意力权重仅为 **0.07**
- 时间通道：**0.15**
- 位置通道：**0.25**
- 时间通道呈显著全局性高权重分布特征
- 结论：在推荐场景中，时间与位置信息比语义信息更重要
**通道消融实验结论**：
- 移除语义通道：不仅未导致性能下降，反而带来了轻微的效果提升
- 移除位置通道：整体性能基本保持稳定
- 移除时间通道：会导致模型效果显著下降
- 仅保留单一通道：模型精度出现明显退化
### 2.3 FuXi-Beta 架构
核心优化：去除语义通道 + 幂函数替代 RAB 分桶
**去除语义通道的原因**：
- 语义通道具有 O(n²) 的计算复杂度
- 当序列长度扩展至千级甚至万级时，计算开销迅速放大
- 注意力权重仅 0.07，贡献度低
**幂函数替代 RAB（Relative Attention Bias）分桶**：
- 传统 RAB 实现涉及大量非连续内存访问与索引操作，内存访问开销在推理耗时中占比接近 **40%**
- 幂函数在刻画相对位置偏置时与原始分桶分布最为接近，尤其在序列后段的长尾区域，拟合效果更稳定
- 实验结果：在推荐任务评测中，基于幂函数的建模方式整体效果与原始分桶函数持平，甚至在部分指标上呈轻微提升
**实验结果**：Fuxi Beta 在大规模工业数据集及公开数据集上均实现了精度与效率的最佳平衡。
## 三、训练范式探索：多阶段统一建模
### 3.1 问题背景
传统推荐系统多阶段流水线（召回、粗排、精排）存在两个核心问题：
1. 前序阶段的输出质量直接决定后续环节的性能上限
2. 各阶段模型结构与优化目标不统一，在候选集传递过程中不可避免产生信息损失
### 3.2 统一建模的挑战
- **模型结构的本质差异**：召回阶段通常采用双塔架构（DSSM），精排阶段多采用单塔结构
- **优化目标不一致**：召回环节多以 BPR 等 Pairwise Loss 为主，精排环节则普遍采用 Pointwise Loss
### 3.3 生成式推荐统一建模思路
核心思路：将原本异构的召回与精排环节统一建模为 **"Next Item Prediction"** 任务。
**关键障碍——推荐系统中的"单轮训练（One-Epoch）"现象**：
- 精排任务：完成一个训练轮次后模型精度即达到峰值，随后进入过拟合状态
- 召回任务：精度随训练轮次增加而稳步提升，即使经过数百甚至上千次迭代仍保持上升趋势
- 原因：损失函数的不一致性（InfoNCE vs Log Loss）
### 3.4 解决方案
**第一步**：从样本空间的维度对召回与精排阶段进行统一对齐。
- 将召回阶段评分较高但精排评分较低的样本作为困难负样本反馈给召回任务
- 将精排评分高但用户实际未交互的样本作为正样本引入下一轮召回训练
**第二步**：引入梯度引导的自适应权重机制。
- 实时监控训练过程中召回与精排损失的梯度动态
- 自动调整各任务在总损失中的权重比例
- 通过多任务正则化路径实现联合训练稳定收敛
**实验结果**：引入数据一致性策略与损失正则化后，模型性能随训练轮次增加呈稳步上升趋势，在召回与精排各项指标上均显著优于传统单阶段独立模型。
## 四、超参数寻优 & Performance Law
### 4.1 传统 Scaling Law 在推荐场景的局限性
- **信息量不均**：推荐系统中的用户行为序列在信息量上存在显著差异，单纯套用 token 建模逻辑会导致规模化效应失效
- **词表规模量级差距**：语言模型词表通常在十万量级，推荐系统涉及词表达到千万甚至亿级
- **Loss 与效果不线性**：极低的损失值往往可能源于过拟合，并不一定能转化为实际业务效果的提升
### 4.2 Performance Law
**引入"真实熵"（Real-world Entropy）**：
- 利用 Lempel-Ziv (LZ) 压缩算法估算真实熵
- 通过统计序列中非重复子序列的数量来表征信息量
- 熵值越高，代表数据的信息密度与质量越高
**公式重构**：引入综合考量数据质量的有效数据量参数 D'，将真实熵作为核心变量整合进规模化预测模型。
**引入衰减项**：解决模型参数过度增加时触发过拟合导致性能下滑的问题。
**实验结果**：
- 未引入真实熵及衰减项时，语言模型规模化定律对推荐系统的拟合系数仅为 **0.18**
- 整合后，拟合系数大幅提升至 **0.92**
- R² 从 **0.8776 提升至 0.9881**
**意义**：首次实现了对模型损失与实际效果的高精度拟合，诞生了推荐系统领域首个能够准确衡量模型效果与参数关系的工具——**Performance Law**。
### 4.3 硬件仿真结合
目前 Performance Law 仍主要侧重于精度预测，忽略了计算效率维度。当参数维度从 32 调整为 28 时（无法充分利用 NPU 并行计算能力），推理时延可能成倍增加。下一阶段研究方向：将算子粒度的硬件仿真与精度建模相结合。
## 五、训推系统优化
### 5.1 训练侧
- **高效融合算子**：Hstu、Fuxi、RAB（已开源）
- **稀疏与稠密混合并行策略**：PB 级稀疏 Embedding 与百亿级稠密参数并存
- **Jagged 计算架构**：针对序列长度分布极不均匀（峰值 1000，均值仅 200）的特征，从特征处理到模型计算的全链路优化，消除填充冗余
### 5.2 推理侧
- **P/D 分离部署架构**：针对海量用户产生的 PB 级缓存，采取差异化计算策略
  - 高活跃及长序列用户：启用缓存机制
  - 短序列用户：采用实时计算方案
- **混合精度技术**：有效降低推理过程中的计算成本与响应时延
- **动态 Batching 策略**：自适应调整批大小，化解长尾分布带来的负载失衡
### 5.3 性能数据
基于昇腾 910B 构建的 128 卡集群：
- 训练时模型算力利用率（MFU）已超过 **40%**
- 线性加速比优于 **0.9**
## 六、展望：超节点架构
**超节点架构核心优势**：
- 拥有超大容量的共享内存池与卓越的 AI 算力
- 超高带宽与低时延，彻底消除跨机多卡分布式架构的性能瓶颈
- 混合超级点充沛的 AI 算力，能够有效支撑高并发与低时延的推理需求
## 七、总结
推荐系统技术演进规律：
- **逻辑回归时代**：复杂的特征工程 + 简单的模型结构
- **深度学习时代**：模型结构创新减少对人工特征的依赖（DeepFM、DCN），2017-2018 百花齐放
- **2021 年前后**：模型结构边际效益显著递减，回归精细化特征工程（ETA、CAN）
- **生成式推荐时代**：以"强算力、强模型"为核心的单向路径
**核心观点**：生成推荐范式告别了过去"特征工程"与"模型结构"互为拉锯、螺旋式上升的模式，转而走向收敛。未来趋势全面聚焦于"强算力"与"强模型"的深度融合。