--- hide: - toc --- # DCE 产品路线图 !!! note "声明" 本路线图反映当前规划方向,具体功能和时间节点可能调整。以版本发布说明为准。
H1 2026 H2 2026 2027+
AI
  • 推理运行时集成(vLLM/SGLang),适配国产 GPU
  • 模型资产中心 MVP(用户/项目/仓库管理、模型与数据集上下载、CLI)
  • 国产模型仓库预集成(Qwen/GLM/Baichuan)
  • 推理加速:多级 KV Cache、拓扑感知调度(Kueue/Gang)
  • 训推混部基础支持
  • AI 故障诊断(多源日志关联 + 根因分析)
  • 预测性告警(时序异常检测、资源耗尽预警)
  • DCE AI Runtime GA
  • 统一推理 API(兼容 OpenAI API/Llama Stack)
  • 微调/LoRA 支持
  • 多模态推理(图文、音视频)
  • 模型资产中心完善(远程复制/同步、安全扫描、预热加速、多语言)
  • MatrixHub 提交 CNCF1
  • AI Agent 基础设施 Beta(沙箱、记忆与上下文、语义路由)
  • 故障自愈(集成训练/推理框架自动恢复)
  • 告警降噪(相关告警自动归并)
  • 大模型安全(模型访问控制、推理内容安全策略)
  • 分布式推理
  • 训推混部优化
  • AI 全栈自动化(AutoML + Agent)
算力
  • 沐曦 GPU 适配启动(网络拓扑、Lustre GDS)
  • 昇腾 910C NPU 调度(CANN 驱动)
  • 海光 DCU GPU 调度
  • AI 高性能存储(Lustre 文件系统)
  • Kueue/Gang Scheduling/LWS/DRA 集成
  • HAMi 商业版集成2
  • containerd 增强(容器磁盘限制)
  • 国产 GPU 全面 GA(沐曦/昇腾/海光/壁仞)
  • 沐曦超节点发布
  • 超节点方案(8/16 卡高密度,GPU 共享调度)
  • GPU Operator 混合调度(CPU + GPU + NPU),利用率 → 80%+
  • 分布式存储方案(云场景)
  • DPU/NPU 统一调度
  • 算力网络,多集群算力联邦
  • InfiniBand 拓扑识别(通过 UFM)
平台
  • 一键安装(Web UI + CLI,自动环境检测)
  • Preflight 预检框架(插件化,检测网络/存储/权限)
  • Gateway API 迁移启动(Ingress 退休)
  • 日志聚合能力增强
  • 算力云运营平台管理后台
  • 算力基线梳理与计费模式优化
  • Ghippo 管理后台界面化
  • CSP 用户双因子认证(2FA)
  • 滚动升级(零停机,金丝雀 + 回滚)
  • Gateway API 迁移完成
  • 部署时间 → 15 分钟(从 ~2 小时)
  • 算力云运营平台完善(租户隔离、库存管理、计费互转、GPU 升降级)
  • 裸金属部署工具(集群装机、自动化测试、单机排障)
  • 轻量化内核,边缘原生
  • 自适应平台(自动调优 + 自愈)
生态
  • Kueue/LWS/Gang Scheduling 等 K8s AI/ML SIG 贡献
  • Spiderpool DRA 实现、DRANet
  • Spiderpool 支持沐曦 GPU
  • GAIE/NIXL/LMCache 等推理优化项目参与
  • MatrixHub Sandbox
  • unifabric 1.0(网络健康检查、容灾标记、KV Cache 同步监控)
  • metal-deployer 工程交付
  • GAIE/NIXL 社区席位
  • unifabric Sandbox、InfiniBand 支持
  • 低代码编排,自然语言运维
**[1]** MatrixHub — DaoCloud 开源的模型资产中心,对标 Harbor 之于容器镜像的定位。
**[2]** HAMi — 异构 AI 算力虚拟化中间件,支持 GPU 共享与隔离。
--- ## 战略方向 DCE 已具备 [AI Lab](../baize/intro/index.md)(训练)和[大模型服务平台](../hydra/intro/index.md)(模型管理与推理)。2026 年在此基础上集中做两件事: 1. **AI 深化** — 补全企业推理场景,适配国产 GPU,打通训练到推理 2. **平台深化** — 运维体验、部署效率、算力管理,把已有能力做扎实 --- ## DCE 5.0 现有能力 各模块可独立升级,不需要整体停机。 | 模块 | 能力 | 文档 | |------|------|------| | **容器管理** | 多集群管理、集群生命周期、弹性伸缩、Helm 应用 | [:material-book-open-outline:](../kpanda/intro/index.md) | | **应用工作台** | CI/CD 流水线、GitOps、灰度发布 | [:material-book-open-outline:](../amamba/intro/index.md) | | **多云编排** | 跨云资源调度与应用编排 | [:material-book-open-outline:](../kairship/intro/index.md) | | **微服务引擎** | Spring Cloud/Dubbo 管理 | [:material-book-open-outline:](../skoala/intro/index.md) | | **服务网格** | 基于 Istio 的流量治理与可观测 | [:material-book-open-outline:](../mspider/intro/index.md) | | **云原生网络** | 多 CNI、网络策略、负载均衡 | [:material-book-open-outline:](../network/intro/index.md) | | **云原生存储** | CSI 标准、HwameiStor、多存储后端 | [:material-book-open-outline:](../storage/index.md) | | **可观测性** | 指标/日志/链路追踪、多维告警 | [:material-book-open-outline:](../insight/intro/index.md) | | **中间件** | Redis/MySQL/Kafka/ES/PG 生命周期管理 | [:material-book-open-outline:](../middleware/index.md) | | **镜像仓库** | 多实例管理,兼容 Harbor | [:material-book-open-outline:](../kangaroo/intro/index.md) | | **全局管理** | 身份认证、多租户、权限、审计 | [:material-book-open-outline:](../ghippo/intro/index.md) | | **虚拟机** | KubeVirt,VM 管理、快照、热迁移 | [:material-book-open-outline:](../virtnest/intro/index.md) | | **AI Lab** | 训练推理、PyTorch/TensorFlow | [:material-book-open-outline:](../baize/intro/index.md) | | **大模型服务** | 大模型部署运维,vLLM/SGLang | [:material-book-open-outline:](../hydra/intro/index.md) | | **云边协同** | 边缘集群与节点管理 | [:material-book-open-outline:](../kant/intro/index.md) | --- ## 运营保障 | 类别 | 内容 | |------|------| | **高可用** | 管理面多副本 + etcd 集群,单节点故障自动恢复 | | **数据备份** | etcd 快照、应用备份(Velero)、跨集群灾备 | | **离线运行** | 完全离线部署和运行,不依赖外部网络 | | **升级回滚** | 所有版本升级支持一键回滚 | | **安全合规** | 等保三级、审计日志、镜像扫描、模型访问控制 | | **身份认证** | LDAP/OIDC/企业统一身份平台 | | **技术支持** | [文档站](https://docs.daocloud.io) + 培训认证 + TAM + 7×24 应急响应 | --- ## 生态与合作 **开源贡献:** Kubernetes 核心仓库贡献中国第一、全球前三。参与 Istio/Cilium/[Spiderpool](https://github.com/spidernet-io/spiderpool)/[HwameiStor](https://hwameistor.io) 等 CNCF 项目。Kueue/LWS/Gang Scheduling 等 K8s AI/ML SIG 活跃贡献者。 | 领域 | 合作伙伴 | |------|---------| | 芯片与算力 | 华为昇腾、海光、壁仞、沐曦、NVIDIA | | 操作系统 | 麒麟、统信 UOS | | 数据库与中间件 | 达梦、OceanBase、TiDB | **行业落地:** 金融 · 制造 · 能源 · 电信 · 政务,累计服务 500+ 企业客户。