| AI |
- 推理运行时集成(vLLM/SGLang),适配国产 GPU
- 模型资产中心 MVP(用户/项目/仓库管理、模型与数据集上下载、CLI)
- 国产模型仓库预集成(Qwen/GLM/Baichuan)
- 推理加速:多级 KV Cache、拓扑感知调度(Kueue/Gang)
- 训推混部基础支持
- AI 故障诊断(多源日志关联 + 根因分析)
- 预测性告警(时序异常检测、资源耗尽预警)
|
- DCE AI Runtime GA
- 统一推理 API(兼容 OpenAI API/Llama Stack)
- 微调/LoRA 支持
- 多模态推理(图文、音视频)
- 模型资产中心完善(远程复制/同步、安全扫描、预热加速、多语言)
- MatrixHub 提交 CNCF1
- AI Agent 基础设施 Beta(沙箱、记忆与上下文、语义路由)
- 故障自愈(集成训练/推理框架自动恢复)
- 告警降噪(相关告警自动归并)
- 大模型安全(模型访问控制、推理内容安全策略)
|
- 分布式推理
- 训推混部优化
- AI 全栈自动化(AutoML + Agent)
|
| 算力 |
- 沐曦 GPU 适配启动(网络拓扑、Lustre GDS)
- 昇腾 910C NPU 调度(CANN 驱动)
- 海光 DCU GPU 调度
- AI 高性能存储(Lustre 文件系统)
- Kueue/Gang Scheduling/LWS/DRA 集成
- HAMi 商业版集成2
- containerd 增强(容器磁盘限制)
|
- 国产 GPU 全面 GA(沐曦/昇腾/海光/壁仞)
- 沐曦超节点发布
- 超节点方案(8/16 卡高密度,GPU 共享调度)
- GPU Operator 混合调度(CPU + GPU + NPU),利用率 → 80%+
- 分布式存储方案(云场景)
|
- DPU/NPU 统一调度
- 算力网络,多集群算力联邦
- InfiniBand 拓扑识别(通过 UFM)
|
| 平台 |
- 一键安装(Web UI + CLI,自动环境检测)
- Preflight 预检框架(插件化,检测网络/存储/权限)
- Gateway API 迁移启动(Ingress 退休)
- 日志聚合能力增强
- 算力云运营平台管理后台
- 算力基线梳理与计费模式优化
- Ghippo 管理后台界面化
- CSP 用户双因子认证(2FA)
|
- 滚动升级(零停机,金丝雀 + 回滚)
- Gateway API 迁移完成
- 部署时间 → 15 分钟(从 ~2 小时)
- 算力云运营平台完善(租户隔离、库存管理、计费互转、GPU 升降级)
- 裸金属部署工具(集群装机、自动化测试、单机排障)
|
- 轻量化内核,边缘原生
- 自适应平台(自动调优 + 自愈)
|
| 生态 |
- Kueue/LWS/Gang Scheduling 等 K8s AI/ML SIG 贡献
- Spiderpool DRA 实现、DRANet
- Spiderpool 支持沐曦 GPU
- GAIE/NIXL/LMCache 等推理优化项目参与
|
- MatrixHub Sandbox
- unifabric 1.0(网络健康检查、容灾标记、KV Cache 同步监控)
- metal-deployer 工程交付
- GAIE/NIXL 社区席位
|
- unifabric Sandbox、InfiniBand 支持
- 低代码编排,自然语言运维
|