# AI Lab Release Notes 本页列出 AI Lab 各版本的 Release Notes,便于您了解各版本的演进路径和特性变化。 !!! note 标记为 Beta 的功能更新,在使用时请多注意,如遇问题请及时反馈。 ## 2026-01-31 ### v0.24.1 - **新增** 推理服务支持自定义推理框架 - **新增** Notebook 支持自定义启动命令 - **优化** 升级 vllm 至 v0.12.0 - **优化** 支持 kubeflow trainer v2,同时兼容 v1,训练任务可正常运行 - **修复** Notebook 运行时必须要 root 权限的问题 - **修复** 数据空间更新后,secretRef 字段丢失的问题 ## 2025-12-31 ### v0.23.1 - **优化** 创建训练任务资源利用率优先和性能优先调度策略添加说明信息 - **修复** 修复概览界面中集群下拉列表不正确的问题 - **修复** 修复 Notebook 安全漏洞 CVE-2025-47914 ## 2025-11-30 ### v0.23.0 - **新增** 分布式训练任务支持选择资源利用率优先或性能优先调度策略配置 - **新增** 训练任务支持镜像拉取策略配置 - **修复** 推理服务健康检查和就绪检查配置不符合界面操作的问题 ## 2025-10-31 ### v0.22.0 - **新增** 训练任务支持 checkpoint 文件滚动删除功能 - **新增** 在监控面板中支持显示 GPU 相关指标的 GPU ID - **新增** 训练任务支持暂停功能 - **新增** 镜像保存的关联日志查看能力 - **优化** 升级 kueue 至 v0.14.1 - **修复** 修复单机训练任务异常添加了 TAS 任务特性的问题 ## 2025-09-30 ### v0.21.1 - **新增** 推理服务支持自定义镜像 - **新增** 训练任务支持容错预检查,识别任务异常并辅助定位问题,保障训练稳定性 - **优化** 训练任务支持资源池容忍时间设置 - **优化** 资源池 GPU 利用率及显存情况展示 ## 2025-08-31 ### v0.20.2 - **新增** Notebook 支持开启 Docker in Docker 配置,以便在 Notebook 内执行 Docker 命令。 - **新增** 训练任务支持容忍配置 - **优化** 队列配额交互,更好地支持多型号 GPU - **优化** GPU 监控面板链接修改为 insight 空间下 GPU 面板链接 - **优化** 资源池节点拓扑提示信息 - **优化** 升级 vLLM 至 v0.10.0 版 - **优化** 升级 Kubesnapshot 至 v0.2.8 版,解决基于 kind 安装报错问题 - **优化** 移除 Bitnami 相关镜像,利用 release 仓库中对应镜像替代 - **修复** 修复 TensorBoard 由于存储制度而不能展示数据的问题 ## 2025-07-31 ### v0.19.1 - **新增** 训练任务支持拓扑感知调度 - **新增** 训练任务队列支持查看 GPU 型号信息 - **新增** 资源池支持根据 GPU 型号筛选节点 - **新增** 推理服务支持就绪检查和健康检查 - **新增** 推理服务支持共享内存配置 - **新增** HTTP 及 S3 类型数据空间支持预热模式配置 - **优化** 用户自定义镜像交互体验 - **优化** 升级 Kueue 版本至 v0.12.4 - **优化** 移除不必要的 RBAC 权限 - **修复** CVE-2025-22868 安全漏洞 ## 2025-06-30 ### v0.18.1 - **新增** 资源池管理,可基于集群节点配置资源池 - **新增** 数据空间预热可选清除现有文件或保留现有文件的接口支持 - **优化** 产品逻辑中基本概念数据集为数据空间 - **优化** 升级 vLLM 镜像至 0.9.1 版 - **修复** 安全漏洞 2024-24790 ## 2025-05-31 ### v0.17.3 - **优化** 升级 vLLM 框架镜像至 0.8.5-post1 版 - **优化** HTTP 及 S3 类型数据集预热时会清除存储中现有文件的逻辑,当前预热数据时不会删除任何文件 - **修复** 更新数据集类型异常的相关问题 - **修复** baize-agent 升级时出现异常 Webhook 逻辑的问题 - **修复** 界面创建推理服务报错的问题 - **修复** Notebook 中 baizectl 工具的资源权限问题 - **修复** 界面创建推理服务报错的问题 ## 2025-04-30 ### v0.16.1 - **新增** 推理服务支持 vLLM 前置命令和后置命令运行参数配置 - **新增** vLLM 推理框架支持禁用 vLLM 命令,以满足分布式推理需求 - **新增** CRD 支持自定义数据集预热任务的 CPU/内存资源、训练镜像保存的超时时间和推理服务的启动超时时间 - **优化** 裁剪了 Notebook 镜像大小 - **优化** 推理服务,环境变量增加配置示例 - **优化** 创建数据集时,PVC 类型新增 '创建pvc' 调整链接 - **优化** 更新推理服务,vLLM 推理框架支持修改运行配置 - **修复** 升级 kube-snapshot 至 v0.7.3 时,解决保存镜像时可能出现异常的问题 - **修复** git 方式数据集的 SSH 模式拉取数据的问题 - **修复** CVE-2025-22872、CVE-2025-30204 安全漏洞 ## 2025-03-31 ### v0.15.1 - **新增** 训练推理任务选择多 GPU 卡时可对共享内存进行配置 - **新增** vLLM 框架添加 API Key 的能力 - **优化** 训练任务镜像默认选择 Notebook 镜像交互体验 - **优化** 创建数据集前的环境检测,避免集群中没有默认 storageClassName 导致数据集无法运行的情况 - **优化** 为避免使用风险,移除 mamba 的 defaults 的 channel - **优化** 升级 vLLM 框架镜像至 0.7.3 版 - **修复** 训练任务 RDMA 标签未按预期添加的问题 - **修复** 训练任务无基础配置时导致崩溃的问题 - **修复** CVE-2025-22870,CVE-2024-45337 安全漏洞 - **修复** 由于 Notebook 中依赖版本过新导致标注实例无法正常运行的问题 - **修复** 训练任务 TAS 开启的问题(该功能所依赖的 Kueue 版本尚未正式发布,如需体验该功能请咨询产品研发) - **修复** 在数据库为 kingbase 以及 postgresql 时产品界面功能异常的问题 - **修复** Triton 框架更新 API Key 功能异常的问题 ## 2025-02-28 ### v0.14.1 - **新增** 训练任务支持启用 RDMA 配置。 - **新增** 数据集支持添加 HF_ENDPOINT 环境变量。 - **新增** 监控面板添加时间区间选择功能。 - **优化** 升级 vLLM 镜像至 0.7.1 版(支持 DeepSeek)。 - **优化** 升级 Kueue 至 0.10.1 版。 - **修复** 监控面板图例颜色不符合预期的问题。 - **修复** 运维管理概览页面中 GPU 资源图表显示错误问题。 ## 2025-01-31 ### v0.13.0 - **优化** 默认 vllm 镜像升级至 0.6.6 以提高训练和推理任务的兼容性。 - **修复** 训练任务配置断点续训但是任务详情中仍为未启用状态的问题。 - **修复** 训练任务监控 GPU 使用率始终是 no data 的问题。 - **修复** 不存在默认资源池的情况下界面操作无法进行的问题。 ## 2024-12-31 ### v0.12.0 - **新增** 支持队列自定义资源池。 - **新增** 沐曦 GPU 监控看板,丰富 GPU 观测指标。 - **修复** 漏洞 CVE-2024-45337, CVE-2024-45338。 - **修复** 无法正常创建数据集问题。 ## 2024-11-30 ### v0.11.0 - **新增** `Notebook`、`数据集`、`训练任务`以及 `推理服务` 状态详情展示,提高异常处理效率。 - **新增** 运维控制台内,队列管理可在队列详情页面查看所有使用了队列的资源。 - **优化** 优化数据集更新交互。 ## 2024-10-31 ### v0.10.0 #### 功能 - **新增** `训练任务` 支持在配置 vGPU 资源时指定使用的显卡类型。 - **新增** `数据集` 支持 Huggingface 数据源,可下载其海量模型和数据集。 - **新增** `数据集` 支持 Modelscope 数据源,可下载其海量模型和数据集。 - **新增** 支持 `数据集` 的 **跨命名空间** 引用能力。 - **新增** `推理服务` 支持在配置 vGPU 资源时指定使用的卡类型。 - **新增** `运维控制台` GPU 管理模块,支持查看卡级别的监控和指标信息。 - **新增** 适配 `沐曦` GPU 卡。 #### 优化 - **优化** 数据集更新界面,提供更多配置更新能力。 - **优化** 调整了 Notebook 的入口位置,提升访问便捷性。 ## 2024-09-30 ### v0.9.0 !!! note 产品模块名称从 `智能算力` 升级为 `AI Lab`。 - **新增** 全新数据管理子模块 `数据标注` ,可管理主流数据类型的数据标注能力。 - **新增** 全新模型管理子模块 `模型列表` ,可快速创建模型,支持模型多版本管理。 - **新增** `数据集` 创建时可指定使用 PVC 存储空间大小。 - **新增** 支持 `训练任务` 一键重启。 - **新增** `baize-notebook` 基础镜像升级到 v0.9.0。 - **优化** 支持 集群异常时,全局提醒同时保证数据可用。 ## 2024-08-31 ### v0.8.0 - **新增** [Beta] 支持 `Notebook` 运行中时,手工保存为镜像(依赖镜像仓库模块)。 - **新增** [Beta] 支持 `Notebook` 关闭时自动保存为镜像(依赖镜像仓库模块)。 - **新增** 支持 `Notebook` 镜像通过表单选择镜像仓库内的私有镜像。 - **新增** 支持 `Notebook` 配置 **数据输入**、**数据输出**,可直接关联数据集。 - **新增** 支持 `Notebook` 配置以 `Root` 身份启动。 - **新增** 支持 `训练任务` 配置 **数据输入**、**数据输出**,可直接关联数据集。 - **新增** [Beta] 支持 `训练任务` 支持配置 断点续训,自动检测任务故障后自动修复。 - **新增** 支持 `训练任务` 镜像通过表单选择镜像仓库内的私有镜像。 - **新增** 支持 `训练任务` 详情增加展示任务参数信息。 - **新增** `环境管理` 可查询预热进度,并支持快速调试入口。 - **新增** 支持 `推理任务` 详情增加服务调用监控。 - **新增** `baize-notebook` 基础镜像升级到 v0.8.0。 ## 2024-07-31 ### v0.7.0 - **新增** 支持 `数据集` 创建数据集后可查询预热进度,并支持快速调试入口。 - **新增** 支持 `训练任务` 创建 `MxNet` 单机和分布式任务。 - **新增** 支持 `训练任务` 创建 `MPI` 分布式任务。 - **新增** 支持 `训练任务` 支持默认镜像,统一使用基础镜像。 - **新增** 支持 `训练任务` 启动命令可直接配置启动脚本。 - **新增** 支持 `训练任务` 运行参数指定工作目录位置。 - **新增** 支持 `推理任务` 详情展示 `API` 调用示例文档。 - **优化** `环境管理` 列表展示环境有的包管理器及 `Python` 版本。 ## 2024-07-10 ### v0.6.1 - **修复** 创建推理服务时,推理框架选择使用 `Triton` ,托管引擎缺少 `vLLM` 选项。 ## 2024-06-30 ### v0.6.0 #### 功能 - **新增** 支持 创建 `Code` 类型的 `Notebook`,提供原生 `VS Code` 开发体验。 - **新增** 支持 快速复制 `Notebook`。 - **新增** 支持 在选择工作集群时,展示集群的状态信息,当失联或离线时不可选择。 - **新增** 支持 创建推理服务时,使用 `vLLM` 作为推理引擎,暴露原生 `vLLM` 能力。 - **新增** 支持 创建推理服务时,`vLLM` 支持配置 `Lora` 推理参数。 - **优化** 创建 `Notebook` 时,队列优先级默认值调整为 `高`。 #### 修复 - **修复** `Tensorboard` 最小资源限制,避免因资源不足导致 `Tensorboard` 启动失败。 - **修复** 优化任务状态中文描述,避免因状态描述不清晰导致的误解。 ## 2024-05-30 ### v0.5.0 #### 功能 - **新增** 支持 `baizectl` 创建任务时同时增加 `Tensorboard` 分析看板。 - **新增** 支持 `Job` 绑定 `环境管理` 中创建的自定义环境。 - **新增** 优化 `环境管理` 中进行自定义环境配置更新、优化 `Python` 版本选择器等。 - **新增** 支持 `推理服务` 详情,查看模型运行时的资源监控看板。 - **新增** 支持 `推理服务` 绑定 `环境管理` 中创建的自定义环境。 #### 修复 - **修复** 环境管理中少数情况下 `Python` 版本提示权限问题情况。 - **修复** 推理服务在异常时不支持停止的问题。 ## 2024-04-30 ### v0.4.0 #### 功能 - **新增** `Notebook` 支持本地 SSH 访问,适配多种开发工具,如 `Pycharm`、`VS Code` 等。 - **新增** 升级 `Notebook` 镜像,支持内置 `CLI` 工具 `baizectl`,命令行提交和管理任务。 - **新增** `Notebook` 增加亲和性调度策略配置。 - **新增** 分布式训练任务,可界面化配置 `SHM size`。 - **新增** 训练任务一键重启功能。 - **新增** 模型训练任务支持自定义指定集群调度器。 - **新增** 训练任务分析工具 `Tensorboard` 支持,可在 `Notebook` 与训练任务中一键启动。 - **新增** 队列配额编辑时,提示当前工作空间的共享资源配置。 - **新增** 升级适配 Kueue 版本 `v0.6.2`。 #### 修复 - **修复** `Notebook` `CRD` 偶现配置同步异常问题。 - **修复** `Notebook` 亲和性配置参数查询接口未返回。 ## 2024-04-01 ### v0.3.0 - **新增** 发布 `Notebook` 模块,支持 `Jupyter Notebook` 等开发工具。 - **新增** 发布任务中心模块,支持多种主流开发框架 `Pytorch`、`Tensorflow`、`Paddle` 任务训练。 - **新增** 发布模型推理服务模块,支持快速部署 `Model Serving`,支持任意模型算法与大语言模型。 - **新增** 发布数据管理模块,支持接入 `S3`、`NFS`、`HTTP` 及 `Git` 等主流数据源,并支持自动数据预热。