# 容器管理 Release Notes 本页列出容器管理的 Release Notes,便于您了解各版本的演进路径和特性变化。 *[kpanda]: DaoCloud 容器管理的内部开发代号 ## 2025-05-30 ### v0.40 - **新增** 支持 Helm 任务资源配额分别配置 limit 和 request - **新增** 支持集群专属 resolv.conf - **新增** 工作负载支持配置/显示 nodeSelector - **优化** Helm 安装自动重试时间较长 - **优化** Dce5.0 界面数据过时,不自动刷新 - **修复** 安装 helm 应用时被 baize 的 kueue 的 webhook 拦截问题 - **修复** 在使用了 gpu 的训练任务完成时,kpanda 节点不可以切换 gpu 模式问题 - **修复** 使用安装器部署环境时,安装 GPU Operator-v24.6.0+1 失败问题 - **修复** 使用 wsadmin / wsedit 权限的用户无法进行 namespace 的配置容器安全组策略操作问题 - **修复** Helm 应用安装失败时无法更新问题 - **修复** Helm 应用安装中或者失败时 Helm 仓库信息丢失问题 - **修复** Helm 应用卸载后状态显示延迟问题 - **修复** cloudshell 权限泄露问题 - **修复** kpanda-apiserver 内存异常问题 - **修复** 集群运维中 GPU 类型可选问题 - **修复** cloudtty 上传中文文件后,下载该文件丢失问题 - **修复** 使用 Cluster Admin 权限的用户成功给集群绑定 workspace 问题 - **修复** 使用 Namespace Admin 权限的用户登入时,容器管理页面和主页面进入权限管理的访问权限不一致问题 - **修复** 创建集群中节点检查检测出时区不相同时,修改完成后节点检查无响应问题 ## 2025-03-31 ### v0.38 - **新增** 支持通过 arm 包安装容器管理,可在下载站直接下载 - **修复** 修复命名空间的资源配额 CPU/内存的请求大于限制时没有提示 并且可以设置成功的问题 - **修复** 修复 kpanda-shell:v0.0.13 dns 解析问题 - **修复** 修复审计日志没有记录用户修改节点污点行为问题 ## 2025-02-28 ### v0.37 - **修复** 修复 metax-operator 离线安装之后,各个服务的 image 拉取报错问题 - **修复** 修复离线 helm 安装 metax-operator 失败问题 - **修复** 修复 PatchCustomResource api 更新资源失败问题 - **修复** 修复外接 mysql 密码中有特殊字符会导致安装器无法正常安装问题 ## 2025-01-31 ### v0.36 - **新增** 封装 addon 沐曦 metax-exporter:用于在集群环境中收集沐曦 GPU 设备指标数据,安装后在可观测模块可进行图形化展示 - **新增** 封装 addon 沐曦 metax-extensions:提供 gpu‑device 和 gpu‑label 两个组件,为容器使用沐曦 GPU 提供必需的资源注册及分配能力 - **新增** 封装 addon 沐曦 metax-operator:提供全部组件,除了 metax-extensions 能力外,进一步云原生化,减轻集群中软件运行负担,降低运维难度 - **修复** 修复 PVC 列表制作快照 button 显示问题 ## 2024-12-31 ### v0.35 - **优化** 除 cluster admin 之外,其他角色禁止访问 网络设置 模块 - **优化** 优化在没有空闲 Worker 的情况下,cloudshell 创建就绪耗时较长 - **修复** 修复 kpanda 相关 Pod 在生产环境部署没有设置 resource limits 问题 - **修复** 修复 cloudtty 控制台 history 信息泄露问题 - **修复** 修复使用密钥方式创建集群后,对应的密钥会丢失导致再次接入节点获取不到私钥信息问题 - **修复** 修复 Job 超时执行失败,但是 helmrelease 状态未更新问题 ## 2024-11-30 ### v0.34.0 - **优化** etcd 备份 ListClusterSummary 集群列表页 - **修复** 控制台关闭后,cloudshell 在 VirtualService 中添加的路由配置没有清理的问题 - **修复** 集群创建失败,控制台一直重连,无法正常查看日志的问题 - **修复** cloudshell 资源到期没有及时清理的问题 - **修复** 备份恢复模块资源标签过滤为 `and` 并不使用选择器时备份失败的问题 ## 2024-10-30 ### v0.33.0 #### 新增 - **新增** 支持 寒武纪 GPU 卡的纳管和调度 - **新增** 实现 kubeconfig secret 资源删除的保护机制 #### 优化 - **优化** 升级 hami、gpu-operator 的 addon版本到 v2.4.1、v24.6.0 - **优化** kubeconfig secret 资源删除的保护机制 - **优化** helm push 插件集成到安装器离线包 - **优化** egress 端口分配,Cluster 的 egress 端口保持固定 #### 修复 - **修复** 节点详情页的容器组页面根据GPU类型筛选不生效的问题 - **修复** metrics-server 插件卸载残留的问题 - **修复** 创建集群时自定义 yum_repos 重试安装时自定义的内容没有了的问题 - **修复** 当 worker 失联时删除 node 节点会导致 kpanda-controller-manager 出现 panic 的问题 ## 2024-09-30 ### v0.32.0 #### 新增 - **新增** 支持 [Volcano Binpack](../user-guide/gpu/volcano/volcano_binpack.md) 和[优先级抢占策略](../user-guide/gpu/volcano/volcano_priority.md) - **新增** 支持沐曦 GPU 卡的使用 - **新增** GPU 监控面板中增加 GPU 利用率指标 - **新增** 命名空间添加配额和使用量显示 - **新增** 支持平台下发的 kubeconfig 可以永久有效 - **新增** 自定义角色支持工作空间与命名空间之间的权限映射 - **新增** 通过快照创建 PVC,支持用户自己选择 StorageClass #### 优化 - **优化** GPU 整卡模式下可用 GPU 算力提示文字 - **优化** 命名空间绑定工作空间绑定后页面未显示绑定的工作空间,需要手动刷新页面问题 - **优化** 兼容 volumeMode 为 block 的 PV - **优化** Addon 合并镜像架构后未清理中间镜像 #### 修复 - **修复** vGPU 设置算力 100,但仪表盘 Pod 的算力使用率显示为 0% 的问题 - **修复** GPU Operator 未开启 Driver 选项导致不显示 GPU 模式切换功能问题 - **修复** 仪表盘 GPU 显示个数超过实际值问题 - **修复** MIG Mixed 模式下,节点详情页的 GPU 使用率数据显示有误 - **修复** 在 1000+ 集群中,修复大规模场景 Binding Syncer 内存占用过大的问题 - **修复** 在 1000+ 集群中,修复给每一个集群绑定工作空间时 Redis 的连接数突增且长时间不会关闭的问题 - **修复** 在 1000+ 集群中,修复大规模场景中出现的工作空间共享资源权限错乱的问题 - **修复** 集群绑定工作空间,没有出现审计日志的问题 - **修复** 安全管理中的 合规性扫描 的集群出现虚拟机集群的问题 - **修复** 卸载 Helm 应用,偶发出现 2 个卸载 Job 的问题 - **修复** 安装器 v0.19.0 升级至 v0.20.0 安装 metrics-server 失败的问题 - **修复** 创建集群时点击检测再取消,检测任务未取消,后续创建时点击检测都提示在检测中的问题 - **修复** 容器管理 -> 节点管理中,全局服务集群无法接入和移除节点的问题 - **修复** 卸载集群,一直在删除中,实际已卸载失败的问题 - **修复** 解除集群时 `kpanda-system` 下 finalizer 资源未被删除,导致命名空间 `kpanda-system` 无法删除的问题 - **修复** DCE 5.0 环境中已经做了 kubean 向下兼容包,低版本集群应该支持卸载,但是并没有删除成功的问题 - **修复** 备份恢复触发时间显示有误的问题 - **修复** 集群巡检配置,定时任务小时数,触发时间与配置时间不符的问题 ## 2024-08-30 ### v0.31.0 #### 新增 - **新增** 异构 GPU 卡,支持沐曦 GPU 卡 - **新增** 异构 GPU 卡,支持通过 gpu-operator 安装 redhat9.2 的驱动镜像 - **新增** 支持集群接入证书的有效期检查和提醒 - **新增** Helm 模板支持在界面上查看 Helm 内容及生成的编排文件 #### 优化 - **优化** 增加切换节点 GPU 卡模式的审计日志 - **优化** NPU 面板布局 - **优化** GPU 资源界面文案 - **优化** gpu-operator 卸载之后,节点上的 GPU label 过了三分钟左右才不展示问题优化 - **优化** 提供 GPU 指标告警操作文档 - **优化** 单机多卡场景中一张 GPU 掉卡,在工作负载调度的时候 Pod 全处于“UnexpectedAdminissonError”状态问题 - **优化** 对于 kubean 创建的工作集群,采用 ServiceAccount Token 的认证方式访问子集群 - **优化** 移除 cluster_controller 中的 LeaseController - **优化** kpanda-controller-manager 增加一些与业务相关的监控指标 - **优化** repo_controller 增加对 Repo 的同步/下载的业务监控指标 - **优化** cluster_setting_controller 增加对 插件 的同步监控指标 - **优化** 移除 GPUSchedulerController 中的 informerFactory - **优化** multi-controller 中的 Controller 支持指定开启或者关闭 - **优化** cluster_status_controller 逻辑引入 successThreshold 和 failureThreshold - **优化** 为 Controller 引入能够控制并发的参数 - **优化** 统一日志输出级别 - **优化** 控制器 重新入队时间 - **优化** binding-syner 中的 Controller 能够指定开启或者关闭 - **优化** 自定义资源 CRD 的默认版本 - **优化** 支持在服务列表通过服务名称、访问方式、访问端口搜索 - **优化** Kpanda 安装集群时对节点时间一致性的体验 - **优化** Helm 生命周期操作禁止并发 - **优化** Helm 安装增加 K8s 编排确认 - **优化** 工作负载回滚支持展示版本详细信息 #### 修复 - **修复** GPU driver Pod 对应进程的 GPU 显存使用和应用里查看的信息显示不一致的问题 - **修复** vGPU 模式的情况下,关机重启 vm 后,变成整卡模式的问题 - **修复** npu 开启虚拟化之后节点上的 lable 丢失的问题 - **修复** GPU Pod 仪表盘 Pod GPU 算力使用率显示有误的问题 - **修复** GPU Pod 仪表盘中的 GPU Pod 显存使用量/使用率显示有误的问题 - **修复** 使用 Ascend 卡创建工作负载,监控指标没有数据展示的问题 - **修复** vGPU 修改 deviceSplitCount 未生效的问题 - **修复** vGPU 模式下,显存如果填写 5000,更新时页面不能回显的问题 - **修复** 集群设置菜单下的 Addon 插件 GPU 类型下拉框中未展示 mig 相关信息的问题 - **修复** 有 GPU 的节点重启或者驱动 driverpod 升级 vgpu-device-plugin 会持续 crash 的问题 - **修复** GPU 配额中 GPU 显存单位和内存配额单位不一致的问题 - **修复** 更新 Go dependency 失败,OTel 依赖冲突的问题 - **修复** cloudshell CRD 超时页面终端仍然提示可以重连的问题 - **修复** clusteradmin 权限的用户(无全局服务集群的权限),查看 **最近操作** -> **集群操作** 页面的立即前往, 可以直接进入到全局服务集群的详情页的问题 - **修复** 使用 Namespace Admin 权限的用户查看工作负载详情页容器配置的基本信息,存在接口报 403 的问题 - **修复** NS 的 Quota 展示出来了,但是编辑界面的数据为空的问题 - **修复** 容器组详情页的镜像地址和工作负载详情页显示的镜像地址不一致的问题 - **修复** 更新 insight-ui 无状态负载,进入到 **容器配置** -> **健康检查** 页面,查看端口信息未正常展示的问题 - **修复** 节点 kubeproxy 版本显示异常的问题 - **修复** DCE5-0.19 接入节点或者创建集群时,对 Ubuntu 22.04 识别系统代号出错的问题 - **修复** Helm 创建应用状态处于未知状态时点击应用详情报错的问题 - **修复** 工作集群创建 Helm 应用时前端显示应用的初始状态为失败状态的问题 - **修复** 更新 Helm 应用时就绪等待配置未记录创建时的状态的问题 - **修复** 开启就绪等待接入子集群安装 Helm 应用失败时 Helm 应用状态始终处于安装中的问题 **已知问题** - **修复** 容器管理模块的前后端版本需保持一致,否则 vGPU 模式的情况下,关机重启 VM 后会变成整卡模式的问题 ## 2024-07-31 ### v0.30.0 #### 新增 - **新增** 支持通过 Addon 安装 Koordinator 插件,并完成在线和离线混部 - **新增** UI 生成 kubeconfig 时支持 7 天或者自定义日期选项 - **新增** Helm 模板支持在界面上查看 Helm 内容及生成的编排文件 - **新增** gpu-opeartor 离线化默认操作系统支持 CentOS 7、Ubuntu 22.04、Ubuntu 20.04 - **新增** 以文档方式支持华为昇腾 NPU 虚拟化 - **新增** NPU 监控面板支持中英文切换 - **新增** gpu-operator 支持开启 RDMA #### 优化 - **优化** Ingress 列表增加域名字段 - **优化** 支持全局服务集群的 “集群厂商” 名称(Daocloud Kubean) - **优化** Kpanda 性能 - **优化** kpanda `GetClusterAdminKubeConfig` 接口生成的证书只有一年有效期时过期无法正常使用的问题 - **优化** 支持集群接入证书的有效期检查和提醒 - **优化** Helm charts 安装时获取安装配置的接口调用 - **优化** addon-pack charts 中镜像支持通过 -- platform 参数指定拉取镜像架构 - **优化** Helm controller 解耦 cluster service 和 rbac service 等 - **优化** 切换 GPU 模式体验,添加了切换状态 - **优化** nvidia-vgpu 和 gpu-operator 安装时,引导用户如何切换 GPU 模式 - **优化** 当 MIG single 模式被识别成整卡且用户使用时存在误解的问题 #### 修复 - **修复** 全局服务集群默认未安装 metrics-server,导致各个模块创建的 HPA 无效的问题 - **修复** Kpanda 数据库连接的问题 - **修复** NS Admin 角色 PV/PVC 权限的问题 - **修复** 修改集群的基础配置后,egress 端口被刷新,导致数据流中断,controller-manager 工作异常的问题 - **修复** 在工作负载详情的访问方式页面执行重启工作负载操作,service 接口报 404 的问题 - **修复** addon 没有 cro-operator 对应的离线包的问题 - **修复** Ubuntu 内核自动更新升级时可能导致的系统在不经意间被重启的问题 - **修复** 安装使用 MIG 模式,偶尔在节点上显示整卡模式的问题 - **修复** GPU 虚拟化后,内存超配功能不可用的问题 - **修复** 调整 GPU 调度策略偶发调度策略切换失败的问题 ## 2024-06-30 ### v0.29.0 #### 新增 - **新增** 接入集群的 K8s 发行版支持 k3s - **新增** 支持 GPU 卡的状态监控,可通过 XDI 指标在可观测平台查看 GPU 卡状态 - **新增** 资源调度:支持 GPU 卡调度 Spread(集群维度) - **新增** 资源调度:支持 GPU 卡调度 Binpack(集群维度) - **新增** 资源调度:支持 GPU 节点调度 Spread(集群维度) - **新增** 资源调度:支持 GPU 节点调度 Spread(集群维度) - **新增** 资源调度:支持 GPU 节点调度 Spread(工作负载维度) - **新增** 资源调度:支持 GPU 节点调度 Binpack(工作负载维度) - **新增** 资源调度:支持 GPU 卡调度 Spread(工作负载维度) - **新增** 资源调度:支持 GPU 卡调度 Binpack(工作负载维度) #### 优化 - **优化** 下载站 addon 包支持多离线包自动化 - **优化** Helm 安装更加云原生化,使 controller 负责管理执行 Helm 操作的 job - **优化** 节点详情页查看 GPU 资源分配情况的快捷链接,跳转到的监控页面未集成 GPU 配额问题 - **优化** gpu-operator 支持在同样的操作系统,不同的内核版本上安装驱动 - **优化** 支持在集群维度 GPU 卡、节点级别的 binpack/spread 产品化支持级别的 binpack/spread - **优化** configmap / secret 的编辑器支持左右移动 - **优化** 更新模块时,选择版本支持筛选 - **优化** workspace admin 权限映射到容器管理中的 cluster admin 权限时页面无显示问题 - **优化** 容器日志界面支持显示 1000 行 #### 修复 - **修复** 被删除的用户依然显示在集群权限用户列表中的问题 - **修复** cloudtty Pod 无法使用带证书的 kubeconfig 访问子集群的问题 - **修复** 多架构融合,存在 addon 包里没有对应的镜像,导致服务不能正常运行的问题 - **修复** Deployment 实例列表显示了非当前 Deployment 的 Pod 的问题 - **修复** GPU node 仪表盘中的显存分配率和节点上的不一致的问题 - **修复** GPU 节点的标签显示有误的问题 - **修复** LoadBalancer 类型 service,做更新操作,修改 lb IP 地址后,查看 service 详情,会概率出现 nodeport 访问方式展示的问题 - **修复** 创建工作负载 mig 模式配置多类型 GPU 规格的问题 - **修复** MIG Mixed 模式下,Deployment 配置多个不同类型 GPU 规格配置,配置与实际不符的问题 参阅 [v0.29.0 及以上版本升级注意事项](offline-upgrade.md#_8)。 ## 2024-05-31 ### v0.28.0 #### 新增 - **新增** 支持 ws admin+cluster admin 在 kpanda 绑定集群/命名空间到工作空间 - **新增** 制作存储卷快照支持指定卷快照类 - **新增** 创建 workload 存储–临时路径增加存储容量修改 - **新增** 负载监控增加 NPU 相关指标 - **新增** 集群解除接入时,增加是否有拓展边缘单元实例的校验 - **新增** kpanda 的接入集群增加可选是否使用 egress - **新增** addon 支持多离线包(standard 离线包 / GPU 离线包) - **新增** GPU 监控面板支持算力使用率指标 - **新增** workload 支持 NPU 相关指标 - **新增** Kpanda metrics 支持 Nvlink 指标 #### 优化 - **优化** 解除接入管理集群及子集群时增加相关展示 - **优化** service 更新时,loadBalancerIP 不可用情况下的提示 - **优化** binding-syncer 支持 lease 选举 - **优化** kpanda 整卡模式的算力单位描述统一 - **优化** GPU 监控指标支持中英文切换 - **优化** vGPU 安装建议默认关闭 servicemonitor 提示 #### 修复 - **修复** 创建了多云实例-命名空间,但在容器管理查询时报错问题 - **修复** job 列表点击重启按钮,提示报错且会删除 job 任务的问题 - **修复** 接入 kind 集群,kube-system 和 default 命名空间始终同步不到 ghippo 问题 - **修复** 工作空间绑定集群资源未过滤多云集群的问题 - **修复** 用户的 workspace admin 权限同步到 kpanda 中 cluster admin 权限时页面无显示的问题 - **修复** kpanda GetClusterAdminKubeConfig 接口生成的证书只有一年有效期,过期无法正常使用问题 - **修复** admin 用户限制了命名空间资源配置后,用 NS admin 账号登录,显示资源不限制问题 - **修复** ubuntu2004 在线环境,接入工作节点失败问题 - **修复** 通过安装器从 14.1 升级到 16.1 版本,创建集群报错并且无法选择 kube version 问题 - **修复** 创建集群失败后 回显问题 - **修复** kocral 不支持 集群资源 namespaces 的备份恢复问题 - **修复** 定时巡检关闭操作不生效问题 - **修复** insight 组件安装完毕仍有 Pod 存在问题时,前端返回信息有误问题 - **修复** vGPU 模式下,创建 Deployment 指定 GPU 型号时,GPU 列表缺失问题 - **修复** GPU Pod 监控仪表盘,有几处的展示信息不统一 问题 ## 2024-04-30 ### v0.27.0 #### 新增 - **新增** 支持通过配置 CRD 的方式自定义 NS admin/editor/viewer 权限 - **新增** 支持通过 ssh 的方式连接 cloudtty - **新增** 支持控制台进入运行中的容器 - **新增** 支持通过 Helm 应用 scend-mindxdl 安装昇腾组件 Device Plugin 和 NpuExporter,并通过 insight 查看昇腾 GPU 卡的相关指标 #### 优化 - **优化** 增加在 kpanda 界面 ns 绑定/解绑 workspace 的审计日志 - **优化** 支持在本地容器内运行 make 命令 - **优化** ns quota 配置提示 - **优化** Helm 应用并发更新 - **优化** GPU 监控面板增加更多监控指标 #### 修复 - **修复** 无法从 Deployment 的页面找到所挂载的 PVC 卷问题 - **修复** etcd 备份策略,无法选择 s3 region 问题 - **修复** kpanda openapi proxies 访问路线支持 token 权限认证 - **修复** liststorageclasses 接口返回结果不分页 - **修复** 版本发布流水线 cd_to_prod_site 任务执行失败,需要更新 CI/CD 脚本问题 - **修复** 多次上传文件到目标容器会出现上传失败的情况 - **修复** kairship 的 e2e 在线环境, kpanda-binding-syncer 长时间运行后出现负载升高集群不稳定 - **修复** 接入节点,运行时为 docker 时,docker_rh_repo 表单为空问题 - **修复** 创建集群失败之后,重试时的回显问题 - **修复** 管理集群解除接入后,子集群仍然显示被该集群纳管问题 - **修复** RedHat8-OS 创建集群,使用密钥认证节点检查失败 - **修复** 创建集群时勾选 insight-agent 安装,fluent-bit 无法正常启动问题 - **修复** 创建集群失败之后重试,由于 kubelet 有软链接,kubespray 执行 reset.yml 时失败 - **修复** insight server 升级时找不到 Helm repo 的问题 - **修复** 创建 metallb 时开启就绪检查,但是编辑进来开关显示为关闭问题 - **修复** charts-syncer 同步 chart 时,relocateContainerImages 设置为 false 会导致 同步出来的 chart 包 中 镜像地址有问题 - **修复** sts+pvc 恢复备份成功后,修改 PVC 的信息再次恢复备份,无法恢复修改 PVC 的数据问题 - **修复** 创建备份策略未开启备份数据卷,但是备份资源中包含 PV,导致备份失败问题 - **修复** vGPU 模式下 GPU 可用资源一直返回 0 问题 - **修复** mig mixed 模式下节点详情页的 GPU 类型展示了 MIG Mixed MIG Single 问题 - **修复** ascend 监控仪表盘 ai 处理器数目一直展示的总值 - **修复** 节点上的标签和节点详情页的 GPU 类型展示不一致 - **修复** GPU Pod Dashboard PCIE 数据错误问题 ## 2024-03-28 ### v0.26.1 #### 新增 - **新增** cloudtty 提供 ssh 代理的功能 - **新增** 支持接入 master 节点 - **新增** 应用备份计划支持通过 YAML 创建 - **新增** 应用备份可以通过资源类型来选择备份对象 - **新增** 集群巡检模板支持删除功能 - **新增** 支持通过 npu-exportor 部署 npu 监控面板 - **新增** 创建工作负载时,支持显示剩余可用的 GPU 资源 - **新增** 创建工作负载时,支持设置任务优先级 - **新增** vGPU 支持算力超配 - **新增** 提供 vGPU 场景化视频 - **新增** 创建集群时,支持让用户设置时区 #### 优化 - **优化** 中标麒麟 v7u6 版本 产品化适配 - **优化** 资源使用率百分比显示 - **优化** 离线环境外置模式,优化创建集群时 yum repo 的信息需要手动选择的问题 - **优化** 对 Helm charts 上传的产品化引导并输出文档 - **优化** 当 GPU 开关打开的位置,引导用户部署 gpu-operator、nvidia vGPU - **优化** GPU 切换逻辑 - **优化** 节点切换卡校验是否被分配 - **优化** vGPU 模式超配支持在节点详情看到超配后的资源 #### 修复 - **修复** 创建集群的 kube-vip 异常问题 - **修复** 创建集群时,如果选择 “为新建集群启用内核调优”,创建失败问题 - **修复** Helm 安装失败后重新安装失败 - **修复** 重新接入机器的 Helm 应用更新无法获取 value - **修复** 安装 submariner 离线环境安装时,镜像地址默认渲染错误 - **修复** 通过 Kpanda 升级出现镜像地址重复拼接问题 - **修复** 备份恢复后,恢复始终处于处理中 - **修复** 集群巡检开启定时巡检后,没有在到达巡检频率后启动巡检 - **修复** 集群移除节点后,在仪表盘筛选中还是显示了 - **修复** 停掉带 GPU 的应用后,查看节点详情页的 GPU 显存分配率数据未更新,GPU 卡分配都已更新 (开源问题) - **修复** vGPU 模式下 Pod 的算力和显存监控指标有歧义 - **修复** MIG single 模式,分配数量不准确 - **修复** GPU 数量 MIG 模式下,偶尔出现不准确的情况 - **修复** 集群中多个节点存在 GPU,查看仪表盘不筛选节点的情况下,无法分辨到底是哪个节点上的信息 - **修复** 创建工作负载使用天数 vGPU,提示不清晰无法正确使用 - **修复** GPU 模式切换状态显示问题 ## 2024-01-31 ### v0.25.0 #### 新增 - **新增** 支持批量删除/停止多个工作负载 - **新增** 安装 集群的时候,支持让用户设置时区 - **新增** 安装 Velero 时支持一键开启 Velero 插件 - **新增** 创建集群时支持选择是否开启 kube-vip 的控制面负载均衡能力 - **新增** 支持导入异构 Addon 包 - **新增** 支持在指定型号的 GPU 卡上创建工作负载 #### 优化 - **优化** GPU 节点切换功能可用性增强,切换时间降低到 2s 内 - **优化** GPU 模式切换逻辑更加的鲁邦 - **优化** gpu-operator Ubuntu 环境安装失败,文档增强 - **优化** GPU Dashboard 深度 review 优化(涵盖 vGPU、MIG、GPU 整卡) - **优化** 节点纬度 GPU 统计相关的功能使用自定义指标进行优化 - **优化** 大规模集群详情页 -> 创建 PVC -> 数据卷 PV 下拉访问时延超过 100ms -> 400m - **优化** 大规模集群详情页 -> 网络策略 -> 引用工作负载下拉访问延迟超过 100ms -> 300 - **优化** 大规模集群详情页 -> 路由创建 -> 目标服务下拉访问延迟超过 100ms -> 300ms - **优化** 大规模添加转发规则后,切换命名空间(其中命名空间中存在 1000+ 服务)会导致浏览器卡死 2s 以上 - **优化** 镜像选择器,解决 1000+ 镜像空间时页面卡死问题 - **优化** 应用备份逻辑 #### 修复 - **修复** cronthpa 配置使用定时 cron 表达式后会导致无法修改定时任务配置 - **修复** redis sentinel 配置导致安装器无限循环 - **修复** 控制台(cloudshell)重连机制,一直被刷新,影响命令运行 - **修复** 对接 DCE4 后,container cidr 显示不正确 - **修复** 安装器在线升级时,kcoral 镜像地址未改成在线地址 - **修复** 备份恢复时,Job 未恢复 - **修复** 同时开启 hpa 和 cronhpa,cronhpa 会被覆盖 - **修复** kpanda 创建集群时选择安装 insight 插件无效 - **修复** 当前 全局服务集群无法升级,页面显示可升级 - **修复** 创建集群的时候,高级设置不支持 calico_node_extra_envs 设置多行 - **修复** 集群巡检报告容器组内存使用率等相关指标结果显示异常 - **修复** NVIDIA GPU Pod 仪表盘中 Pod 的筛选未过滤到已经删除的 Pod 信息 - **修复** 创建集群的时候,关闭统一密码后,用户名和密码框依然显示 - **修复** 创建集群时,如果选择 “为新建集群启用内核调优”,创建失败 ## 2023-12-31 ### v0.24.0 #### 新增 - **新增** kpanda 审计日志中支持记录服务、路由、数据卷声明、数据卷、存储池资源的创建与删除操作 - **新增** kpanda 适配 kubean 实现 k8s 版本的向下兼容 - **新增** Cloudtty 支持 Pod 热启动 - **新增** 实现 clusterpedia 对接 OTEL Tracing - **新增** 安全、巡检、备份、虚拟机等组件支持最小化安装 - **新增** 【文档】支持用户将自定义 Helm 导入到 系统内置的 addon repo 中去 - **新增** 【文档】DCE 4.0 到 DCE 5.0 有限场景的迁移方案 #### 优化 - **优化** kpanda 加入大量集群后 Pod 列表刷新时间太长了 - **优化** 升级 gpu-operator 到 v23.9.0,缩小与社区版本差距 - **优化** 备份整个 ns(ns 下存在 cr 以及 PVC 相关的内容),备份成功后进行恢复,显示部分成功但是看不出哪些是成功的哪些是失败的 #### 修复 - **修复** addon 生命周期管理过程导致权限泄漏 - **修复** 定时伸缩的任务名称相同时,功能失效 - **修复** 离线环境安装了 kubernetes-cronhpa-controller 之后,页面无法检测到已经安装 - **修复** ListPodsByNodeOrigin 接口默认未按创建时间排序 - **修复** ListContainersByPod 接口小概率返回的 container 列表为空 - **修复** 流水线中的 scheduled_e2e 任务执行过程中报错提示 cluster member1 not exist,后续 tests 测试用例没有得到执行 - **修复** Data Collection 按照中文搜索无响应 - **修复** 命名空间-资源限额不生效和更新异常问题 - **修复** 工作负载-负载监控的读写数据永远为空 - **修复** gpu-operator 镜像没有全部离线问题 - **修复** Kpanda 的 Helm 安装会把集群管理权限泄露给普通用户 - **修复** 创建计划把备份数据卷打开后,备份详情里数据卷备份显示关闭 - **修复** 没有权限的用户,通过接口也能获取到其他集群的应用备份计划问题 - **修复** Velero 版本与 dce4 的 k8s 版本不兼容 - **修复** 大规模场景下用户和用户组列表接口加载缓慢 - **修复** 大规模场景下 clusterpedia 接口超时报错,云边协同状态无法正常获取,导致无法使用 - **修复** 大规模场景下命名空间没有展示绑定的所有命名空间 - **修复** 大规模场景下全局服务集群中的容器管理下的工作负载等页面 ns 接口加载缓慢,导致页面使用卡顿 ## 2023-11-30 ### v0.23.0 #### 新功能 - **新增** 支持重点功能的审计日志,如集群创建、删除、接入、解除接入、升级;节点接入、解除接入; (无状态、有状态、守护、任务、定时任务)的创建/删除、Helm 应用的部署/删除 - **新增** 对接 ghippo ldap 用户名超过 K8s 合法范围的用户体系 - **新增** 支持 insight-agent 等超大 chart 生命周期管理 - **新增** ConfigMap/Secret 支持热加载 - **新增** 数据存储支持 subPathExpr #### 优化 - **优化** 支持展示事件所属的 Namespace - **优化** ETCD 备份策略状态 - **优化** Mysql 故障时报错信息 - **优化** 工作负载节点亲和性/工作负载亲和性/工作负载反亲和性 - **优化** 支持移除异常节点 #### 修复 - **修复** 工作空间的可分配资源额度超过总配额 - **修复** SQL 注入的安全漏洞 - **修复** 创建 UOS 系统集群的失败问题 ## 2023-11-06 ### v0.22.0 #### 新功能 - **新增** 支持界面升级系统组件版本、修改系统组件参数 - **新增** 适配 [RedHat 9.2 创建集群](../best-practice/create-redhat9.2-on-centos-platform.md) - **新增** 支持 Nvidia 整卡、vGPU、MIG GPU 模式 - **新增** 支持天数智芯 GPU 卡 - **新增** 支持命名空间级 GPU 资源配额管理 - **新增** 支持应用级 GPU 资源配额 - **新增** 适配 [CentOS 7.9](../user-guide/gpu/nvidia/install_nvidia_driver_of_operator.md)、 [Redhat8.4 gpu-operator](../user-guide/gpu/nvidia/upgrade_yum_source_redhat8_4.md) 的离线化部署和使用 - **新增** 支持集群、节点、应用级 GPU 资源监控 - **新增** 支持容器管理、应用备份恢复、集群巡检、安全扫描产品模块的离线升级 - **新增** 支持 Helm Chart 的多架构混部 - **新增** 支持集群同版本升级 - **新增** 支持 [Configmap/Secret 热加载](../user-guide/configmaps-secrets/configmap-hot-loading.md) - **新增** 创建集群-节点检查支持自定义参数配置,满足企业节点加密认证等场景 #### 优化 - **优化** 支持在 Configmap/Secret 详情页查看关联信息 - **优化** 不同权限用户进入容器管理可见资源 - **优化** 新增 Helm Repo 支持自动刷新和间隔时间内自动刷新开关 #### 修复 - **修复** 集群状态未知时,无法卸载集群的问题 - **修复** 容器组列表 CPU 使用率无数据问题 - **修复** ARM 架构无法安装 Insight-agent、Metrics-server 插件问题 - **修复** 使用密钥创建集群无法通过节点检查问题 - **修复** 创建负载无法添加环境变量问题 - **修复** 被删除用户数据残留问题 - **修复** CIS 合规性扫描、权限扫描以及漏洞扫描报告列表页面分页问题 - **修复** 创建静态 PV 指向错误 StrogeClass 问题 ## 2023-9-06 ### v0.21.0 #### 新功能 - **新增** **Helm Repo** 密码连通性校验,支持跳过 TLS 证书认证 - **新增** 全局服务机器的工作节点扩容 #### 优化 - **优化** 解除集群接入时支持卸载相关组件 - **优化** Pod 状态处理逻辑,新增 Pod 子状态 - **优化** 支持配置集群操作记录保留任务条数 - **优化** 创建工作集群支持配置控制节点数 - **优化** Insight-agent 未安装提示 #### 修复 - **修复** 更新 Helm 应用实例时,配置参数丢失的问题 - **修复** Networkpolicy 关联实例展示报错问题 - **修复** 创建集群配置最大 Pod 数导致集群创建失败的问题 - **修复** 创建 **Redhat** 类型的工作集群失败的问题 - **修复** 命名空间级用户查看定时任务详情报“无权限”的问题 - **修复** 用户无法绑定工作空间的问题 ## 2023-8-01 ### v0.20.0 #### 新功能 - **新增** Helm 应用界面支持查看 Helm 操作日志 - **新增** 工作集群支持接入异构节点 - **新增** 创建集群支持批量导入节点 - **新增** 容器存储支持创建 NFS 类型的数据卷 - **新增** vGPU 支持,支持自动识别节点 CPU、支持新增为负载配置 CPU 配额 #### 优化 - **优化** 集群接入逻辑,当接入集群二次接入新管理平台时,需要预先清理旧管理平台的数据冗余才能被接入, 关于集群接入的更多细节,请参考[卸载/解除接入集群](../user-guide/clusters/delete-cluster.md) - **优化** 升级 clusterpedia 到 v0.7.0 - **优化** 基于权限的页面交互,无权限用户将无法进入无资源权限的页面 - **优化** 接入节点支持配置内核调优等高级参数配置 - **优化** Insight 组件安装检测机制 #### 修复 - **修复** Helm 任务一直处在 **安装中** 、 **卸载中** 的问题 - **修复** 创建集群节点检查内核版本检测错误问题 - **修复** 创建集群插件无法自定义命名空间的问题 - **修复** 更新密钥默认增加 `ca.crt` 数据的问题 ## 2023-7-06 ### v0.19.0 #### 新功能 - **新增** 兼容 openAnolis / oracle linux 操作系统部署工作集群 - **新增** 离线环境创建集群支持自动添加 jfrog 的认证信息 - **新增** 创建工作负载新增环境变量规则校验 - **新增** 边缘负载和服务 - **新增** 双栈、系统内核作为节点前置检查项 - **新增** 创建工作负载新增 secretKey/configmapKey 作为配置项挂载在容器内 #### 优化 - **优化** Helm 仓库刷新机制 - **优化** 部分 I8N 英文翻译界面 #### 修复 - **修复** 在创建集群时,填写自定义参数,如果 value 为 0 或者 1,会被错误转换为 true 或者 false 的问题 - **修复** 在离线环境创建集群时,无法写入 containerd 账号密码配置的问题 - **修复** 对 1.26 及以上版本的集群进行升级时,由于 kubernetes 镜像仓库更改的原因,导致集群升级失败的问题 - **修复** 命名空间级用户无法使用 StorageClasses 创建 PV 相关问题 - **修复** 创建路由时指定命名空间不生效的问题 - **修复** 集群升级后,日期返回错误问题 ## 2023-6-03 ### v0.18.1 - **优化** 安装集群设置自定义参数时不限最大长度 ## 2023-5-28 ### v0.18.0 #### 新功能 - **新增** 巡检报告下载 - **新增** 对接高优先级操作全局审计日志 - **新增** 连接 Minio 的超时处理 #### 优化 - **优化** CloudShell 由用 ConfigMap 进行 KubeConfig 挂载改为用 Secret 进行 KubeConfig 挂载 - **优化** 创建备份策略集群下拉列表新增过滤创建了备份策略的集群的开关 #### 修复 - **修复** etcdbrctl 镜像离线化 - **修复** 镜像选择器无法选择镜像 - **修复** 创建集群时的 Repo 地址渲染 ## 2023-04-28 ### v0.17.0 #### 新功能 - **新增** 巡检报告下载 - **新增** 查看 ETCD 备份日志 - **新增** 创建集群支持启用 Flannel、Kube-ovn 网络插件 - **新增** 创建集群启用 Cilium 双栈网络 - **新增** 创建集群支持自动识别节点 OS 类型 - **新增** Headless、External 类型的服务 - **新增** 离线环境下升级工作集群的 kubernetes 版本 - **新增** 集群级资源备份 - **新增** 使用私有密钥创建工作负载 - **新增** 配置 Helm job 的默认资源限制 - **新增** 使用 hwameistor 创建 PVC #### 优化 - **优化** 应用备份集群状态 - **优化** 负载详情内负载状态和负载下容器组状态不匹配的问题 - **优化** 离线模式下节点检查接口 - **优化** 多云应用的展示方式 #### 修复 - **修复** 更新 Helm 应用配置丢失的问题 - **修复** 使用 YAML 创建多种类型资源由于 ns 不一致导致创建失败的问题 - **修复** 使用麒麟操作系统无法选择 Docker 19.03 运行时,导致创建集群失败的问题 - **修复** 英文界面的错误翻译 ## 2023-04-04 ### v0.16.0 #### 新功能 - **新增** 使用界面查询 PVC 事件 - **新增** 创建任务支持配置 backofflimit、completions、parallelism、activeDeadlineSeconds 等参数 - **新增** 集成自研开源存储组件 Hwameistor,支持在 **容器存储** 模块查看本地存储资源概览等信息 - **新增** 集群巡检功能,支持对集群进行秒级巡检(Alpha) - **新增** 应用备份功能,支持界面化快速对应用进行备份和恢复(Alpha) - **新增** 平台备份功能,支持对 ETCD 数据进行备份和恢复(Alpha) - **新增** 支持 Ghippo 的自定义角色管理集群 #### 优化 - **优化** Kpanda 卸载自建集群的流程,以此避免因用户误操作导致集群被删除 - **优化** 界面创建集群失败后重新创建集群的用户体验,支持用户基于失败前的配置快速重新安装集群 - **优化** 了当一个命名空间下存在多个 Quota 资源时的处理逻辑对多个 Quota 进行了聚合处理 - **优化** 工作负载详情内服务访问方式的信息展示,支持快速对负载服务进行访问 - **优化** Helm 仓库刷新机制,默认不开启自动刷新 #### 修复 - **修复** Loadblance 地址无法访问的问题 - **修复** 执行卸载集群操作失败的问题 - **修复** 接入集群超过 64 个字符导致集群无法获取的问题 - **修复** 离线环境集群无法展示集群插件的问题 - **修复** 全局服务集群无法更新配置的问题 - **修复** 创建集群时,第一次节点检查失败,无法再次执行节点检查的问题 - **修复** 创建/更新工作负载的环境变量不生效的问题 ## 2023-02-27 ### v0.15.0 #### 新功能 - **新增** 对 PV(Persistent Volumes) 的产品化支持,支持在创建 PVC 时选择已有数据卷 - **新增** 使用 kubernetes 无网络 CNI 创建集群的能力 - **新增** 支持负载、配置、服务等资源中文名称 - **新增** 通过 YAML 创建工作负载支持同时创建多种类型资源 - **新增** 工作负载的暂停、启动功能 #### 优化 - **优化** 集群详情页,集群切换的使用体验 - **优化** 工作负载状态显示,增加 **已停止(Stopped)** 状态 - **优化** 工作负载增加手动扩缩容窗口,简化用户手动扩缩负载流程 - **优化** 接入集群无法接入 DCE4.X 集群问题 #### 修复 - **修复** 了创建集群时,DNS 配置强制要求用户填写 upstream DNS 的问题 - **修复** 了工作负载版本记录排序混乱问题 - **修复** 通过 Helm 升级 Kubean 无效的问题 - **修复** 创建集群执行节点检查失败后再次检查,上次的异常提示未消失的问题 - **修复** 创建工作负载,镜像拉取失败问题 - **修复** 定时的备份策略,无法执行 **立即执行** 操作的问题 - **修复** 修改无资源限制的工作负载时,UI 会自动添加资源限制问题 - **修复** 当 **工作空间** 没有与任何用户进行绑定时,往这个 **工作空间** 添加命名空间失败的问题 - **修复** 绑定、解绑命名空间会导致命名空间注解消失的问题 - **修复** 创建集群使用 **kube-vip** 策略不生效的问题 - **修复** 创建集群设置 **ntp servers** 为空时,将清空主机已有 **ntp** 地址问题 ## 2022-12-29 ### v0.14.0 #### 新功能 - **新增** Helm 模板支持展示中文名称和模板供应商 - **新增** CronHPA,支持定时伸缩工作负载 - **新增** VPA(垂直伸缩),支持手动/自动两种方式修改资源请求值,实现工作负载垂直伸缩 - **新增** Namespace 独享主机功能 - **新增** 存储池(StrogeClass)支持授权给特定命名空间独享或共享 - **新增** 创建工作负载支持展示当前命名空间剩余资源配额 - **新增** 节点连通性检查功能 - **新增** 镜像选择器,支持创建工作负载时选择镜像仓库内的镜像 - **新增** 应用备份与恢复功能 #### 优化 - **优化** 集群卸载流程,增加集群删除保护开关 - **优化** 通过 YAML 创建资源时支持同时创建多个资源 - **优化** 工作负载增加手动扩缩容窗口,简化用户手动扩缩负载流程 - **优化** 服务(Service)访问方式体验,支持服务快速访问和展示节点、负载均衡地址 - **优化** 文件上传下载支持选择特定容器 - **优化** 支持不同 OS 系统离线安装 - **优化** 离线环境下创建集群——节点配置支持选择节点操作系统和修改离线 Yum 源 - **优化** YAML 编辑器未填写 Namespace 字段,支持自动补齐为 Default - **优化** 集群升级界面交互体验 - **优化** 使用 Helm 创建应用时,提供 Namespace 快速创建入口 #### 修复 - **修复** 无法使用密码新增节点的问题 - **修复** 获取 Token 方式接入的集群 kubeconfig 错误问题 - **修复** 授予权限时无法获取完整的用户和用户组 - **修复** Bindingsync 组件不正常时解绑工作空间原始权限存在问题 - **修复** Workspace Resync 无法正确将多余权限删除的问题 - **修复** 删除中的 Namespace 还可以被选择的问题 - **修复** 创建密钥,密钥数据单行显示的问题 ## 2022-11-29 ### v0.13.0 #### 新功能 - **新增** ReplicatSets 产品化: - 支持使用 Web 终端(CloudTTY)管理 ReplicatSets - 支持查看 ReplicatSets 监控、日志、Yaml、事件、容器 - 支持查看 ReplicatSets 详情 - 联动**应用工作台** ,由灰度发布管理 ReplicatSets 全生命周期 - **新增** Pod 详情页面 - **新增** 命名空间详情页 - **新增** 使用 Web 终端上传文件至容器内及从 Pod 内下载文件至本地 - **新增** 工作负载基于自定义指标弹性伸缩,更加贴近用户实际业务弹性扩缩容需求 #### 优化 - **优化** 部署集群支持: - 使用 Cilium CNI 部署集群 - 使用不同用户名、密码、SSH 端口的节点创建集群 - **优化** Pod 列表支持查看容器组总数和运行中数量,以及支持查看容器类型 - **优化** 工作负载增加手动扩缩容窗口,简化用户手动扩缩负载流程 - **优化** 容器日志支持查看 init container 和 ephemeral container,提供更友好的运维体验 - **优化** 节点详情,注解 vaule 值未正确展示问题 - **优化** 操作提示反馈,给予用户操作以正确的反馈 #### 修复 - **修复** 因创建命名空间和绑定工作空间强耦合导致创建命名空间失败的问题 - **修复** 更新路由规则无法修改转发策略的路径前缀问题 - **修复** 创建工作负载界面同时创建 Services 不生效的问题 - **修复** 更新服务异常报错问题 - **修复** 无法接入 AWS 集群问题 - **修复** 使用 WS Admin 用户绑定资源组后用户列表不同步问题 - **修复** 配置详情页,PageSize=50 时,ListClusterConfigMaps 接口异常报错问题 ## 2022-10-28 ### v0.10.0 #### 新功能 - **新增** NetworkPolicy 策略管理功能,包括创建、更新、删除 NetworkPolicy 策略,以及 NetworkPolicy 策略详情展示,帮助用户为 Pod 配置进网络出入流量策略 - **新增** 工作负载支持多网卡配置和支持 IP Pool 展示,满足用户为工作负载配置单独配置多网卡需求 - **新增** 集群创建失败后支持查看创建过程的操作日志,帮助用户快速定位故障 - **新增** 有状态工作负载支持使用动态数据卷模板 - **新增** 创建集群、创建 Secret、创建 Ingress、编辑命名空间配额的信息校验,帮助引导用户输入正确的配置参数,降低用户创建任务失败体验 #### 优化 - **优化** 集群下拉列表支持展示集群状态,优化用户在创建集群选择被纳管集群、创建命名空间选择目标集群、集群授权选择目标集群的使用体验 - **优化** 在 Helm 应用中安装 insight-agent 插件,支持自动获取并填充全局服务集群的 Insight-server 相关地址 - **优化** Helm 模板图标为空时的默认图标 - **优化** 创建集群时选择网络模式为 None,以允许用户在集群创建完成后再安装网络插件 - **优化** 集群操作信息架构: - 将集群列表和集群概览页面的集群升级操作,调整至集群详情内的集群运维功能下 - 当某个管理集群在集群列表内移除后,基于这个管理集群创建的集群将在界面隐藏集群升级、纳管节点、删除节点操作 #### 修复 - **修复** 资源切换时,所选命名空间自动转换为全部命名空间的问题