# GPU 指标自定义配置 运营管理支持自定义 GPU 指标的采集规则。可以根据 GPU 厂商(如 NVIDIA、AMD、华为)及其 Exporter 提供的原始指标,通过 PromQL 公式计算并展示以下性能数据: - GPU 使用率 - 显存使用量 - 显存利用率 支持从 Pod、Namespace、Node、Cluster 维度进行聚合统计。 ## 操作指南 ### 1. 进入配置页面 1. 登录运营管理控制台。 2. 在左侧导航栏选择 __配置管理__ -> __GPU 配置__ 。 ![GPU 配置列表](../../images/gmagpie-gpu-configs-01.png) ### 2. 新增或编辑配置 1. 点击 __创建__ 或点击已有配置右侧的 __编辑__ 。 2. 在表单中填写基本信息: - __厂商__:输入 GPU 厂商标识(如 `nvidia`)。 - __状态__:开启或关闭该配置。 3. 在指标列表中为每一项编写 PromQL 公式。 !!! tip 代码编辑器支持实时语法校验。如果公式有误,编辑器下方会显示具体错误。 ![GPU 指标编辑表单](../../images/gmagpie-gpu-configs-03.png) ### 3. 指标说明 配置公式时可参考下表: | 指标名称 | 说明 | 推荐公式示例 (NVIDIA DCGM) | | :--- | :--- | :--- | | **Pod 显存占用** | 单个 Pod 的显存使用量 (Bytes) | `sum(DCGM_FI_DEV_FB_USED) by (pod) * 1024 * 1024` | | **Pod GPU 利用率** | 单个 Pod 的 GPU 算力使用率 (%) | `avg(DCGM_FI_DEV_GPU_UTIL) by (pod)` | | **Pod 显存利用率** | 单个 Pod 的显存使用百分比 (%) | `sum(DCGM_FI_DEV_FB_USED) / sum(DCGM_FI_DEV_FB_TOTAL) * 100` | ![Nvidia GPU 指标](../../images/gmagpie-gpu-configs-02.png) !!! note 实际公式需根据环境中的 Prometheus 指标名称(如 `DCGM_FI_DEV_...`)和标签(`pod`, `namespace` 等)进行调整。 ### 4. 验证与保存 - 确认 PromQL 语法无误后,点击 __确定__ 保存。 - 系统后台会自动同步,采集任务在下一周期生效。 ## 常见问题 **Q: 配置后报表没有数据?** - 检查 Prometheus 中是否有原始指标。 - 检查公式中的标签是否对齐(例如 `pod` vs `pod_name`)。 - 确认配置状态为“开启”。 **Q: 可以配置多个厂商吗?** 可以。支持为不同厂商分别创建规则,系统会根据节点的标签自动匹配。