---
name: glm-understand-image
description: 使用 GLM 视觉 MCP 进行图像理解和分析。触发条件：(1) 用户要求分析图片、理解图像、描述图片内容 (2) 需要识别图片中的物体、文字、场景 (3) 使用 GLM 的视觉理解功能
---

# glm-understand-image

使用 GLM 视觉 MCP 服务器进行图像理解和分析。

## 执行流程（首次需要安装，后续直接步骤6调用）

### 步骤 1: 检查并安装依赖

#### 1.1 检查 mcporter 是否可用

```bash
npx -y mcporter --version
```

如果命令返回成功，说明 mcporter 可用，跳到步骤 2。

mcporter 可以直接通过 npx 使用，无需安装。

### 步骤 2: 检查 API Key 配置

```bash
cat ~/.openclaw/config/glm.json 2>/dev/null | python3 -c "import json,sys; d=json.load(sys.stdin); print(d.get('api_key', ''))"
```

如果返回非空的 API Key，跳到步骤 4。

### 步骤 3: 配置 API Key（如果未配置）

#### 3.2 如果没有找到 Key，向用户索要

询问用户提供智谱 API Key。

如果用户没有智谱 API Key，可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。


#### 3.3 保存 API Key

```bash
mkdir -p ~/.openclaw/config
cat > ~/.openclaw/config/glm.json << EOF
{
  "api_key": "API密钥"
}
EOF
```


### 步骤 4: 添加 MCP 服务器

使用 mcporter 添加 GLM 视觉 MCP 服务器：

```bash
mcporter config add glm-vision \
  --command "npx -y @z_ai/mcp-server" \
  --env Z_AI_API_KEY="your-key" \
  --env Z_AI_MODE="ZHIPU" \
  --env HOME="$PWD"
```

注意：将 `your-key` 替换为实际的智谱 API Key。`HOME` 环境变量设置为当前工作目录以避免日志文件权限问题。

### 步骤 5: 测试连接

```bash
mcporter list
```

确认 `glm-vision` 服务器已成功添加。

### 步骤 6: 使用 MCP 处理图像

#### 6.1 准备图片

将图片放到可访问路径，例如：
- `~/.openclaw/workspace/images/图片名.jpg`
- 或者使用 URL

#### 6.2 使用 mcporter 调用 MCP 工具

使用 mcporter 调用 MCP 服务：

```bash
mcporter call glm-vision.analyze_image prompt="<对图片的提问>" image_source="<图片路径或URL>"
```

**示例：**

```bash
# 描述图片内容
mcporter call glm-vision.analyze_image prompt="详细描述这张图片的内容" image_source="~/image.jpg"

# 使用 URL
mcporter call glm-vision.analyze_image prompt="这张图片展示了什么？" image_source="https://example.com/image.jpg"

# 提取图片中的文字
mcporter call glm-vision.extract_text_from_screenshot image_source="~/screenshot.png"

# 诊断错误截图
mcporter call glm-vision.diagnose_error_screenshot prompt="分析这个错误" image_source="~/error.png"
```

#### 6.3 API 参数说明

| 参数 | 说明 | 类型 |
|------|------|------|
| image_source | 图片路径或 URL | string (必填) |
| prompt | 对图片的提问 | string (必填) |


## 支持的工具

**重要提示：如果出现问题以官方说明为准**
官方版说明 ： https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

GLM 视觉 MCP 服务器提供以下工具：
- `ui_to_artifact` - 将 UI 截图转换为代码、提示词、设计规范或自然语言描述
- `extract_text_from_screenshot` - 使用先进的 OCR 能力从截图中提取和识别文字
- `diagnose_error_screenshot` - 解析错误弹窗、堆栈和日志截图，给出定位与修复建议
- `understand_technical_diagram` - 针对架构图、流程图、UML、ER 图等技术图纸生成结构化解读
- `analyze_data_visualization` - 阅读仪表盘、统计图表，提炼趋势、异常与业务要点
- `ui_diff_check` - 对比两张 UI 截图，识别视觉差异和实现偏差
- `analyze_image` - 通用图像理解能力，适配未被专项工具覆盖的视觉内容
- `video_analysis` - 支持 MP4/MOV/M4V 等格式的视频场景解析，抓取关键帧、事件与要点

## MCP 配置

MCP 服务器名称：`glm-vision`

MCP 服务器配置：`@z_ai/mcp-server`

环境变量：
- `Z_AI_API_KEY` - 智谱 API Key（必需）
- `Z_AI_MODE` - 服务平台选择，默认为 `ZHIPU`