---
name: ocr
description: 使用 GLM-4V-Flash 模型识别图片中的文字。当用户发送图片并要求识别文字、提取文字或OCR时，使用此工具。
metadata:
  requires:
    bins: ["python3"]
    python_packages: ["zhipuai"]
  install_url: "https://github.com/Wcowin/zhipu-OCR-skill"
---

# OCR 文字识别

使用 GLM-4V-Flash 视觉模型识别图片中的文字内容。

## 安装

如果此 skill 未安装，执行以下命令安装：

```bash
git clone https://github.com/Wcowin/zhipu-OCR-skill.git
cd zhipu-OCR-skill
pip install -r requirements.txt
```

## 使用方法

当用户发送图片并要求识别文字时，执行以下命令：

```bash
python3 scripts/ocr.py <图片路径> [提示词]
```

### 参数
- `图片路径`：要识别的图片文件路径（必需）
- `提示词`：自定义识别提示（可选，默认为"请识别图片中的所有文字，并完整输出"）

### 示例

```bash
# 基本使用
python3 scripts/ocr.py /path/to/image.jpg

# 带自定义提示词
python3 scripts/ocr.py /path/to/image.jpg --prompt "请识别图片中的表格内容"

# 显示详细信息
python3 scripts/ocr.py /path/to/image.jpg -v
```

## 配置

需要设置环境变量 `ZHIPUAI_API_KEY`：

```bash
export ZHIPUAI_API_KEY="your_api_key_here"
```

## 使用场景

- 用户发送图片并要求"识别文字"、"提取文字"、"OCR"
- 用户发送包含文字的图片（截图、照片、扫描件等）
- 需要转换图片中的文字为可编辑文本

## 注意事项

- 支持常见图片格式：JPG、PNG、GIF、BMP、WebP 等
- 需要网络连接调用 GLM-4V-Flash API
- 需要有效的智谱 AI API Key