--- name: glm4v-analyze-image description: 智谱AI的视觉语言模型,用于图像分析、内容识别和视觉问答 tool_name: glm4v_analyze_image category: vision priority: 7 tags: ["image-analysis", "vision", "recognition", "visual-qa", "multimodal"] version: 1.0 --- # GLM-4V图像分析工具指南 ## 核心能力 - 图像内容识别和描述 - 视觉问答和推理 - 图像细节分析 - 多模态理解和生成 ## 调用规范 ```json { "tool_name": "glm4v_analyze_image", "parameters": { "model": "glm-4v-flash", "image_url": "图片URL", "prompt": "分析提示语" } } ``` 以下是调用 `glm4v_analyze_image` 工具的**正确**和**错误**示例。请务必遵循正确格式。 ## ✅ 正确示例 ```json {"model": "glm-4v-flash", "image_url": "https://path/to/image.jpg", "prompt": "Describe this image."} ``` ## ❌ 错误示例 (请避免以下常见错误) - **缺少引号或逗号:** ```json {"model": "glm-4v-flash", "image_url": "https://path/to/image.jpg", "prompt": "Describe this image."} ``` (缺少 `}`) - **参数名错误:** ```json {"img_url": "https://path/to/image.jpg"} ``` (应为 "image_url" 而非 "img_url") - **模型名称错误:** ```json {"model": "glm4v-flash", "image_url": "https://path/to/image.jpg", "prompt": "Describe this image."} ``` (应为 "glm-4v-flash") ## 关键指令 1. **模型选择**: 使用 `glm-4v-flash` 模型 2. **图片格式**: 支持常见图片格式(JPEG, PNG, WebP等) 3. **提示语设计**: 清晰具体的分析指令 4. **URL有效性**: 确保图片URL可公开访问 ## 使用场景 ### 图像描述 ```json { "tool_name": "glm4v_analyze_image", "parameters": { "model": "glm-4v-flash", "image_url": "https://example.com/image.jpg", "prompt": "详细描述这张图片的内容" } } ``` ### 视觉问答 ```json { "tool_name": "glm4v_analyze_image", "parameters": { "model": "glm-4v-flash", "image_url": "https://example.com/image.jpg", "prompt": "图片中有多少人?他们在做什么?" } } ``` ### 细节分析 ```json { "tool_name": "glm4v_analyze_image", "parameters": { "model": "glm-4v-flash", "image_url": "https://example.com/image.jpg", "prompt": "分析图片中的文字内容和技术细节" } } ``` ## 最佳实践 ### 提示语设计 - **具体明确**: "描述图片中人物的动作和表情" - **任务导向**: "识别图片中的所有物体并分类" - **细节要求**: "注意颜色、形状、空间关系等细节" ### 错误处理 - 检查图片URL是否有效 - 确认图片格式支持 - 处理网络超时情况 ## 能力范围 - ✅ 物体识别和分类 - ✅ 场景理解和描述 - ✅ 文字识别(OCR) - ✅ 情感和氛围分析 - ✅ 技术细节提取 ## 限制说明 - ❌ 不能处理敏感或不当内容 - ❌ 图片大小和分辨率有限制 - ❌ 实时视频流不支持 - ❌ 3D模型分析不支持 ## 性能优化 - 使用合适的图片尺寸 - 提供具体的分析需求 - 分步骤进行复杂分析 - 结合其他工具进行验证