image_tools
一句话
平台原生的视觉工具有三组,统一通过工具调用——AI 不用关心后面是什么模型:
| 工具 | 用途 | 典型场景 |
|---|---|---|
image_understanding | 看图说话 / 抽文字 / 识结构 | 专利附图、CAD 截图、流程图、表格截图 |
image_modification | 改图(标注、裁剪、拼接、重绘) | 在专利附图上加箭头、给故障截图圈出问题区域 |
image_storage | 图片入库与检索 | 把会话里的图沉淀到知识库 |
跟 Parser SKILL 的关系
平台对文档里的图会自动用 image_understanding + 当前 KB 选定的 VLM 提示词包。
你写 SKILL 时主动调 image_tools 是对单张图做精确操作——比批处理更细,能控制提示词、输出结构。
行业用法
- 专利:附图标号识别、技术框图理解、商标比对
- 汽车:电路图标记、ECU pinout 图识读、CAN 波形截图分析
- 制造:CAD 图纸关键尺寸抽取、工件缺陷视觉判定、SCADA 报警截图归因