当配备多模态能力时,像 GPT-4 这样的 OpenAI 模型可以处理和解释图像或视觉数据。 虽然这些模型的核心架构是基于文本的,但较新的版本集成了视觉组件,使其能够分析图像。 例如,具有视觉功能的 GPT-4 (GPT-4V) 接受图像输入以及文本提示,从而能够执行对象识别、场景描述或回答有关视觉内容的问题等任务。 但是,这些模型并不以传统意义上的“看”图像; 相反,它们将视觉数据转换为文本或数值表示形式(如嵌入),语言模型可以对此进行推理。 这种方法弥合了视觉和文本理解之间的差距,但依赖于预处理步骤将像素转换为模型可以处理的格式。
为了说明,开发人员可以使用 GPT-4V 来分析用户上传的冰箱照片。 该模型可能会识别蔬菜、牛奶盒和调味品等物品,然后生成文本摘要,例如“您的冰箱包含新鲜农产品和乳制品,但没有鸡蛋。” 另一个例子是解释图表:提供图形图像并要求模型解释趋势。 但是,存在局限性。 该模型可能难以处理低分辨率图像、抽象艺术或精细细节(例如,读取屏幕截图中的小文本)。 此外,处理速度取决于图像的复杂性,而准确性可能因视觉组件提取相关特征的效果而异。 例如,医学成像或卫星照片分析需要超出通用视觉能力的专门培训。
对于开发人员而言,将图像处理集成到应用程序中需要使用 OpenAI 专为多模态输入设计的 API 端点。 一个典型的工作流程可能包括调整图像大小以满足 API 要求,将它们作为 base64 编码的字符串发送,并将它们与文本提示结合起来。 例如,构建辅助功能工具的开发人员可以使用 Vision API 为图像生成替代文本,然后使用 GPT-4 的语言技能完善输出。 另一个用例可能包括通过标记不适当的视觉内容来审核用户生成的内容。 虽然 API 处理了大部分繁重的工作,但开发人员仍然需要处理预处理、错误检查(例如,无效的图像格式)和后处理响应。 此功能非常实用,但需要了解视觉模型的优势和局限性,例如避免实时视频分析或自动驾驶等高风险场景。