视觉-语言模型(VLM)通过结合视觉和语言理解能力,使自动系统能够解释和处理复杂的现实场景,从而增强其功能。这些模型能够同时处理图像和文本,让系统在分析周围环境的同时,整合来自语言输入的上下文信息。这种集成改进了在动态环境中的决策能力,因为仅凭视觉数据是不够的。例如,使用 VLM 的自动驾驶汽车可以识别交通标志,并结合地图数据库中的“前方有行人”等文本提示,通过身体语言关联来解释附近行人的意图。这种双重能力弥补了传统计算机视觉系统难以应对的感知盲区。
VLM 还改进了自动系统与人类的交互方式以及遵循指令的能力。例如,一个配送机器人可以处理“把包裹送到三楼的实验室,避开楼梯附近的湿滑地面”这样的指令。VLM 会解析语言以识别关键目标(送到实验室)和限制(避开湿滑区域),同时利用视觉传感器检测湿滑地面并进行规避。同样,在搜救任务中,无人机可以通过将颜色和位置信息与实时摄像头画面关联起来,分析“在西北峡谷寻找一件红色夹克”等口头请求。这减少了对僵化预设规则的依赖,使系统能够适应细致入微、依赖上下文的任务。
最后,VLM 通过从多样化的训练数据中进行泛化,帮助自动系统处理边缘情况。传统系统在遇到罕见场景时常常失效,例如带有临时标志的施工区域。经过视觉道路场景和交通法规训练的 VLM 可以推断出纸板箱上潦草写着的“绕行”标志需要重新规划路线,即使训练数据中没有明确包含这种情况。此外,VLM 支持持续学习:仓库机器人可以询问人类“我应该优先卸货还是补货?”,并根据文本回复更新其行为。通过将视觉感知与灵活的语言推理相结合,VLM 使自动系统在面对不可预测的现实条件时更加稳健,无需为每种可能的场景进行详尽的手动编码。