当前多模态 AI 模型面临三大关键局限性:难以对齐和语境化跨模态数据、计算成本高昂以及难以泛化到现实世界场景。虽然这些模型可以处理多种数据类型(如文本、图像、音频),但它们深入理解模态间关系的能力仍然不稳定。例如,像 CLIP 或 Flamingo 这样的模型可能难以将图像中的特定元素与相应的文本描述关联起来,尤其是在语境模糊时。在视觉问答 (VQA) 中,模型可能正确识别图像中的物体,但无法回答需要空间推理的问题(例如,“杯子在书的左边吗?”),这凸显了跨模态对齐的不足。
训练和部署多模态模型需要大量的计算资源。像 GPT-4V 或 PaLM-E 这样的模型需要大规模数据集和专门硬件,如 TPU 或高端 GPU,这使得预算有限的小型团队或研究人员难以使用。例如,为一个自定义任务(例如,结合卫星图像和天气数据进行气候分析)微调一个多模态模型,可能需要花费数千美元的云计算时间。此外,推理延迟可能很高——实时处理包含音频和文本输入的视频对于许多应用来说仍然不切实际,限制了它们在移动设备等资源受限环境中的使用。
最后,这些模型在需要细致推理或对噪声输入具有鲁棒性的现实世界场景中往往表现不佳。分析 X 光片和患者笔记的医疗 AI 可能会错过图像特征和文本症状之间的细微关联,导致诊断不可靠。同样,视频理解任务(例如,在解释对话的同时跟踪跨帧的物体)经常暴露出时间推理的弱点。对抗性攻击进一步加剧了这些问题:即使附带的文本语境正确,向图像添加无法察觉的噪声也可能导致模型错误分类。这些局限性凸显了基准性能与实际可用性之间的差距。