多模态信息用于整合不同类型的数据——例如文本、图像、音频、传感器读数或视频——以提高系统的性能和能力。 通过整合多个数据源,应用程序可以更好地解释上下文,减少歧义,并处理单一数据方法难以处理的复杂任务。 例如,像 Alexa 或 Google Home 这样的虚拟助手使用语音命令(音频)和用户历史记录(文本)来提供准确的响应。 同样,自动驾驶汽车依靠摄像头、激光雷达、雷达和 GPS 数据来安全导航,因为每个传感器都弥补了其他传感器的局限性(例如,摄像头在白天工作,激光雷达在弱光下工作)。
多模态系统的一个关键优势是它们能够提高准确性和鲁棒性。 在医疗保健领域,将医学影像(如 X 射线)与患者记录(文本)相结合,使 AI 模型能够比单独使用任一数据类型更可靠地诊断病情。 内容审核工具使用文本分析以及图像或视频识别来检测有害内容——例如,识别帖子文本中的仇恨言论,同时扫描附加图像中的暴力图像。 这些系统通常表现更好,因为不同的模态提供互补的线索。 例如,视频的音轨可以阐明模棱两可的视觉动作的意图,从而减少误报。
从技术角度来看,开发人员使用数据融合等技术来实现多模态系统,其中输入被联合或单独处理,然后再组合结果。 早期融合将原始数据(例如,将图像像素与文本嵌入连接)用于单个模型,而后期融合独立处理每个模态并组合输出(例如,平均来自单独的图像和文本分类器的预测)。 像 TensorFlow 或 PyTorch 这样的框架简化了此类模型的构建,而像 Hugging Face Transformers 这样的库支持多模态任务。 挑战包括对齐来自不同来源的数据(例如,将音频与视频帧同步)和管理计算成本。 开发人员还必须处理丢失的数据——例如,在传感器发生故障时设计回退——以确保在实际场景中的可靠性。