在结合来自不同模态(如文本、图像或传感器数据)的结果时,融合策略的选择取决于问题、数据特征和计算约束。三种常见的方案是早期融合、晚期融合和混合融合。每种方法在灵活性、计算成本和性能方面都有权衡。
早期融合在将来自不同模态的原始或低级特征整合在一起之前对其进行处理。例如,将来自图像的像素数据和来自文本的词嵌入组合成一个用于神经网络的单个输入向量。当模态紧密相关且它们的交互在处理早期至关重要时,此方法效果良好。缺点是同步数据(例如对齐视频和音频的时间戳)可能具有挑战性。如果未正确标准化特征,早期融合还存在丢失模态特定细微之处的风险。一个实际的例子是多模态情感分析,其中面部表情(图像)和语音语调(音频)被早期合并以整体地检测情绪。但是,此方法需要仔细处理缺失数据,并且可能无法很好地扩展用于高度异构的输入。
晚期融合独立处理每个模态,并在决策层结合结果,例如平均来自独立模型的预测。当模态松散相关或具有不同的处理要求时,此方法很有用。例如,在医疗保健中,晚期融合系统可以使用卷积神经网络 (CNN) 处理 MRI 扫描,并使用转换器处理患者记录,然后将它们的输出组合起来进行诊断。晚期融合在计算上是高效的,因为可以单独训练模型,并且它对模态的缺失具有鲁棒性。但是,它错过了在处理期间对跨模态交互进行建模的机会。一个真实的例子是自动驾驶,其中 LIDAR 和相机数据被单独处理以进行对象检测,并且仅在最终决策层中融合以控制车辆。
混合融合结合了早期和晚期策略的元素。例如,来自一个模态(例如,文本嵌入)的中间特征可以在处理期间注入到另一个模型(例如,图像分类器)中。这平衡了灵活性和交互建模。混合方法可能会在转换器中使用跨模态注意力,其中文本标记动态影响图像补丁的加权方式。另一个例子是推荐系统,它早期融合用户行为(时间序列数据)和产品描述(文本),但稍后将它们与人口统计数据(表格)结合起来。混合方法通常需要更多的调整和数据,但可以在诸如视频问答之类的复杂任务中实现更高的准确性,在这种任务中,理解视觉场景和对话至关重要。
最佳策略取决于用例。早期融合适用于时间线对齐的紧密耦合的模态,晚期融合适用于模块化系统或不可靠的数据流,而混合融合为需要细微的跨模态交互的任务提供了一个中间地带。开发人员应从简单的方法(如晚期融合)开始,并且仅在性能差距证明增加的复杂性是合理的时才探索更复杂的方法。