神经网络通过分别处理不同数据类型(如文本、图像或音频),然后组合它们的表征来做出预测,从而处理多模态数据。每种模态首先使用专门的架构转换为数值格式。例如,卷积神经网络 (CNN) 通过检测空间模式处理图像,而 Transformer 或循环神经网络 (RNN) 处理文本或音频序列。这些单独的处理路径,通常称为“模态特定编码器”,将原始数据转换为嵌入——捕捉关键特征的紧凑数值向量。编码后,嵌入通过诸如拼接、加权求和或跨模态注意力等技术合并,为下游任务创建一个统一的表征。
一种常见的方法是后期融合,其中每种模态被独立处理,仅在最后一层组合。例如,视频推荐系统可以使用 CNN 分析缩略图,使用 Transformer 处理视频标题,然后合并它们的嵌入来预测用户参与度。或者,早期融合在处理前组合原始或低级特征,例如对齐音频频谱图与视频帧用于唇语同步检测。更高级的方法,如跨模态注意力(在 CLIP 等模型中使用),允许模态动态交互。例如,图像字幕系统可以使用注意力机制,让文本标记在生成描述时“聚焦”到相关的图像区域。
挑战包括对齐跨模态数据(例如,将音频与视频时间戳匹配)和平衡计算资源。为解决对齐问题,可以使用对比学习等技术来训练嵌入,使相关数据对(例如,照片及其字幕)的嵌入更接近。为提高效率,开发者通常使用预训练编码器(如文本使用 BERT 或图像使用 ResNet),以避免从头开始训练。实际实现中,也需要处理缺失的模态——例如,如果音频不可用,则仅根据文本推断情感——在训练过程中使用类似 dropout 的技术。例如,分析 X 光片和患者笔记的医疗模型可能会在训练期间屏蔽一种模态以确保鲁棒性。这些策略使得多模态系统具有适应性,但需要仔细设计以确保模态之间相互补充而非冲突。