多模态信息检索 (IR) 将通过整合更多样化的数据类型和改进跨模态理解来发展。 目前的系统主要处理文本、图像,有时还处理音频或视频,但未来的发展将侧重于将这些与新兴的模式(如深度传感器、运动数据或增强现实 (AR) 输入)相结合。 例如,搜索查询可能涉及用智能手机摄像头指向一个对象,同时口述描述,从而允许系统组合视觉、空间和语音数据来检索相关结果。 这种集成将需要用于处理和索引异构数据的标准化协议,从而实现模态之间的无缝交互。
另一个关键方向将是开发更好地对齐不同数据类型的统一模型。 系统将使用能够原生处理多个输入的架构,而不是依赖于文本、图像和其他模态的单独管道。 例如,基于 Transformer 的模型可以扩展为接受图像块、音频频谱图和文本标记作为并行输入,从而实现联合表示学习。 对比学习(模型学习将不同模态映射到共享嵌入空间)等技术将变得更加完善,从而改进跨模态检索等任务(例如,使用文本描述查找视频片段)。 这些模型还需要处理部分或嘈杂的数据,例如从哼唱的旋律或模糊的图像中检索歌曲。
最后,多模态 IR 将变得更加上下文感知和个性化。 系统将利用用户特定的数据(如位置、交互历史记录或设备传感器)来定制结果。 例如,搜索代码片段的开发人员可能会收到结合了 GitHub 存储库、视频教程和图表的答案,并根据他们过去的偏好进行优先级排序。 像联邦学习这样保护隐私的技术将允许个性化,而无需集中式数据收集。 此外,实时处理将得到改进:想象一下,维修技术人员使用 AR 眼镜扫描机械,而 IR 系统会覆盖相关的操作手册或突出显示有故障的组件。 为了实现这一点,开发人员需要用于高效多模态索引和轻量级设备上推理的工具,从而在准确性和计算约束之间取得平衡。