为了在RAG(检索增强生成)系统中整合像图像或表格这样的多种模态,同时使用LLM进行生成,关键挑战是将多样的数据类型与大多数LLM的以文本为中心的特性对齐。首先,检索组件必须索引和查询多模态数据。对于图像,这可能涉及使用视觉语言模型(例如,CLIP)生成嵌入,将图像和文本映射到一个共享空间中,从而允许基于语义相似性进行检索。表格可以通过将它们序列化为结构化文本(例如,“A列:X,B列:Y”)或使用捕获表格关系的专用嵌入来处理。在生成过程中,LLM需要上下文访问这些检索到的项目。例如,可以通过标题模型来描述图像,并且标题将与文本片段一起提供给LLM。表格可以被总结或转换为自然语言描述,以适应LLM的输入约束。
一个实际的实现可能涉及混合检索管道。假设一个用户问:“是什么导致季节性温度变化?” 系统可能会检索一段解释地轴倾斜的文本段落、一张地球轨道的图像和一张温度平均值的表格。图像将被处理成文本描述(例如,“显示地球绕太阳的椭圆轨道的图表”),表格可能会被总结为“夏季温度范围从20°C到35°C”。然后,LLM将这些输入合成为一个连贯的答案,引用图像的内容和表格数据。像用于图像到文本的BLIP-2或用于表格解析的TAPAS这样的工具可以弥合模态差距,确保LLM接收到统一的上下文,尽管数据格式不同。
评估此类系统引入了新的考虑因素。首先,多模态相关性:指标必须评估检索到的图像/表格是否与查询的意图对齐,而不仅仅是文本匹配。这可能涉及人工评估或视觉语言相似性得分(例如,基于CLIP的指标)。其次,输出一致性:生成的文本是否正确引用了非文本数据?例如,如果答案引用了表格的值,则自动检查可以验证数值准确性。第三,性能权衡:处理图像/表格会增加延迟,因此基准测试必须跟踪速度与准确性。最后,用户体验指标(例如,多模态引用的清晰度)变得至关重要,因为集成不良的图像或表格可能会让用户感到困惑。测试还应考虑边缘情况,例如检索到LLM错误地合并的不相关图像,这突出了跨模态对齐中鲁棒性的需求。