嵌入不像人类可读的特征或规则那样可以直接解释。 嵌入是一个密集向量(数字列表),它以较低维度的空间表示数据,例如单词、图像或用户偏好。 虽然这些向量捕获了数据中的模式和关系,但向量的各个维度很少映射到特定的、可理解的概念。 例如,在词嵌入中,维度可能与“复数”或“性别”松散相关,但这不能保证或明确定义。 每个维度缺乏明确的语义标签使得很难解释为什么特定的嵌入值会导致特定的模型预测或行为。
但是,可以间接分析嵌入以揭示见解。 诸如降维(例如,PCA、t-SNE)或聚类之类的技术可以将嵌入可视化在 2D/3D 空间中,从而揭示诸如相似单词或图像的分组之类的模式。 例如,在像 Word2Vec 这样的词嵌入模型中,绘制嵌入可能会显示“狗”、“猫”和“马”聚在一起,而“汽车”、“飞机”和“火车”形成另一组。 类似地,在推荐系统中,用户/项目嵌入可能会将具有相似品味的用户聚类在一起。 这些方法不解释单个向量值,而是突出更广泛的关系。 开发人员还可以通过测试类比(例如,“国王 - 男人 + 女人 ≈ 女王”)来探测嵌入以验证语义关系,但这更多的是验证预期行为而不是真正的可解释性。
实际的要点是,嵌入对于捕获复杂的数据关系非常强大,但并非为透明度而设计。 如果可解释性至关重要(例如在医疗保健或金融领域),开发人员可能会将嵌入与诸如注意力机制(突出显示有影响力的输入部分)之类的技术结合使用,或者使用更简单的模型以及嵌入进行事后分析。 例如,电影推荐器可以使用嵌入来表示用户和电影,但将它们与逻辑回归层配对,逻辑回归层的系数指示哪些电影类型驱动推荐。 简而言之,嵌入以可解释性换取效率和性能,需要补充工具来弥合原始向量和人类理解之间的差距。