LIME(局部可解释模型无关解释)是一种通过使用更简单、可解释的模型来局部近似其行为,从而解释任何机器学习模型个体预测的技术。它的工作原理是生成输入数据的变体,观察原始模型对这些变体的响应,然后在扰动数据集上训练一个透明的替代模型(如线性回归)。替代模型的系数突出了哪些输入特征对正在解释的特定实例的预测影响最大。
该过程首先创建输入实例的扰动版本。例如,在文本分类中,这可能涉及删除或打乱单词;对于图像,它可能意味着遮盖图像的某些部分。每个扰动样本都会通过原始模型以获得预测。这些样本根据其与原始实例的接近程度进行加权——越接近的样本影响越大。接下来,在这个数据集上训练一个简单模型(例如,稀疏线性模型)来模仿原始模型在局部区域的预测。这个替代模型的系数表明了特征的重要性,显示了原始模型依赖哪些输入(如特定单词或像素)来做出决策。
考虑一个场景,一个神经网络将一篇电影评论分类为正面。LIME可能会通过删除“excellent”或“boring”等词语来生成扰动的评论,并观察预测如何变化。如果删除“excellent”导致预测为“正面”的概率显著下降,LIME就会将该词突出显示为具有影响力。然而,LIME的有效性取决于扰动样本数量和使用的距离度量等参数。虽然它提供了直观的洞察,但其解释是近似的,并且在不同运行之间可能会略有差异。开发者应逐例使用LIME来验证模型行为,平衡可解释性与替代模型对原始模型的保真度。