可解释性 AI (XAI) 中的代理模型充当复杂、不透明模型(如神经网络)的简化近似,使其决策可被理解。它们通过使用可解释的结构(例如决策树、线性模型或基于规则的系统)来模拟原始模型的行为,同时保留预测中的关键模式。这使得开发人员能够分析输入如何影响输出,而无需破译原始“黑盒”模型的内部工作原理。例如,用于医疗诊断的复杂深度学习模型可以被代理决策树近似,该决策树突出显示影响预测的最关键的患者特征(例如,年龄、血压)。
代理模型通常使用诸如 LIME(局部可解释模型不可知解释)或 SHAP(SHapley Additive exPlanations)之类的技术构建。例如,LIME 通过扰动输入数据点并观察原始模型的预测如何变化来生成局部解释。然后,在此扰动数据上训练代理线性模型,以近似特定预测周围的行为。类似地,SHAP 使用博弈论来全局或针对单个预测分配特征重要性值。例如,在信用评分系统中,SHAP 可以揭示收入和债务收入比是推动模型拒绝贷款申请的首要因素。通过提供人类可读的解释,这些方法使开发人员能够测试假设、调试模型或遵守法规要求。
但是,代理模型也有局限性。它们是近似值,因此它们可能无法完美地捕捉原始模型的逻辑,尤其是在高度非线性或与上下文相关的决策中。例如,代理决策树可能会过度简化深度学习模型对图像分类中细微像素模式的依赖。开发人员必须通过将其预测与原始模型的输出进行比较来验证代理的准确性,并将代理模型用作 XAI 中的多种工具之一。尽管存在这些权衡,但它们对于在医疗保健或金融等受监管领域启用透明度仍然实用,在这些领域,利益相关者需要信任和验证自动化决策。诸如用于构建代理模型的 scikit-learn 之类的工具或诸如 Lime 和 SHAP 之类的库通常用于实施这些技术。