少样本学习使机器学习模型能够以最少的训练数据适应新任务,使其适用于识别数据稀缺的新疾病。传统模型需要大型标记数据集,而对于新兴或罕见疾病,这些数据集不可用。少样本学习通过利用来自相关任务的先验知识来解决这个问题。例如,在现有疾病上训练的模型可以使用少量的病例来学习识别新疾病的模式,从而减少对大量数据集的依赖。这种方法在医疗保健领域尤其有用,因为在早期爆发期间收集新疾病的数据既耗时又在伦理上具有挑战性。
一个具体的应用涉及在医学影像或基因组数据上使用预训练模型。假设出现了一种新的呼吸道疾病,例如一种新型冠状病毒变种。在已知呼吸道疾病(例如,肺炎、COVID-19)的胸部 X 光片上预先训练的模型可以使用少样本技术,通过比较来自一小部分确诊病例的特征来识别新的变种。同样,在基因组学中,在病毒序列上训练的模型可以使用少量样本检测新病原体中的突变。基于度量的学习(例如,原型网络)或微调语言模型(例如,用于医学文本的 BERT)等技术允许模型将新病例映射到从现有知识中导出的“相似性空间”,即使在示例有限的情况下也能进行分类。
实施此功能的开发人员必须解决数据隐私和模型可解释性等挑战。例如,将联邦学习与少样本方法相结合,允许医院在不共享敏感患者数据的情况下协作训练模型。此外,将少样本模型集成到电子健康记录 (EHR) 系统中需要仔细验证,以避免误报。一个实际的工作流程可能包括在公开可用的数据集(例如,NIH 胸部 X 光片)上微调预训练模型,然后在出现新病例时使用本地患者数据对其进行更新。与临床医生的定期合作至关重要,以确保预测与医学专业知识相符,并在获得更多数据时迭代地改进模型。