医学图像分析中的少样本学习解决了仅有少量标记示例可用时训练模型的挑战。由于专家标记的成本、隐私问题或某些疾病的罕见性,医学数据集通常缺乏足够的标注。少样本技术使模型能够从少量标记样本中进行泛化,通常通过利用来自相关任务或领域的先验知识。例如,一个经过训练可以检测脑部 MRI 扫描中常见肿瘤的模型,可以仅使用几张带注释的图像来适应识别罕见的肿瘤类型,从而减少对大型标记数据集的依赖。
常见的技术方法包括元学习、迁移学习和数据增强。像模型无关的元学习 (MAML) 这样的元学习框架训练模型,通过学习跨任务工作的参数初始化,以最小的数据快速适应新任务。在实践中,这可能涉及在各种 X 射线数据集上进行预训练以识别一般解剖特征,然后使用五个罕见肺部疾病的例子进行微调。迁移学习使用预训练的模型(例如,在 ImageNet 上)作为起点,仅在医学数据上重新训练最终层。像旋转、缩放或合成数据生成(使用 GAN)这样的数据增强技术人为地扩展小数据集。例如,生成少量皮肤病变图像的变体有助于提高黑色素瘤检测的稳健性。
挑战包括处理领域转移和确保临床可靠性。由于成像设备、协议或患者人口统计学的差异,医学图像差异很大。未经领域适应,在一个医院的 CT 扫描上训练的模型可能在另一家医院的数据上表现不佳。像原型网络这样的技术,将图像映射到用于比较的共享嵌入空间,通过关注关系模式而不是绝对特征,有助于缓解这种情况。开发人员还必须解决可解释性问题——临床医生需要信任预测。像 Grad-CAM 这样的工具可以突出显示影响决策的区域,即使在少样本场景中也是如此。虽然前景广阔,但这些模型需要针对真实世界的数据进行严格验证,以确保部署前的安全。