彩票假说提出,在随机初始化的神经网络中,存在着更小的子网络——称为“中奖彩票 (winning tickets)”——当单独训练时,其性能可以与整个网络相媲美。该想法由 Frankle 和 Carbin 在 2018 年的一篇论文中首次提出,它挑战了神经网络必须大而密集才能有效学习的假设。该假说认为,训练的成功取决于识别这些稀疏的、良好初始化的子网络,而不是依赖于整个网络。例如,实验表明,通过移除多达 90% 的连接(基于权重大小)来修剪网络,并使用原始初始化重新训练剩余结构,可以在图像分类等任务上达到与完整模型相当的准确率。
对开发者而言,这对于优化模型效率具有实际意义。该过程通常包括训练网络、修剪低幅度权重、将剩余权重重置为其初始值,然后重新训练。这种迭代剪枝方法在保持性能的同时,降低了计算成本和模型大小。例如,在边缘设备上工作的开发者可以使用这种方法来缩小 ResNet 模型以进行部署,而不会牺牲准确性。一个关键的见解是,将权重重置为其初始值——而不是保留训练后的权重——对于子网络保持其“中奖”潜力至关重要。这强调了初始化的重要性:初始权重和结构的正确组合是有效学习的基础。
当前研究正在探索该假说如何应用于像 transformer 这样的现代架构,以及“中奖彩票”是否能跨任务泛化。虽然早期工作侧重于小型模型(例如 MNIST/CIFAR-10),但最近的研究开始探索像 BERT 这样的大型网络,结果喜忧参半。挑战包括在不进行穷举剪枝循环的情况下高效地找到“彩票”,以及理解为什么某些初始化能够实现有效训练。开发者可以尝试使用开源剪枝库(例如 PyTorch 的 torch.nn.utils.prune
)在其模型上测试该假说。然而,这种方法并非普遍适用——某些任务可能需要密集网络,而且对于非常大的模型来说,迭代剪枝的计算开销可能得不偿失。不过,该假说为重新思考网络设计提供了一个框架,强调更小、结构良好的网络可能就隐藏在眼前。