计算机视觉的发展受到几篇奠基性论文的影响,这些论文引入的关键技术至今仍被广泛使用。其中三个最具影响力的工作是卷积神经网络 (CNN) 的发展、基于区域的对象检测的引入以及 Transformer 在视觉任务中的应用。这些论文为图像分类、对象检测和生成建模建立了核心方法,构成了现代计算机视觉系统的骨干。
Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 于 2012 年发表的论文“基于深度卷积神经网络的 ImageNet 分类”证明了 CNN 在大规模图像识别中的有效性。他们的模型 AlexNet 在 ImageNet 基准测试中,与传统方法相比,错误率显著降低。主要创新包括使用 ReLU 激活函数来加快训练速度,使用 Dropout 层来减少过拟合,以及利用 GPU 进行高效计算。这项工作普及了 CNN,并推动了该领域的快速采用。早期的基础性工作,例如 Yann LeCun 于 1998 年发表的关于 LeNet-5 的论文“应用于文档识别的基于梯度的学习”已经介绍了 CNN 用于数字识别,但 AlexNet 在更大的数据集上的成功巩固了它们的重要性。
对于对象检测,Ross Girshick 等人于 2014 年发表的论文“用于精确对象检测和语义分割的丰富特征层次结构” 介绍了 R-CNN,它将区域提议与 CNN 相结合。R-CNN 没有将 CNN 应用于整个图像,而是提取感兴趣区域并分别处理它们。虽然速度较慢,但这种方法显着提高了检测精度。像 Fast R-CNN (2015) 和 Faster R-CNN (2016) 这样的后续工作通过跨区域共享计算来优化了流程。另一个里程碑是 Joseph Redmon 等人于 2016 年发表的 “You Only Look Once” (YOLO) 论文,该论文将检测重新定义为单一回归问题,从而实现了实时性能。这些工作确立了对象检测中两个主要的范例:基于区域的方法和单次检测器。
最近的进展包括将 Transformer 应用于视觉任务。Dosovitskiy 等人于 2020 年发表的论文 “一幅图像价值 16x16 个单词:用于大规模图像识别的 Transformer” 证明,视觉 Transformer (ViT) 可以通过将图像分割成块并将它们作为序列进行处理来匹配或超过 CNN 的性能。与此同时,Ian Goodfellow 于 2014 年发表的论文“生成对抗网络”中介绍的生成模型(如 GAN)实现了逼真的图像合成。例如,Karras 等人于 2019 年发表的 StyleGAN 改进了 GAN,以生成高质量、可定制的图像。这些论文将计算机视觉的范围扩展到分类和检测之外,从而实现了图像生成和跨模态学习(例如,在像 CLIP 这样的模型中组合文本和图像)等任务。