目标跟踪的最新发展侧重于提高准确性、处理复杂场景和优化实时性能。有三个关键领域尤为突出:基于 Transformer 的架构、多模态跟踪以及适用于边缘设备的轻量级模型。这些进展解决了遮挡、光照条件变化和计算限制等挑战。
基于 Transformer 的模型最初在自然语言处理中流行,现在已被广泛应用于目标跟踪。TransTrack 和 MixFormer 等方法利用自注意力机制更好地建模视频序列中的长程依赖关系。例如,MixFormer 结合卷积神经网络 (CNN) 和 Transformer 高效处理空间和时间数据,在 MOT17 等基准测试中取得了最先进的成果。Transformer 还支持跟踪即检测(tracking-by-detection)流程的端到端训练,减少了对卡尔曼滤波等人工设计组件的依赖。然而,它们的计算成本仍然是一个挑战,这促使研究人员进行稀疏注意力或 token 剪枝等优化。
多模态跟踪集成了来自多个传感器(例如,RGB 摄像头、LiDAR、热成像)的数据以提高鲁棒性。例如,UniTrack 框架融合 RGB 和深度数据来处理拥挤场景中的遮挡。另一个例子是在监控系统中使用热成像进行夜间跟踪,因为传统的基于 RGB 的方法在这方面表现不佳。研究人员还在探索跨模态预训练——在 TAO (Tracking Any Object) 等多样化数据集上训练模型,以跨域泛化。这些方法需要高效的融合技术,例如后融合(结合输出)或早融合(合并原始传感器数据),每种技术在准确性和延迟方面都有权衡。
效率提升的目标是在资源受限的设备上部署。MobileTrack 等轻量级架构使用深度可分离卷积和模型剪枝来减少参数,同时保持准确性。知识蒸馏技术,即小型模型从大型模型中学习,已经显示出前景——例如,将 ResNet-50 跟踪器蒸馏成 MobileNetV3 变体。混合方法,例如使用 CNN 进行特征提取和使用循环神经网络 (RNN) 进行时间建模,平衡了速度和精度。实际应用包括使用 NanoTrack 等框架进行的无人机跟踪,该框架可在 NVIDIA Jetson 硬件上以 30 FPS 运行。这些优化通常涉及硬件感知设计,利用 TensorRT 或 ONNX Runtime 进行部署。