数据标注是训练自动驾驶汽车机器学习模型的基础步骤。它涉及注释原始传感器数据——例如相机图像、LiDAR 点云和雷达读数——以识别物体、边界和上下文信息。 这些标记数据教导模型识别行人、车辆、交通标志和车道线等关键要素。 例如,一个标记的图像可能包括汽车周围的边界框、道路的语义分割掩码或标记的交通灯状态。 如果没有准确的标签,模型就无法可靠地解释真实世界的场景,这使得标签对于构成自动决策核心的感知系统至关重要。
标签支持车辆软件堆栈中的特定任务。 在感知方面,标记的数据训练物体检测模型来区分停放的汽车和移动的自行车。 对于路径规划,车道线和路缘注释有助于车辆理解可导航的空间。 传感器融合——结合来自相机、LiDAR 和雷达的数据——依赖于同步标签来对齐跨模式的输入。 例如,LiDAR 点可能被标记为“植被”或“建筑物”,以帮助车辆过滤掉不相关的噪声。 时间一致性也很重要:标记连续帧(例如,跨多个相机图像跟踪行人)可确保模型准确地理解运动和预测行为。
标记的数据集还可以验证和改进模型性能。 开发人员使用标记的测试数据来衡量精度(例如,正确识别停车标志的频率)和召回率(例如,避免遗漏乱穿马路的行人)等指标。 边缘情况——例如罕见的天气条件或模糊的交通标志——会被故意标记以对模型进行压力测试。 例如,数据集可能包含雪地中褪色的车道线的标记图像,以提高鲁棒性。 此外,模拟工具生成合成标记数据以增强真实世界的示例,从而加速训练,同时覆盖在道路上捕获过于危险或罕见的场景。 这种迭代过程可确保模型在不同的驾驶环境中有效推广。