三维计算机视觉是一个致力于使机器能够从视觉数据中解释和理解三维结构的研究领域。与处理平面图像或视频的传统二维计算机视觉不同,三维计算机视觉处理深度、空间关系和体积表示。其目标是重建或分析三维物体和环境,通常使用来自相机、传感器或从二维输入推断深度的算法生成的数据。这使得机器人、增强现实和自主系统等应用能够更准确地与物理世界进行交互。
三维计算机视觉技术因输入数据和用例而异。例如,立体视觉使用两个或多个相机从略微不同的角度捕捉图像,模仿人类双眼视觉,通过三角测量来估计深度。LiDAR(光探测与测距)传感器发射激光脉冲测量距离并创建精确的三维点云。RGB-D 相机,如微软的 Kinect,结合颜色(RGB)和深度(D)数据提供实时三维映射。运动结构(Structure from Motion, SfM)或同时定位与建图(Simultaneous Localization and Mapping, SLAM)等算法通过跟踪跨帧的特征点,从二维图像序列重建三维场景。深度学习方法,如卷积神经网络(CNNs),也用于通过在配对的二维和三维数据集上进行训练,从单张图像预测深度图。
三维计算机视觉的实际应用非常广泛。在机器人领域,机器人利用三维感知能力进行环境导航、物体操作或避障。自动驾驶汽车依靠三维数据检测行人、其他车辆和道路边界。在医疗健康领域,从 MRI 或 CT 扫描重建器官的三维模型有助于手术规划。增强现实应用通过与三维场景几何结构对齐,将虚拟物体叠加到现实世界中。挑战包括处理遮挡、计算复杂性和传感器局限性——例如,LiDAR 在反射表面上表现不佳,而立体视觉需要足够的纹理来匹配特征。尽管存在这些挑战,硬件和算法的进步仍在不断扩展三维计算机视觉系统的能力。