Amazon Go 将计算机视觉作为更广泛的传感器融合系统的一部分来实现其“即走即付”的购物体验。 商店使用安装在天花板上的摄像头、货架重量传感器和计算机视觉算法来实时跟踪顾客和商品。 当顾客扫描他们的 Amazon App 进入商店时,系统会将他们的身份与唯一的会话关联起来,并开始监控他们与产品的互动。 摄像头捕捉运动和商品选择,而货架上的重量传感器则检测商品何时被拿起或放回。 计算机视觉处理视觉数据,以识别商品、跟踪顾客移动并关联诸如拿起一罐苏打水或将其放回等动作。
该系统严重依赖于物体识别和姿态估计来解决歧义。 例如,摄像头使用卷积神经网络 (CNN) 来区分相似的产品,例如两种包装几乎相同的薯片品牌。 姿态估计跟踪身体动作(例如,手臂伸展、手的位置)以确定顾客是从货架上拿起商品还是只是在浏览。 如果两个顾客同时伸手拿同一个商品,系统会使用时间和空间数据(例如,动作的顺序和与货架的距离)将商品分配给正确用户的虚拟购物车。 即使在拥挤的情况下,这也可以避免错误的收费。 此外,产品摆放和货架布局经过优化,以简化跟踪,条形码等唯一标识符的位置便于摄像头检测。
后端集成了来自摄像头、传感器和用户帐户的数据流,以保持准确性。 当顾客离开时,系统会交叉引用所有记录的动作(例如,商品拿起时间戳、货架上的重量变化以及顾客在商店中的路径)以完成购买。 边缘计算通过在将压缩数据发送到云进行协调之前在本地处理摄像头馈送来减少延迟。 对于开发人员来说,关键的启示是 Amazon Go 的计算机视觉不是独立的; 它是紧密同步的系统的一部分,在该系统中,算法使用概率模型来补偿传感器限制(例如,摄像头视图被遮挡)。 这种方法确保了可靠性,而无需在每一帧中都有完美的视觉数据,从而使系统能够为现实世界的零售环境扩展。