多镜头数据价值非常大,如果有多台同步的摄像机(例如 4 个视角),你可以拿其中 3 个视角作为输入,用模型去预测第 4 个视角看到的图像、深度或特征。由于第 4 个视角是真实存在的,你就能把预测结果和真实结果做比较(比如用 L1 loss、SSIM loss 等),这就构成了一个监督信号。不需要人工标注,属于 自监督学习(self-supervised learning) 的一种形式。模型能从几何一致性中学习空间理解能力(比如深度、相机位姿、遮挡关系)。多视角数据天然提供了丰富的约束,比单目训练更稳定、更准确。我厂要抓紧时间切入这块市场。