Morgan Stanley: Visual data determines the future of AI, Tesla stands at the forefront of the "photon race"

摩根士丹利最新研报指出，特斯拉、Meta 和 Figure AI 等公司正在积极布局视觉数据的收集与利用，形成一场针对现实世界视觉数据的 “光子竞赛”。该行给予特斯拉 “增持” 评级，目标价 410 美元，强调视觉数据在 AI 训练中的战略价值。特斯拉计划转向 “纯视觉” 训练，利用人类视频学习自主完成任务，标志着其训练范式的重大调整。

智通财经 APP 获悉，摩根士丹利在最新研报指出，随着多家企业将资源和注意力转向物理/具身 AI 与机器人技术，一场针对现实世界视觉数据的 “光子竞赛” 正在悄然爆发。在这一背景下，该行给予特斯拉 “增持” 评级，目标价 410 美元。

特斯拉、Meta 和 Figure AI 等公司正通过不同路径积极布局视觉数据的收集与利用。该行强调：“你可以拥有世界上所有的计算资源，但若没有视觉数据，就无法训练视觉 - 语言 - 行动模型（VLA）。” 大摩指出，视觉数据已成为 AI 训练中最稀缺、最具战略价值的资源。

大摩通过一个生动的比喻阐明视觉数据的价值：一条 600 磅的蓝鳍金枪鱼在远离海岸的地方游弋，若没有渔船和渔具，其价值为零；但若具备捕捞能力，其价值可能高达 310 万美元。同理，世界的视觉数据若无法被捕获和处理，其价值也为零；但若能大规模收集并处理海量数据，则其价值将不可估量。

特斯拉：转向 “纯视觉” 训练

2025 年 5 月，特斯拉前 Optimus 负责人发布了一系列视频，展示 Optimus 通过人类视频学习自主完成任务。这些视频以第一人称视角 (摄像头位于演示者身上) 拍摄，但最终目标是转向通过 “随机摄像头” 和互联网视频获取的第三人称视角。

“特斯拉据称将转向 ‘纯视觉’ 方法预训练 Optimus，不再使用穿戴动作捕捉服与 VR 的遥操作员，改为录制工人执行任务的视频作为训练数据。”

这一转变标志着特斯拉在训练范式上的重大调整，凸显出视觉数据在机器人行为模仿与泛化能力中的核心作用。

该行预计，未来视觉数据将不仅用于训练模型，更将用于构建 “机器人训练健身房”（模拟环境），从而在数字世界中迭代数十亿种场景。特斯拉车主在驾驶时不仅在物理空间中移动，也在 “玩电子游戏”，向模拟世界输送数据以训练最新 FSD 模型；Meta 眼镜用户在教模型如何弹钢琴、织毛衣、倒咖啡或倒垃圾。

大摩强调，视觉数据是训练下一代 AI 模型的核心资源，其价值正在被重新定义。特斯拉、Meta 和 Figure AI 等公司通过不同的路径推进数据收集战略，从车辆、眼镜到房地产，无一不在争夺这场 “光子竞赛” 的领先地位。