Morgan Stanley: Visual data determines the future of AI, Tesla stands at the forefront of the "photon race"

智通财经
2025.09.24 09:41
portai
I'm PortAI, I can summarize articles.

摩根士丹利最新研报指出,特斯拉、Meta 和 Figure AI 等公司正在积极布局视觉数据的收集与利用,形成一场针对现实世界视觉数据的 “光子竞赛”。该行给予特斯拉 “增持” 评级,目标价 410 美元,强调视觉数据在 AI 训练中的战略价值。特斯拉计划转向 “纯视觉” 训练,利用人类视频学习自主完成任务,标志着其训练范式的重大调整。

智通财经 APP 获悉,摩根士丹利在最新研报指出,随着多家企业将资源和注意力转向物理/具身 AI 与机器人技术,一场针对现实世界视觉数据的 “光子竞赛” 正在悄然爆发。在这一背景下,该行给予特斯拉 “增持” 评级,目标价 410 美元。

特斯拉、Meta 和 Figure AI 等公司正通过不同路径积极布局视觉数据的收集与利用。该行强调:“你可以拥有世界上所有的计算资源,但若没有视觉数据,就无法训练视觉 - 语言 - 行动模型(VLA)。” 大摩指出,视觉数据已成为 AI 训练中最稀缺、最具战略价值的资源。

大摩通过一个生动的比喻阐明视觉数据的价值:一条 600 磅的蓝鳍金枪鱼在远离海岸的地方游弋,若没有渔船和渔具,其价值为零;但若具备捕捞能力,其价值可能高达 310 万美元。同理,世界的视觉数据若无法被捕获和处理,其价值也为零;但若能大规模收集并处理海量数据,则其价值将不可估量。

特斯拉:转向 “纯视觉” 训练

2025 年 5 月,特斯拉前 Optimus 负责人发布了一系列视频,展示 Optimus 通过人类视频学习自主完成任务。这些视频以第一人称视角 (摄像头位于演示者身上) 拍摄,但最终目标是转向通过 “随机摄像头” 和互联网视频获取的第三人称视角。

“特斯拉据称将转向 ‘纯视觉’ 方法预训练 Optimus,不再使用穿戴动作捕捉服与 VR 的遥操作员,改为录制工人执行任务的视频作为训练数据。”

这一转变标志着特斯拉在训练范式上的重大调整,凸显出视觉数据在机器人行为模仿与泛化能力中的核心作用。

该行预计,未来视觉数据将不仅用于训练模型,更将用于构建 “机器人训练健身房”(模拟环境),从而在数字世界中迭代数十亿种场景。特斯拉车主在驾驶时不仅在物理空间中移动,也在 “玩电子游戏”,向模拟世界输送数据以训练最新 FSD 模型;Meta 眼镜用户在教模型如何弹钢琴、织毛衣、倒咖啡或倒垃圾。

大摩强调,视觉数据是训练下一代 AI 模型的核心资源,其价值正在被重新定义。特斯拉、Meta 和 Figure AI 等公司通过不同的路径推进数据收集战略,从车辆、眼镜到房地产,无一不在争夺这场 “光子竞赛” 的领先地位。