The next entry point for superintelligence: Google, Meta, NVIDIA... Tech giants are all doubling down on "world models"

AI 巨头如谷歌 DeepMind、Meta 和英伟达正将研发重点转向 “世界模型”，以期在通往机器 “超级智能” 的竞赛中领先一步。“世界模型” 通过学习视频和机器人数据来理解物理世界，应用前景广阔。英伟达高管表示，潜在市场规模可高达 100 万亿美元，覆盖自动驾驶、机器人和制造业等领域。

随着大语言模型技术进步放缓，一场围绕 “世界模型” 的全新 AI 竞赛正在科技巨头之间悄然展开。这一趋势标志着 AI 领域竞争焦点可能正从语言领域转向对物理世界的理解和模拟。

据英国《金融时报》9 月 29 日报道，谷歌 DeepMind、Meta 和英伟达等公司正试图通过开发一种新型系统来取得领先。这些系统不再仅仅依赖语言文字，而是通过学习视频和机器人数据来理解并驾驭物理世界。

“世界模型” 的潜在市场被认为极其庞大。英伟达 Omniverse 与仿真技术副总裁 Rev Lebaredian 表示，“世界模型” 将技术带入制造、医疗等实体领域，其潜在市场规模可能 “高达 100 万亿美元”。

“世界模型” 被视为推动自动驾驶、机器人和所谓 “AI 代理” 取得进展的关键一步，但其训练同时也面临巨大的数据和算力挑战。

模拟物理世界：最新技术突破

近几个月，多家 AI 公司相继发布了在 “世界模型” 领域的进展，凸显了这一赛道的升温。

谷歌 DeepMind上月发布了 Genie 3，该模型能逐帧生成视频并考虑过去的交互，改变了传统模型一次性生成整个视频的方式。Genie 3 项目联席负责人 Shlomi Fruchter 表示，通过构建模拟真实世界的环境，可以用更具扩展性的方式训练 AI，且 “无需承担在现实世界中犯错的后果”。

Meta则试图模仿儿童通过观察世界进行被动学习的方式，用原始视频内容训练其 V-JEPA 模型。由 Meta 首席 AI 科学家 Yann LeCun 领导的 Facebook 人工智能研究实验室（FAIR）已在 6 月发布了该模型的第二版，并开始在机器人上进行测试。

与此同时，芯片巨头英伟达的首席执行官黄仁勋断言，公司的下一个主要增长阶段将来自 “物理 AI”，这些新模型将彻底改变机器人领域。英伟达正利用其 Omniverse 平台创建和运行此类仿真，以支持其向机器人领域的扩张。

“世界模型” 的近期应用之一是在娱乐行业。由 AI 先驱 Fei-Fei Li 创立的初创公司World Labs正在开发一种模型，可以从单张图片生成类似视频游戏的 3D 环境。

视频生成初创公司Runway也于上月推出了一款利用 “世界模型” 创建游戏场景的产品。其首席执行官 Cristóbal Valenzuela 指出，与以往模型相比，“世界模型” 系统能更好地理解和推理场景中的物理规律。

巨头为何押注新赛道？

科技巨头之所以将目光投向 “世界模型”，一个核心驱动力在于业界普遍认为大语言模型正触及其能力天花板。

尽管各大公司投入巨资，但 OpenAI、谷歌和马斯克的 xAI 等机构发布的新一代 LLM 在性能上的飞跃已开始放缓。

Meta 首席 AI 科学家、被誉为现代 AI“教父” 之一的 Yann LeCun 一直警告称，LLM 永远无法实现人类那样的推理和规划能力。

然而，构建这些模型需要收集海量的物理世界数据和算力，这目前仍是一项未被攻克的重大技术挑战。不过，英伟达和 Niantic 等公司在尝试通过模型生成或预测环境来填补数据空白。

尽管前景广阔，但通往成熟的 “世界模型” 之路依然漫长。Meta 的 LeCun 等人认为，实现由新一代 AI 系统驱动、具备人类水平智能的机器可能还需要十年时间。