吐槽完 Sora，Google 自己做的 “基础世界模型” 来了

Google 的 DeepMind 推出了人工智能模型 “Genie”，它可以生成交互式视频游戏的 AI。用户可以通过 Genie 将图像、照片、草图或想法转换成可互动、可控制动作的虚拟世界。团队称其为一种全新的 “生成式交互环境”，并认为它是真正的 “基础世界模型”。Genie 可以生成无限可玩的世界，并且不仅可以操控虚拟物体，还可以根据孩子们的绘画进行创造。该模型经过 20 万小时的视频训练，能够学习控制而无需行动标签。

曾通过 Gemini 1.5 Pro 指出 Sora 生成视频不合理，质疑它担不起 “世界模型” 称号的 Google，G 字辈模型喜添新成员。

昨天，Google DeepMind 推出人工智能模型 “Genie”，一个能够生成交互式视频游戏的 AI。它可以根据用户提示，将合成图像、真实照片、手绘草图或想法转换成无尽多样的，可互动、可控制动作的虚拟世界。

Google 认为，现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库，不仅能训练模型生成图像或视频，还可以创造完整的互动体验呢？

团队将其概括为一种全新 GenAI 范式：“生成式交互环境”，并称由于 Genie 实现了人们与想象世界的自由互动，本质上它才是真正的 “基础世界模型”。

一键生成无限可玩世界

在成果演示中，研究人员将 Imagen2 生成的图像作为起始帧，通过 Genie 赋予生命：

不仅如此，真实世界中的物体也可以自由操控：

甚至小朋友充满童真的草图，也变成了想象力无限的游戏：

Genie 为生成和步入虚拟世界开启了更多新的方式，也能够启迪更广泛的内容创作者。DeepMind 高级研究顾问 Jeff Clune 在 X 兴奋地分享道：

“这里实现的一个惊人之处是，任何人包括孩子们都可以绘制一个世界，然后进入其中探索它。这有多酷啊？我们用我孩子的画作测试了 Genie。他们画了两只鹰，然后就可以操控着鹰到处飞。简直魔法！”

20 万小时视频训练，无需行动标签即可学习控制

在《一千零一夜》里，仅需摩擦神灯，精灵就会出来为人们实现愿望。而唤醒 AI 世界里的 Genie，首先必须把知识和能力填充进灯里。

项目负责人 Tim Rocktäschel 在 X 上写道，与 “inductive biases（归纳偏见）” 不同，团队专注于规模，使用了一个包含超过 20 万小时的 2D 平台游戏视频数据集，来训练这个 110 亿参数的世界模型。

作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境， Genie 学会了控制角色的各种潜在动作，并且保持一致性。

实现这种精细控制是一个挑战，也正是 Genie 的独特之处。因为互联网视频通常没有关于哪个动作正在执行，甚至哪个图像部分应该被控制的标签。但 Genie 却可以确定谁是主角，并使用户能够在生成的世界中逐帧控制该角色。

并且，Genie 通过学习产生的这个既丰富多样又一致性强的潜在动作空间，对于人类来说是可解释的。换句话说，即使是未经训练的用户，在与 Genie 生成的游戏世界互动几次之后，也能自然理解并做出向左、向右或跳跃等常见动作，形成多样化的运动轨迹。

项目组也解释了 Genie 模型背后的三个关键组件：

•一个潜在动作模型（LAM），用于推断每对帧之间的潜在动作。

•一个视频分词器（Video tokenizer），具有时间感知能力，与 OpenAI 在 Sora 中的 “patches” 概念类似，能将原始视频压缩为离散令牌。

•一个动力学模型（Dynamics model），能够在给定潜在动作和过去帧令牌的条件下，预测视频下一帧。

整个运行过程如上图所示：将帧视频作为输入，通过视频分词器将它们转换成离散的令牌，并由潜在动作模型在每帧之间推断潜在动作。之后这两者都传递给动力学模型，以迭代方式生成下一帧的预测。

关于 “世界模型” 的较劲

在整个 Genie 的介绍中，“动作” 成了出现频率最高的词汇。这也正是 Google 对于 “世界模型” 的理解。

这个近期被 OpenAI 的 Sora 点燃的课题曾引发一场业界大辩论。Meta 首席科学家 Yann LeCun 就首当其冲质疑了 Sora 的技术路径。他认为，仅从语言提示生成看起来逼真的视频，并不意味着系统真正理解了物理世界，“内容生成” 实则与世界模型中进行的因果预测非常不同。

Tim Rocktäschel 此处转发表示赞同，先是肯定 Sora 在视觉效果上确实令人印象深刻。接着表示 “正如 LeCun 所说，一个世界模型需要动作”，Genie 才是那个可以控制动作的世界模型。

曾表扬 Sora 是一个 “数据驱动的物理引擎”，一个 “可学习的模拟器或世界模型” 的英伟达高级研究科学家 Jim Fan，也再次开启夸夸模式：

“Tim 是我所知道的最有想象力的研究者之一，而 Genie 是他最具想象力的作品。不同于 Sora，Genie 实际上是一个以推断合适动作为驱动的世界模型。

2024 年也将是基础世界模型的一年！”

怎么条条大路通 AGI？

Google 还进一步表示，“Genie 有朝一日会成为训练多任务智能体的基础世界模型，是生成式虚拟世界的未来”。

以往许多成果已经表明，游戏环境可以作为开发 AI Agent 的有效试验场。虽然目前的 Genie 只是基于游戏数据训练的，但它是一种通用方法。不仅限于二维环境或应用程序，还适用于多种类型的数据和场景，而无需任何额外专业知识。

为证明这一点，团队专门拿一些没有动作标签的机器人视频训练了一个 25 亿参数的 Genie 模型。结果它不仅学会了机器人手臂的控制，还学会了各种物体的互动和薯片包这样可变形物体的物理属性。

由此看出，Genie 能够从机器人视频数据创建一个动作模拟器。换句话说，就算它没有被明确教导那些动作是什么，也能够看视频学会复制和预测各种动作。

Genie 团队认为，世界模型应该是一个能够理解和与环境交互的系统，这种交互不是预先编程的，也不限于特定任务。Genie 的核心是利用未标记视频数据进行无监督学习，并创建 “生成式互动环境”，正是为实现 AGI 而迈出的重要一步。

当然，Genie 还没有发布日期，目前只是作为一个研究项目，是否会成为真正的产品也还不清楚。除此以外，Tim 也开诚布公地说，“Genie 运行速度是每秒 1 帧，因此现在距离实时可玩还有很远的距离。” 难怪乎有网友形容，这看起来像个来自 80 年代的 “马里奥 GPT”。

不过多数人还是报以肯定，认为短期到中期它将革新生成式游戏，长期则有可能解锁训练更多领域的 AI 智能体。项目团队也非常振奋，DeepMind 研究总监 Edward Grefenstette 激动感慨道：

“今天的 Genie 可能看起来只是像素块的跳跃和奔跑，但它实现了可控视频生成从 0 到 1 的巨大飞跃。几年以后，面对更逼真的可控视频生成，我们也许会把这看作是 ‘威尔·史密斯吃意大利面’ 时刻。”

毕竟，“This is the worst it will ever be.”

本文作者：张潇雪，来源：硅星 GenAI，原文标题：《吐槽完 Sora，Google 自己做的 “基础世界模型” 来了》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。