OpenAI Co-founder: Autonomous driving and VR are just "diversions," AI agents are the future.

Andrej Karpathy 认为 AI 智能体代表着一个疯狂的未来，此刻正是再次回归神经科学，从中寻求灵感的时刻。

在黄仁勋和马斯克接连看到了 AI 智能体的发展潜力后，OpenAI 联合创始人，特斯拉前人工智能总监 Andrej Karpathy 也在最近高呼，AI 智能体代表着一个疯狂的未来。

Andrej Karpathy 直言，自己在特斯拉的工作时 “被自动驾驶分了心”，钻研自动驾驶和 VR 都不是发展 AI 智能体的正确道路。此刻正是回归神经科学，从中寻求灵感的时刻。

另一方面，Andrej Karpathy 认为每个人在构建 AI 智能体的方面都比 OpenAI 这样的公司更有优势，大家目前处于平等竞争的状态，因此他很期待看到这方面的成果：

AI 智能体代表着一个疯狂的未来，虽然可能还有点远，但是今天到场的大家构建的 AI 智能体已经处于 AI 智能体能力的最前沿。

现在所有正在做大语言模型的机构，比如 OpenAI 等，我觉得都没有处于这个领域的最前，最前沿的是在座的各位。

谷歌旗下 AI 团队 DeepMind 的最新论文介绍了一种能够进行自我改进的 AI 智能体——RoboCat，本质上是由 AI 赋能的软件程序，相当于机器人的 “大脑”。由其加持的机器人与传统机器人不同之处在于，RoboCat 更具 “通用性”，并可实现自我改进、自我提升。

具身智能比人形机器人更有价值

具身智能相当于 AI 的大脑，而这个大脑的载体可以是任何形式。可以是一个机械臂，一只机器狗，更或者是一辆小汽车。

而反观人形机器人，当下为何被看做是一个不太聪明的钢铁巨人，核心还是因为缺少 AI 大脑 + 不太灵活的躯体。

简单来说，类似 GPT-4 这样的大模型，对物理世界并不能真的产生影响，而具身智能则多了一个身体，通过传感器收集环境信息，利用机械执行器进行物理操作，或者通过机器人等具体实体与人类和环境进行实时互动。

马斯克曾说，虽然未来有一天人人可能会拥有一个人形机器人，但是目前展现的 Optimus 人形机器人产品也就只能执行重复性的简单劳动。

具身智能的目标是使机器能够更好地理解和适应复杂的环境，更高效地解决问题，并具备更灵活的行为能力。通过融合感知、决策和执行的过程，具身智能使机器能够更接近人类智能的表现，从而在机器人技术、自动驾驶、智能制造等领域发挥重要作用。

Karpathy 直言，在 7 年前，研究 AI 智能体的时机还不成熟，因技术所限做出来的效果不好，于是他和 OpenAI 就改变了方向，开始研究大语言模型。

而现在有了全新的技术手段来研究 AI 智能体，情况和 2016 年完全不同了：

最简单的例子就是，现在没有人再像 2016 年那样用强化学习的方法来研究 AI 智能体了。现在的研究方法和方向在当年是不可想象的。

大语言模型的出现，给构建具身智能体带来了全新的可能性。因为基于 LLM 的智能体可以利用预训练模型中蕴含的世界知识，生成一致的行动计划或可执行策略，这就非常适合应用于游戏和机器人之类的任务。

DeepMind 的 RoboCat 只是 AI 赋能机器人的主要案例之一。

今年以来，已经有数家公司将语言模型运用到了机器人上：2023 年年初，谷歌推出视觉语言模型 PaLM-E，并运用到工业机器人上；4 月，阿里巴巴将千问大模型接入工业机器人；5 月，特斯拉人形机器人 Optimus 展示了精准的控制、感知能力，同月，英伟达发布全新自主移动机器人平台。

得益于此，人工智能加持的机器人化身具身智能吸引了全球的广泛关注。

马斯克在特斯拉 2023 年股东大会上便表示，人形机器人将是今后特斯拉主要的长期价值来源：

“如果人形机器人和人的比例是 2 比 1 左右，那么人们对机器人的需求量可能是 100 亿乃至 200 亿个，远超电动车的数量”。

英伟达创始人黄仁勋在 ITF World 2023 半导体大会上也表示，AI 下一个浪潮将是 “具身智能”。华尔街见闻此前指出，国盛证券分析师认为，具身智能有着物理反馈、物理输出的特性，可以成为成为通信、计算和存储的新载体：

未来具身智能将会越来越强调边缘通信能力与边缘算力的匹配和耦合。

AI 的躯体其实并非是最重要的，核心应该是发展 AI 大脑，打通人机交互方式，让 AI 能够主动感知物理世界，拟人化的思维路径才能做到人类期待的行为反馈。机器视觉和多模态大模型正是开启这个世界的两把钥匙。