谷歌 AGI 机器人大招：用大模型给机器人造 “大脑”

谷歌 DeepMind 的机器人研究取得了重大突破，可以让机器人完成辨认物体、思考和推理等任务。

爆火的大模型，正在重塑谷歌 DeepMind 的机器人研究。

最新成果之一，就是他们耗时 7 个月打造的机器人项目RT-2，狠狠在网上火了一把：

效果究竟有多好？

只需用人话下达命令，面前这个小家伙就能挥动机械臂，思考并完成 “主人的任务”。

像是给流行歌手霉霉（Taylor Swift）递水、或是辨认明星球队 Logo：

甚至能主动思考，让它 “捡起已灭绝的动物”，就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确 pick 恐龙。

用网友的话来说，别小看这个能力，这是实现了从 “灭绝的动物” 到 “塑料恐龙” 的逻辑飞跃。

更 “要命” 的是，它还能轻松解决 “给疲惫的人选一种饮料” 这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去，简直不要太聪明。

有网友看完感叹：

等不及了，赶紧快进到给人类洗碗吧（手动狗头）

据了解，谷歌 DeepMind 这项成果由54 位研究员合作产出，前前后后拉扯 7 个月，最终才变成我们看到的这样 “so easy”。

《纽约时报》介绍称，谷歌 DeepMind机器人技术主管Vincent Vanhoucke 认为，大模型彻底改变了他们部门的研究方向：

由于（大模型）这一变化，我们不得不重新考虑整个研究项目。

我们之前研究的很多东西，都已经完全失效了。

所以，RT-2 究竟能实现什么样的效果，这研究又具体是怎么一回事儿？

将多模态大模型 “塞进” 机械臂

这个名叫RT-2（Robotic Transformer 2）的机器人项目，是去年年底发布的 RT-1 的 “进化版”。

相比于其他的机器人研究，RT-2 的核心优势在于，不仅能理解 “人话”，还能对 “人话” 进行推理，并转变为机器人能理解的指令，从而分阶段完成任务。

具体来说，它具备三大能力——符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）。

第一个能力是 “符号理解”，能将大模型预训练的知识，直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有 “红牛”，但它却能从大模型的知识中理解并掌握 “红牛” 的外貌，并拿捏物品。

第二个能力是 “推理”，这也是 RT-2 的核心优势，要求机器人掌握数学、视觉推理和多语言理解三大技能。

技能一，包含数学逻辑推理的命令，“将香蕉放到 2+1 的总和的位置”：

技能二，视觉推理，像是 “将草莓放进正确的碗中”：

技能三，多语言理解，即使不用英语也能完成指令，例如用西班牙语命令它 “从一堆物品中挑出最与众不同的那个”：

第三个能力是人类识别，准确识别并理解人类的行为，像开头看到的 “将水递给泰勒·斯威夫特” 例子就是能力展现之一。

那么，这三个能力是怎么实现的？

简单来说，就是将视觉 - 文本多模态大模型（VLM）具备的 “推理”、“识别”、“数学” 等能力，和机器人的操作能力结合起来。

为了实现这一点，研究人员直接给视觉 - 文本大模型（VLM）增加了一个模态，叫做 “机器人动作模态”，从而把它变成了视觉 - 文本 - 动作大模型（VLA）。

随后，将原本非常具体的机器人动作数据，转变成文本 token。

例如将转动度数、放到哪个坐标点等数据，转变成文本 “放到某个位置”。

这样一来，机器人数据也能被用到视觉 - 语言数据集中进行训练，同时在进行推理的过程中，原本的文本指令也会被重新转化为机器人数据，实现控制机器人等一系列操作。

没错，就是这么简单粗暴（手动狗头）

在这次的研究中，团队主要基于谷歌的一系列基础大模型来 “做升级”，包括 50 亿和 550 亿的PaLI-X、30 亿的PaLI以及 120 亿的PaLM-E。

为了提升大模型本身的能力，研究人员也下了不少功夫，把最近爆火的思维链、向量数据库和无梯度架构（no-gradient architectures）都用上了。

这一系列操作，也让 RT-2 和去年发布的 RT-1 相比，具有了不少新优势。

下面就来看看具体的实验结果。

RT-2 使用上一代机器人模型 RT-1 的数据进行训练（也就是说数据没变，只是方法不同了）。

这些数据是用 13 个机器人在办公室搭建的一个厨房环境中耗时 17 个月收集到的。

在实际测试中（一共历经 6000 次），作者给了 RT-2 许多以前未见过的物体，需要 RT-2 在微调数据之外进行语义理解来完成任务。

结果完成的都相当不错：

包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只，甚至是捡起快要从桌上掉下去的零食等复杂的命令。

而从符号理解、推理和人类识别这三个细分能力上来看，RT-2 的两个变体都比 RT-1 和另一种视觉预训练方法 VC-1 要好很多，性能最高可达 3 倍。

如前文所述，这两个变体分别在 120 亿参数的 PaLM-E 和 550 亿参数的 PaLI-X 上进行训练。

具体的泛化能力评估上，通过与多个基线模型的多类细分测试，最终发现 RT-2 性能提高了大约 2 倍。

（稍显遗憾的是，我们还没看到它和其他团队最新基于 LLM 的机器人方法进行对比）

而为了更好地理解 RT-2 的不同设置如何影响泛化结果，作者又设计了两大类评估：

一是在模型尺寸上，仅在 RT-2 PaLI-X 变体分别采用 50 亿参数与 550 亿参数进行训练；

二是训练方法上，分别采用从头开始训练模型 vs 微调 vs 协同微调的方法。

最终结果表明，视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。

另外，作者还在开源语言表基准上评估了 RT-2，结果显示它在模拟基准上实现了 SOTA 结果（90%vs 之前的 77%）。

最后，由于 RT-2 PaLM-E 变体是一个视觉 - 语言 - 动作模型，可以在单个神经网络中充当 LLM、VLM 和机器人控制器，因此 RT-2 还可以执行可控的思想链推理。

如下图所示的 5 个需要推理的任务中（尤其最后一个非常有意思：选择可以替代锤子的物品），它接到命令后会先输出自然语言步骤，然后再给出具体的动作 token。

最最后，总结来说，这个最新的 RT-2 模型，不仅能更好地适用于不同的、机器此前没见过的场景中，泛化能力更好了；与此同时，由于有了更好的大模型加持，它也掌握了一些有难度的新能力，比如推理。

One More Thing

谷歌将机器人研究的重心放在大模型上，似乎也不是 “空穴来风”。

就在这两天，他们和哥伦比亚大学合作的一篇关于 “用大模型帮助获取更多机器人操作技能” 的论文，同样很火：

这篇论文提出了一种新的框架，不仅能让机器人很好地适应大模型，同时还能保留原本机器人的基础操作和控制能力：

和 RT-2 有所不同的是，这一项目已经开源：

属实是用大模型带动整个机器人部门升级了。

再联想到前不久李飞飞团队的具身智能成果，可以说，用大模型带动机器人着实成为一种研究趋势，且已经让我们看到了一波非常有潜力的进展。

对于这个研究方向，你有哪些期待？

— 完 —

本文来源：量子位，原文标题：《谷歌 AGI 机器人大招！54 人天团憋 7 个月，强泛化强推理，DeepMind 和谷歌大脑合并后新成果》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。