
CSC: Merger of Two AI Labs under Alphabet-C Expected to Further Accelerate Progress in Robot Models

Google Deepmind 近期发布研究成果,具备 “自我完善” 能力的 “RoboCat” 和融合大语言模型能力的 VLA 模型 “RT-2”,机器人智能化进一步加速,有望掀起新一轮 AI 革命。
智通财经 APP 获悉,中信建投发布研报称,2023 年 4 月 20 日,Google 宣布将 Google Brain 和 DeepMind 两大世界级 AI 实验室合并,成立 Google DeepMind 部门,以谷歌的计算资源作为后盾,加速人工智能研发和应用的推进。Google Deepmind 在 2023 年 6 月和 7 月发布了其最新研究成果,具备 “自我完善” 能力的 “RoboCat” 和融合大语言模型能力的 VLA 模型 “RT-2”,机器人智能化进一步加速,有望掀起新一轮 AI 革命。
中信建投主要观点如下
从 Gato 到 RoboCat,更大规模的训练数据集和创新的自我完善方法助力打造更强的机器人智能体。在 2022 年 5 月提出的 Gato 模型将智能体扩展到机器人控制领域中,但 “通用性” 和 “智能性” 仍有较大提升空间,其模型架构和控制任务数据的序列化方式是后续模型发展的重要基础。2023 年 7 月提出的 RoboCat 则基于 Gato 的模型基础,将训练数据集扩充至 400 万个机器人相关片段,并创新性的提出 “自我完善” 的方式来进一步丰富训练数据,这两点创新让 RoboCat 在实现了训练任务的性能提升并具备了一定的泛化性能,并且能够在少量数据微调的情况下处理未见过的任务。
从 RT-1 到 RT-2,大语言模型带来更强的泛化能力、逻辑推理能力、知识能力,深度赋能机器人智能化。2022 年 12 月提出的 RT-1 模型构建起了特定的指令、图像和机器人指令之间的桥梁;2023 年 3 月的 PaLM-E 模型则能够处理输入的文本和图像信息,将复杂任务转化为 RT-1 能够接受的指令;2023 年 7 月提出的 RT-2 是二者的融合, 在大语言模型强大能力的赋能下,RT-2 能够完成分解复杂任务、简单的计算、识别人脸等现实场景中常见但以往的模型无法完成的任务,智能化程度大幅提升。
差异路线引领发展,团队整合协同革新。Google Brain 和 DeepMind 两个团队从两个不同的切入点出发逐步推进 AI 机器人模型发展,DeepMind 团队从智能体(Agent)的角度出发不断提升机器人能力,因此 RoboCat 中的训练数据大多来自强化学习,模型参数量控制表现更为优秀,能够实现更高频率的机器人控制;而 Google Brain 则尝试将大语言模型应用到机器人的控制领域,因此 RT-2 的模型参数量更大,在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并,深化数据、模型等方面的协同合作,谷歌的机器人模型进展有望进一步加速。
