
The ChatGPT moment of physical AI! NVIDIA's "self-driven" autonomous vehicles are coming and will hit the roads in the U.S. in the first quarter

英伟达宣布开源其首个推理 VLA (视觉 - 语言 - 动作) 模型 Alpamayo 1。该模型旨在打造能在意外情况下” 思考” 解决方案的车辆,采用 100 亿参数架构,使用视频输入生成轨迹和推理过程。黄仁勋称,首款搭载英伟达技术的汽车将第一季度在美上路,第二季度在欧洲上路,下半年在亚洲上路。英伟达还发布了多个开源模型、数据和工具,如用于代理 AI 的英伟达 Nemotron 家族、用于物理 AI 的 Cosmos 平台、用于机器人的英伟达 Isaac GR00T 以及用于生物医学的英伟达 Clara。更新中
英伟达在无人驾驶领域迈出关键一步,宣布开源其首个推理 VLA (视觉 - 语言 - 动作) 模型 Alpamayo 1,这一举措旨在加速安全的自动驾驶技术开发。该模型通过类人思维方式处理复杂驾驶场景,为解决自动驾驶长尾问题提供新路径。
美东时间 1 月 5 日周一,英伟达 CEO 黄仁勋在拉斯维加斯举行的 CES 展会上发布了 Alpamayo 平台,使汽车能够在真实世界中进行"推理"。黄仁勋表示,首款搭载英伟达技术的汽车将于第一季度在美国上路,第二季度在欧洲上路,下半年在亚洲上路。
英伟达免费开放 Alpamayo 模型,允许潜在用户自行对模型进行重新训练。该模型旨在打造能在意外情况下"思考"解决方案的车辆,例如交通信号灯故障等场景。车载计算机将分析来自摄像头和其他传感器的输入,将其分解为步骤并提出解决方案。
这一开源举措获得了行业广泛支持。包括捷豹路虎(JLR)、Lucid、Uber 以及加州大学伯克利分校 DeepDrive 深度学习自动驾驶产业联盟(BDD)在内,多家移动出行领军企业和研究机构表示,将利用 Alpamayo 开发基于推理的自动驾驶技术栈,推动 L4 级自动驾驶部署。
此外,英伟达还推出了用于机器人的人工智能模型和其他技术。黄仁勋在活动中表示,英伟达正在与西门子合作,将人工智能应用于更多物理世界领域。
首个开源推理 VLA 模型发布
英伟达此次发布的 Alpamayo 家族整合了三大基础支柱:开源模型、仿真框架和数据集,构建了一个完整的开放生态系统供任何汽车开发者或研究团队使用。
Alpamayo 1 是业界首个为自动驾驶研究社区设计的思维链推理 VLA 模型,现已在 Hugging Face 平台发布。该模型采用 100 亿参数架构,使用视频输入生成轨迹及推理轨迹,展示每个决策背后的逻辑。开发者可以将 Alpamayo 1 改编为更小的运行时模型用于车辆开发,或将其作为自动驾驶开发工具的基础,例如基于推理的评估器和自动标注系统。
黄仁勋表示:
“物理 AI 的 ChatGPT 时刻已到来——机器开始理解、推理并在真实世界中行动。无人出租车是首批受益者。Alpamayo 为自动驾驶汽车带来推理能力,使其能够思考罕见场景,在复杂环境中安全驾驶,并解释其驾驶决策——这是安全、可扩展自动驾驶的基础。”
英伟达强调,Alpamayo 模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中。未来该家族的模型将具有更大的参数规模、更详细的推理能力、更多的输入输出灵活性以及商业使用选项。
推理 VLA 技术原理解析
推理 VLA 是一种统一的 AI 模型,将视觉感知、语言理解和动作生成与逐步推理集成在一起。
这类模型整合了明确的 AI 推理功能,在传统视觉 - 语言 - 动作模型的基础上构建。AI 推理是 AI 逐步解决复杂问题并生成类似于人类思维过程推理痕迹的能力。这些系统对一系列互联网规模的任务进行预训练,包括语言生成和视觉连接,以发展通用知识和感知基础。
与将视觉输入直接映射到动作的标准 VLA 模型不同,推理 VLA 模型将复杂的任务分解成可管理的子问题,并以可解释的形式阐明其推理过程。这使模型能够更准确地解决问题或执行任务,还能对模型正在进行的操作提供一定程度的反思。
构建推理 VLA 模型需要三种基本 AI 功能:视觉感知、语言理解以及动作和决策制定。视觉感知处理来自摄像头、毫米波雷达或激光雷达等感知传感器的实时数据;语言理解通过自然语言处理解释命令、上下文提示和对话输入;动作和决策制定则使用融合的感官和语言信息来计划、选择和安全地执行任务,同时生成可解释的推理痕迹。
在自动驾驶场景中,推理 VLA 可以对交通状况进行逐步推理。例如,接近一个十字路口时,系统可能会进行如此推理:"我看到一个停止标志,左边有车辆驶来,还有行人正在过马路。我应该减速,完全停下来,等待行人通过人行横道,安全时再继续前进。"
完整开放生态系统支持开发
除 Alpamayo 1 模型外,英伟达还发布了配套的仿真工具和数据集,构建完整的开发生态系统。
AlpaSim 是一个完全开源的端到端仿真框架,用于高保真自动驾驶开发,现已在 GitHub 平台发布。它提供真实的传感器建模、可配置的交通动态和可扩展的闭环测试环境,实现快速验证和策略优化。
英伟达还提供了面向自动驾驶最多样化的大规模开放数据集,包含超过 1700 小时的驾驶数据,涵盖最广泛的地理位置和条件范围,覆盖罕见且复杂的真实世界边缘案例,这对于推进推理架构至关重要。这些数据集可在 Hugging Face 平台获取。
这些工具共同为基于推理的自动驾驶技术栈创建了一个自我强化的开发循环。开发者可以利用这些资源在专有车队数据上微调模型,将其集成到基于英伟达 DRIVE AGX Thor 加速计算构建的英伟达 DRIVE Hyperion 架构中,并在商业部署前通过仿真验证性能。
业界领军企业表达支持
据英伟达介绍,多家移动出行领域的领军企业对 Alpamayo 表示了浓厚兴趣。
Lucid Motors 高级驾驶辅助系统和自动驾驶副总裁 Kai Stepper 表示:"向物理 AI 的转变凸显了 AI 系统对真实世界行为进行推理能力的日益增长的需求,而不仅仅是处理数据。先进的仿真环境、丰富的数据集和推理模型是这一演进的重要元素。"
捷豹路虎产品工程执行总监 Thomas Müller 表示:"开放、透明的 AI 开发对于负责任地推进自动移动出行至关重要。通过开源 Alpamayo 等模型,英伟达正在帮助加速整个自动驾驶生态系统的创新,为开发者和研究人员提供新工具,以安全地应对复杂的真实世界场景。"
Uber 全球自动移动出行和配送负责人 Sarfraz Maredia 表示:"处理长尾和不可预测的驾驶场景是自动驾驶的决定性挑战之一。Alpamayo 为行业创造了令人兴奋的新机遇,可以加速物理 AI、提高透明度并增加安全的 L4 级部署。"
加州大学伯克利分校 DeepDrive 联合主任 Wei Zhan 表示:"Alpamayo 组合的推出代表着研究社区的一次重大飞跃。英伟达决定公开这一技术具有变革意义,因为其访问权限和能力将使我们能够以前所未有的规模进行训练——为我们提供了将自动驾驶推向主流所需的灵活性和资源。"
跨行业 AI 模型全面开放
本周一,英伟达还发布了推动各行业 AI 发展的多个新开源模型、数据和工具。
这些模型涵盖用于代理 AI 的英伟达 Nemotron 家族、用于物理 AI 的英伟达 Cosmos 平台、用于机器人的英伟达 Isaac GR00T 以及用于生物医学的英伟达 Clara。英伟达还提供了开源训练框架和全球最大的开放多模态数据集合之一,包括 10 万亿语言训练标记、50 万个机器人轨迹、45.5 万个蛋白质结构和 100TB 的车辆传感器数据。
英伟达代理式 AI 基础模型 Nemotron 发布了语音、多模态检索增强生成(RAG)和安全相关的新模型。Nemotron Speech 包含业界领先的开源模型,为实时字幕和语音 AI 应用提供实时、低延迟语音识别。Nemotron RAG 包含新的嵌入和重排序视觉语言模型,提供高度准确的多语言和多模态数据洞察。
在物理 AI 和机器人领域,英伟达发布了 Cosmos 开放世界基础模型,为加速物理 AI 开发和验证带来类人推理和世界生成能力。Isaac GR00T N1.6 是一个开放推理 VLA 模型,专为人形机器人打造,实现全身控制,并使用英伟达 Cosmos Reason 实现更好的推理和上下文理解。
英伟达称,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和 Uber 等科技业的领头羊正在采用并基于英伟达的开源模型技术进行开发。
英伟达的开源模型、数据和框架现已在 GitHub 和 Hugging Face 平台发布,并可通过一系列云、推理和 AI 基础设施平台以及 build.nvidia.com 获取。这些模型中的许多还以英伟达 NIM 微服务的形式提供,可在从边缘到云端的任何英伟达加速基础设施上进行安全、可扩展的部署。
