Code name "TorchTPU"! Google and Meta join forces to replicate CUDA, further threatening NVIDIA

华尔街见闻
2025.12.18 01:09
portai
I'm PortAI, I can summarize articles.

谷歌正与 Meta 密切合作推进这一计划,Meta 作为 PyTorch 的创建者和管理者,希望通过降低推理成本并使 AI 基础设施多元化,以增强与英伟达的谈判筹码。谷歌还在考虑将部分软件开源,以加速客户的采用速度。如果 TorchTPU 计划成功,将显著降低希望寻求英伟达 GPU 替代方案的企业的切换成本。

谷歌正在推进一项名为"TorchTPU"的内部计划,旨在提升其人工智能芯片对全球最广泛使用的 AI 软件框架 PyTorch 的兼容性,此举直指英伟达长期以来依赖的软件生态护城河。

据彭博社周四报道,知情人士透露称,谷歌正与 Meta 密切合作推进这一计划,Meta 作为 PyTorch 的创建者和管理者,希望通过降低推理成本并使 AI 基础设施多元化,以增强与英伟达的谈判筹码。谷歌还在考虑将部分软件开源,以加速客户的采用速度。

与过去支持 PyTorch 的尝试相比,谷歌此次投入了更多组织资源和战略重视。随着越来越多企业希望采用张量处理单元(TPU)芯片,但将软件堆栈视为瓶颈,这一计划已成为谷歌云业务的关键增长引擎。

如果成功,TorchTPU 将显著降低企业从英伟达 GPU 转向替代方案的切换成本。英伟达的主导地位不仅依赖硬件,更依赖其深度嵌入 PyTorch 的 CUDA 软件生态系统,而这一生态已成为企业训练和运行大型 AI 模型的默认方法。

软件兼容成 TPU 推广最大障碍

谷歌的 TorchTPU 计划旨在消除阻碍 TPU 芯片采用的关键障碍。知情人士表示,企业客户一直向谷歌反馈,TPU 在 AI 工作负载上更难采用,因为历史上开发者需要转向谷歌内部青睐的机器学习框架 Jax,而非大多数 AI 开发者已在使用的 PyTorch。

这一不匹配源于谷歌自身的技术路径。谷歌内部软件开发团队长期使用名为 Jax 的代码框架,其 TPU 芯片则依靠 XLA 工具来高效运行代码。谷歌自身的 AI 软件堆栈和性能优化主要围绕 Jax 构建,这扩大了谷歌使用芯片方式与客户需求之间的差距。

相比之下,英伟达的工程师多年来一直确保使用 PyTorch 开发的软件能在其芯片上尽可能快速高效地运行。PyTorch 是一个开源项目,其发展历史与英伟达 CUDA 软件的开发紧密相连。CUDA 被华尔街部分分析师视为英伟达抵御竞争对手的最强护盾。

谷歌加速 TPU 外部销售

Alphabet 长期以来将其 TPU 芯片的绝大部分份额保留给内部使用。这一情况在 2022 年发生改变,当时谷歌云计算部门成功游说,获得了 TPU 销售团队的管理权。此举大幅增加了谷歌云的 TPU 配额。

随着客户对 AI 兴趣的增长,谷歌一直寻求通过提高 TPU 产量和对外销售来获利。TPU 销售已成为谷歌云收入的关键增长引擎,该公司正努力向投资者证明其 AI 投资正在产生回报。

今年,谷歌开始将 TPU 直接销售到客户的数据中心,而不再限制只能通过自家云服务访问。本月,谷歌资深人士 Amin Vahdat 被任命为 AI 基础设施负责人,直接向首席执行官 Sundar Pichai 汇报。谷歌需要这些基础设施来运行自己的 AI 产品,包括 Gemini 聊天机器人和 AI 驱动的搜索,同时也要供应给 Anthropic 等谷歌云客户。

Meta 成为战略合作伙伴

为加速开发进程,谷歌正在与 Meta 密切合作。据 The Information 首次报道,两家科技巨头一直在讨论 Meta 获取更多 TPU 的交易。

知情人士透露,早期为 Meta 提供的服务采用谷歌托管模式,即 Meta 等客户安装谷歌设计的芯片来运行谷歌软件和模型,由谷歌提供运营支持。Meta 在开发使 TPU 更易运行的软件方面具有战略利益,希望借此降低推理成本,并使其 AI 基础设施从英伟达 GPU 多元化,从而获得谈判优势。

谷歌云发言人未就该项目的具体细节置评,该发言人表示:“我们看到对 TPU 和 GPU 基础设施的大规模加速需求。我们的重点是提供开发者所需的灵活性和规模,无论他们选择在哪种硬件上构建。” Meta 则拒绝置评。

降低切换成本挑战英伟达生态

PyTorch 最初于 2016 年发布,是开发 AI 模型的开发者最广泛使用的工具之一。在硅谷,很少有开发者会编写英伟达、Advanced Micro Devices 或谷歌芯片实际执行的每一行代码。相反,这些开发者依赖 PyTorch 等工具,这是一个预编写代码库和框架的集合,可以自动化 AI 软件开发中的许多常见任务。

知情人士表示,随着希望采用 TPU 芯片但将软件堆栈视为瓶颈的企业需求增长,谷歌已将更多组织重点、资源和战略重要性投入 TorchTPU 项目。大多数开发者无法轻松采用谷歌芯片并使其性能达到英伟达水平,除非进行大量额外的工程工作。在快节奏的 AI 竞赛中,这类工作需要时间和资金。

如果 TorchTPU 计划成功,将显著降低希望寻求英伟达 GPU 替代方案的企业的切换成本。英伟达的主导地位不仅由其硬件加固,更依赖其深度嵌入 PyTorch 的 CUDA 软件生态系统,这已成为企业训练和运行大型 AI 模型的默认方法。