
Performance hard against Blackwell, energy efficiency surpassing GPU, a deep dive into the "real combat power" of Google's TPU

对于投资者和云厂商而言,TPU 最大的价值不仅仅是快,而是利润率。谷歌通过掌控 TPU 的全栈设计,成功绕开了 “英伟达税”。与此同时,Broadcom 的毛利远低于英伟达,这让谷歌能够将算力成本压到极致。从 TPU v6 到最新曝光的 TPU v7 ,谷歌不仅是在造芯,更是在为即将到来的 “AI 推理时代” 构建一道几乎不可逾越的护城河。
在 AI 算力领域,英伟达似乎是那个不可一世的霸主。但在聚光灯之外,科技巨头谷歌正在用一种更为隐秘却极具破坏力的方式,重新定义 AI 芯片的战争规则。
这张王牌,就是谷歌自研的 TPU(Tensor Processing Unit)。
如果你以为这只是谷歌为了省钱搞的 “备胎”,那就大错特错了。根据最新披露的深度资料,谷歌最新的 TPU v7(代号 Ironwood)不仅在显存容量上追平了英伟达的 B200,更在能效比上实现了对 GPU 的降维打击。甚至连黄仁勋本人也曾暗示,在 ASIC 领域,谷歌 TPU 是一个 “特殊的存在”。
从 TPU v6 (Trillium) 到最新曝光的 TPU v7 (Ironwood),谷歌不仅是在造芯,更是在为即将到来的 “AI 推理时代” 构建一道几乎不可逾越的护城河。
缘起:一场 “被迫” 的生存自救
TPU 的故事并非始于芯片制造的突破,而是始于一道令谷歌高层惊出一身冷汗的数学题。
2013 年,Jeff Dean 与 Google Brain 团队进行了一次推演:如果每一位 Android 用户每天只使用 3 分钟的语音搜索,谷歌就需要将全球数据中心的容量翻倍才能应对算力负载。
当时的谷歌依赖通用的 CPU 和 GPU,但这些芯片对于深度学习中海量的矩阵乘法运算来说,效率太低了。如果沿用旧硬件扩张,财务和物流成本将是一场噩梦。
于是,谷歌决定走一条从未走过的路:为 TensorFlow 神经网络量身定制一款 ASIC 芯片。
这个项目进展神速,从设计概念到数据中心部署仅用了 15 个月。2015 年,在外界还一无所知时,TPU 就已经在默默支撑谷歌地图、照片和翻译等核心业务了。
架构之争:甩掉 “包袱”,让数据像血液一样流动
为什么 TPU 的能效能吊打 GPU?这要从底层架构说起。
GPU 是为图形处理设计的 “通用” 并行处理器,为了处理从游戏纹理到科学模拟的各种任务,它背负了沉重的 “架构包袱”——比如复杂的缓存、分支预测和线程管理,这些都消耗了大量的芯片面积和能耗。
而 TPU 则极其 “极简主义”。它剥离了光栅化、纹理映射等所有无关硬件,采用了一种独特的 “脉动阵列”(Systolic Array)架构。
在传统 GPU 中,每次计算都需要在内存和计算单元之间搬运数据,形成了著名的 “冯·诺依曼瓶颈”。而在 TPU 的脉动阵列中,数据像血液流过心脏一样流过芯片。这大幅减少了对 HBM(高带宽内存)的读写次数,让芯片把时间花在计算上,而不是等待数据上。
这种设计让 TPU 在 “每焦耳运算量”(Operations Per Joule)上拥有碾压级的优势。
硬刚 Blackwell:TPU v7 的恐怖数据
虽然谷歌对性能数据一向讳莫如深,但根据 Semianalysis 和内部透露的数据,谷歌最新的 TPU v7 (Ironwood) 展现出了惊人的代际跨越。
算力暴涨: TPU v7 的 BF16 算力高达 4,614 TFLOPS,而上一代被广泛使用的 TPU v5p 仅为 459 TFLOPS。这是整整一个数量级的提升。
显存对标 B200: 单芯片 HBM 容量达到 192GB,这与英伟达的 Blackwell B200 完全一致(Blackwell Ultra 为 288GB)。
带宽狂飙: 内存带宽达到 7,370 GB/s,远超 v5p 的 2,765 GB/s。
在互联技术上,谷歌使用了光路交换机(OCS)和 3D 环面网络。
与英伟达的 InfiniBand 相比,OCS 极其节省成本和功耗,因为它消除了光电转换。虽然牺牲了一定的灵活性,但在处理特定 AI 任务时,配合谷歌的编译器,其效率无人能敌。
更值得注意的是能效。谷歌在 Hot Chips 2025 上透露,v7 的每瓦性能比 v6e(Trillium)提升了 100%。有前谷歌高管直言:“针对特定应用,TPU 能提供比 GPU 高出 1.4 倍的每美元性能。” 对于动态模型训练(如搜索类工作负载),TPU 的速度甚至是 GPU 的 5 倍。
逃离 “英伟达税”,重回高毛利时代
对于投资者和云厂商而言,TPU 最大的价值不仅仅是快,而是利润率。
在 AI 时代,云巨头们面临着从 “寡头垄断” 向 “大宗商品化” 的滑坡。因为必须采购英伟达的 GPU,高达 75% 的毛利被英伟达拿走了,云厂商的 AI 业务毛利从传统的 50-70% 骤降至 20-35%,甚至更像是一个收过路费的 “公用事业公司”。
如何回到高毛利时代?自研 ASIC 是唯一的解药。
谷歌通过掌控 TPU 的全栈设计(自己做前端 RTL 设计,Broadcom 只负责后端物理实现),成功绕开了 “英伟达税”。与此同时,Broadcom 的毛利远低于英伟达,这让谷歌能够将算力成本压到极致。
一位客户在使用对比后坦言:
如果我用 8 张 H100,对比使用一个 v5e Pod,后者的每美元性能不仅更高,而且随着谷歌推出新一代 TPU,旧款不仅不会淘汰,反而会变得极其便宜。
有时候如果愿意多等几天训练时间,成本甚至能降到原来的五分之一。
尽管 TPU 面临着生态系统(CUDA 的主导地位)和多云部署(数据迁移成本)的挑战,但随着 AI 工作负载从 “训练” 向 “推理” 转移,CUDA 的重要性在降低。
SemiAnalysis 的评价一针见血:
谷歌在超大规模计算厂商中的芯片霸权无人能及,TPU v7 在性能上足以与 Nvidia Blackwell 处于同一梯队。
在 AI 算力这场万亿美金的博弈中,英伟达虽然领跑,但手握 TPU 利剑的谷歌,或许是唯一一个能完全掌握自己命运的玩家。
