
NVIDIA's 25-year roadmap has been leaked! Old Huang is betting big on B100 to beat AMD, and the secret weapon X100 has been revealed.

硬件路线图、工艺技术计划、HBM3E 的速度/容量…如果这些计划如愿成功,英伟达将继续成功碾压对手。
近日,外媒曝光了一份英伟达全新 GPU 路线图,史上最强 B100 技术细节全流出,其中最神秘的 X100,据悉将在 2025 年上市。
英伟达的 AI 硬件霸主,当得太久了!
现在,各大科技公司都在虎视眈眈,等着一举颠覆它的霸主之位。
当然,英伟达也不会坐以待毙。
最近,外媒 SemiAnalysis 曝出了一份英伟达未来几年的硬件路线图,包括万众瞩目的 H200、B100 和「X100」GPU。
随之一同流出的,还有一些硬核信息,包括英伟达的工艺技术计划、HBM3E 的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes 计划。
如果这些计划如愿成功,英伟达将继续成功碾压对手。
当然,霸主之位也没这么好当——AMD 的 MI300、MI400,亚马逊的 Trainium2,微软的 Athena,英特尔的 Gaudi 3,都不会让英伟达好过。
准备好,前方高能来袭!
英伟达,不止想做硬件霸主
谷歌早已开始布局自己的 AI 基础设施,他们构建的 TPUv5 和 TPUv5e,既可以用于内部的训练和推理,也可以给苹果、Anthropic、CharacterAI、MidJourney 等外部客户使用。
谷歌不是英伟达唯一的威胁。
在软件方面,Meta 的 PyTorch2.0 和 OpenAI 的 Triton 也在迅猛发展,使其他硬件供应商得以实现兼容。
现在,软件上的差距仍然存在,但远不及从前那么巨大了。
在软件堆栈上,AMD 的 GPU、英特尔的 Gaudi、Meta 的 MTIA 和微软的 Athena 都取得了一定程度的发展。
尽管英伟达仍然保持着硬件领先地位,但差距的缩小,会越来越快。
英伟达 H100,也不会独领风骚太久。
在接下来的几个月内,无论是 AMD 的 MI300,还是英特尔的 Gaudi 3,都将推出技术上优于 H100 的硬件产品。
而除了谷歌、AMD、英特尔这些难缠的对手,还有一些公司,也给了英伟达不小的压力。
这些公司虽然在硬件设计上暂时落后,但能得到背后巨头的补贴——天下苦英伟达久矣,这些公司都希望打破英伟达在 HBM 上的巨额利润垄断。
亚马逊即将推出的 Trainium2 和 Inferentia3, 微软即将推出的 Athena,都是已布局多年的投资。
竞争对手来势汹汹,英伟达当然也不会坐以待毙。
在外媒 SemiAnalysis 看来,无论管理风格还是路线决策,英伟达都是「行业中最多疑的公司之一」。
而黄仁勋身上,体现了一股安迪·格鲁夫的精神。
成功导致自满。自满导致失败。只有偏执狂才能生存。
为了稳坐第一把交椅,英伟达野心勃勃,采取了多管齐下的冒险策略。
他们已经不屑于再和英特尔、AMD 在传统的市场上竞争,而是想成为谷歌、微软、亚马逊、Meta、苹果这样的科技巨头。
而英伟达的 DGX Cloud、软件,以及针对非半导体领域的收购策略,背后都是一盘大棋。
路线图最新细节曝光!
英伟达最新路线图的重要细节,已经被曝光。
内容包括所采用的网络、内存、封装和工艺节点,各种 GPU、SerDes 选择、PCIe6.0、协同封装光学器件和光路交换机等细节。
显然,慑于谷歌、亚马逊、微软、AMD 和英特尔的竞争压力,英伟达连夜加快了B100和「X100」的研发。
B100:上市时间高于一切
根据内部消息,英伟达的 B100 将于 2024 年第三季度量产,部分早期样品将于 2024 年第二季度出货。
从性能和 TCO 看,无论是亚马逊的 Trainium2、谷歌的 TPUv5、AMD 的 MI300X,还是英特尔的 Gaudi 3 或微软的 Athena,跟它相比都弱爆了。
即使考虑到从设计合作方、AMD 或台积电获得的补贴,它们也统统打不过。
为了尽快将 B100 推向市场,英伟达做了不少妥协。
比如,英伟达本想把功耗定在更高的水平(1000W),但最终,他们还是选择了继续使用 H100 的 700W。
这样,B100 推出时,就能继续使用风冷技术。
此外,在 B100 早期系列,英伟达也会坚持使用 PCIe5.0。
5.0 和 700W 的组合意味着,它可以直接插入现有的 H100 HGX 服务器中,从而大大提高供应链能力,更早地量产和出货。
之所以决定坚持使用 5.0,还有部分原因是,AMD 和英特尔在 PCIe6.0 集成上还远远落后。而即使英伟达自己的内部团队,也没有准备好使用 PCIe6.0CPU。
此外,他们还将使用速度更快的 C2C 式链接。
在以后,ConnectX-8 会配备一款集成的 PCIe6.0 交换机,但目前还没人准备好。
据悉,博通和 AsteraLabs 要到年底才能准备好量产的 PCIe6.0 重定时器,而考虑到这些基板的尺寸,所需的重定时器只会更多。
这也意味着,最初的 B100 将被限制在 3.2T,使用 ConnectX-7 时的速度也仅仅是 400G,而非英伟达在 PPT 上所宣称的每个 GPU 800G。
如果保持空气冷却,电源、PCIe 和网络速度不变,那无论是制造还是部署,都会很容易。
稍后,英伟达会推出一个需要水冷的 1,000W+ 版本 B100。
这一版 B100 将通过 ConnectX-8,为每个 GPU 提供完整的 800G 网络连接。
对于以太网/InfiniBand,这些 SerDes 仍然是 8x100G。
虽然每个 GPU 的网络速度提高了一倍,但基数却减半了,因为它们仍需通过相同的 51.2T 交换机。而 102.4T 交换机,在 B100 一代中将不再使用。
有趣的是,有爆料称 B100 上的 NVLink 组件将采用 224G SerDes,如果英伟达真能做到这一点,无疑是巨大的进步。
大多数人业内人士都认为,224G 并不可靠,2024 年不可能实现,但英伟达的人除外。
要知道,无论是谷歌、Meta,还是亚马逊,他们的 224G AI 加速器量产目标都定在 2026/2027 年。
如果英伟达在 2024/2025 年就实现了这一点,铁定会把对手们打得落花流水。
据悉,B100 仍然是台积电的 N4P,而不是基于 3nm 工艺的技术。
显然,对于如此大的芯片尺寸,台积电的 3nm 工艺尚未成熟。
根据英伟达基板供应商 Ibiden 透露的基板尺寸,英伟达似乎已经转而采用由 2 个单片大芯片 MCM 组成的设计,包含 8 或 12 个 HBM 堆叠。
SambaNova 和英特尔明年的芯片,都采用了类似的宏观设计。
英伟达之所以没有像 AMD 那样使用混合键合技术,是因为他们需要量产,而成本就是他们的一大顾虑。
据 SemiAnalysis 估测,这两款 B100 芯片的内存容量将与 AMD 的 MI300X 相近或更高,达到 24GB 堆叠。
风冷版 B100 的速度可达 6.4Gbps,而液冷版可能高达 9.2Gbps。
另外,英伟达还在路线图中展示了 GB200 和 B40。
GB200 和 GX200 都使用了 G,显然这是一个占位符,因为英伟达将推出基于 Arm 架构的新 CPU。并不会长期使用 Grace。
B40 很可能只是 B100 的一半,只有一个单片 N4P 芯片,和最多 4 或 6 层的 HBM。与 L40S 不同,这对于小模型的推理是很有意义的。
「X100」:致命一击
曝出的路线图中最惹人注意的,就是英伟达的「X100」时间表了。
有趣的是,它与 AMD 目前的 MI400 时间表完全吻合。就在 H100 推出一年后,AMD 发布了 MI300X 战略。
AMD 给 MI300X 的封装令人印象深刻,他们大量塞入了更多的计算和内存,希望能超越一年前的 H100,从而在纯硬件上超越英伟达。
英伟达也发现了,他们两年一次发布新 GPU 的节奏,给了竞争对手大好的机会抢夺市场。
被逼急了的英伟达,正在把产品周期加快到每年一次,不给对手任何机会。比如,他们计划于 2025 年推出「X100」,仅仅比 B100 晚一年。
当然,「X100」目前还并未量产(不像 B100),所以一切还悬而未决。
要知道,在过去,英伟达可从来不会讨论下一代产品之后的产品,这次已经是史无前例了。
而且,名字大概率也不叫「X100」。
英伟达一直以来的传统,都是以 Ada Lovelace、Grace Hopper 和 Elizabeth Blackwell 等杰出女科学家的名字来命名 GPU 的。
至于「X」,唯一符合逻辑的就是研究半导体和金属带结构的 Xie Xide,但考虑到她的身份,概率应该不大。
供应链大师:老黄的豪赌
自英伟达成立之初,黄仁勋就一直在积极推动着对供应链的掌握,从而支持庞大的增长目标。
他们不仅愿意承担不可取消的订单——高达 111.5 亿美元的采购、产能和库存承诺,并且还有 38.1 亿美元的预付款协议。
可以说,没有一家供应商能与之相提并论。
而英伟达的事迹也不止一次表明,他们可以在供应短缺时创造性地增加供应量。
2007 年黄仁勋与张忠谋的对话
1997 年,张忠谋和我相遇时,只有 100 人的英伟达在那一年完成了 2700 万美元的收入。你们可能不相信,但张忠谋以前经常打电话推销,并且还会上门拜访。而我则会向张忠谋解释英伟达是做什么的,以及我们的芯片尺寸需要多大,而且每年都会越来越大。后来,英伟达总共做了 1.27 亿个晶圆。从那时起,英伟达每年增长近 100%,直到现在。也就是在过去 10 年中,复合年增长率达到了 70% 左右。
当时,张忠谋无法相信英伟达需要如此多的晶圆,但黄仁勋坚持了下来。
英伟达通过在供应方面的大胆尝试,取得了巨大成功。虽然时不时要减记价值数十亿美元的库存,但他们仍然从过度的订购中获得了正收益。
这次,英伟达直接抢占了 GPU 上游组件的大部分供应——
他们向 SK 海力士、三星和美光这 3 家 HBM 供应商下了非常大的订单,挤占了除博通和 Google 之外其他所有人的供应。同时,还买下了台积电 CoWoS 的大部分供应,以及 Amkor 的产能。
此外,英伟达还充分利用了 HGX 板卡和服务器所需的下游组件,如重定时器、DSP、光学器件等。
如果供应商对英伟达要求置若罔闻,那么就会面对老黄的「萝卜加大棒」——
一方面,他们会从英伟达获得难以想象的订单;另一方面,他们可能会被英伟达从现有的供应链中剔除。
当然,英伟达也只有在供应商至关重要且无法被淘汰或多元化供应的情况下,才会使用承诺和不可取消的订单。
每个供应商似乎都认为自己是 AI 的赢家,部分原因是因为英伟达向所有供应商都下了大量的订单,而他们也都认为自己赢得了大部分业务。但实际上,只是因为英伟达的增长速度太快了。
回到市场动态上,虽然英伟达的目标是在明年实现超过 700 亿美元的数据中心销售额,但只有谷歌在上游有足够的产能——拥有超过 100 万台的设备。AMD 在 AI 领域的总产能仍然非常有限,最高也不过几十万台。
商业策略:潜在的反竞争
众所周知,英伟达正在利用对 GPU 的巨大需求,来向客户推销和交叉销售产品。
供应链中有大量信息透露,英伟达会根据一系列因素向某些公司提供优先分配。包括但不限于:多元化采购计划、自主研发 AI 芯片计划、购买英伟达的 DGX、NIC、交换机和/或光学设备等。
事实上,英伟达的捆绑销售非常成功。尽管之前只是一家规模很小的光纤收发器供应商,但他们的业务量在一个季度内增长了两倍,预计明年的出货量将超过 10 亿美元——远远超过了自家 GPU 或网络芯片业务的增长速度。
这些策略,可以说是相当周密。
比如,想要在英伟达的系统上实现 3.2T 网络和可靠的 RDMA/RoCE,唯一方法就是使用英伟达的 NIC。当然,一方面也是因为英特尔、AMD 和博通的产品实在是缺乏竞争力——仍然停留在 200G 的水平上。
而通过对供应链的管理,英伟达还促使 400G InfiniBand NIC 的交付周期,能够比 400G 以太网 NIC 明显缩短。而这两种 NIC(ConnectX-7)在芯片和电路板设计上,其实是完全相同的。
其原因在于英伟达的 SKU 配置,而非实际的供应链瓶颈——迫使企业不得不购买成本更高的 InfiniBand 交换机,而不是标准的以太网交换机。
这还不止,看看供应链对 L40 和 L40S GPU 有多么着迷,就知道英伟达又在分配上做手脚了——为了赢得更多 H100 的分配,OEM 厂商就需要购买更多的 L40S。
这与英伟达在 PC 领域的操作,也是如出一辙——笔记本制造商和 AIB 合作伙伴必须购买更大量的 G106/G107(中/低端 GPU)才能获得更稀缺、更高利润的 G102/G104(高端和旗舰 GPU)。
作为配合,供应链中的人也被灌输了这样的说法——L40S 比 A100 更好,因为它具有更高的 FLOPS。
但实际上,这些 GPU 并不适合 LLM 推理,因为它们的显存带宽还不到 A100 的一半,而且也没有 NVLink。
这意味着在 L40S 上运行 LLM 并实现良好的 TCO 几乎是不可能的,除非是非常小的模型。而大批量的处理也会导致分配到每个用户上的 token/s 几乎是不可用的,从而使理论上的 FLOPS 在实际应用中变得毫无用处。
此外,英伟达的 MGX 模块化平台,虽然省去了服务器设计的艰苦工作,但也同时降低了 OEM 的利润率。
戴尔、惠普和联想等公司显然对 MGX 持抵制态度,但诸如超微、广达、华硕、技嘉等公司则争相填补这一空白,将低成本的「企业人工智能」商品化。
而这些参与 L40S 和 MGX 炒作的 OEM/ODM,也可以从英伟达那里获得更好的主线 GPU 产品分配。
光电共封装(Co-Packaged Optics)
在 CPO 方面,英伟达也是相当重视。
他们一直在研究各种解决方案,包括来自 Ayar Labs 的解决方案,以及他们自己从 Global Foundries 和台积电获得的解决方案。
目前,英伟达已经考察了几家初创公司的 CPO 方案,但暂时还没有做出最终的决定。
分析认为,英伟达很有可能将 CPO 集成到「X100」的 NVSwitch 上。
因为直接集成到 GPU 本身可能成本太高,而且在可靠性方面也很困难。
光路交换机(Optical Circuit Switch)
谷歌在人工智能基础设施方面最大的优势之一,就是它的光路交换机。
显然,英伟达也在追求类似的东西。目前,他们已经接触了多家公司,希望能够进行合作开发。
英伟达意识到,Fat Tree 在继续扩展方面已经走到了尽头,因此需要另一种拓扑结构。
与谷歌选择 6D Torus 不同,英伟达更倾向于采用 Dragonfly 结构。
据了解,英伟达距离 OCS 的出货还遥遥无期,但他们希望在 2025 年时能够更加接近这一目标,但大概率无法实现。
OCS + CPO 是圣杯,尤其是当 OCS 可以实现按数据包交换时,将会直接改变游戏规则。
不过,目前还没有人展示过这种能力,甚至连谷歌也没有。
虽然英伟达的 OCS 和 CPO 还只是研究部门的两套 PPT,但分析人士认为,CPO 会在 2025 至 2026 年内离产品化更进一步。
本文来源:新智元,原文标题:《英伟达 25 年路线图惊爆流出!老黄豪赌 B100 暴打 AMD,秘密武器 X100 曝光》
