英伟达 AI 芯片路线图分析与解读
在 2023 年 10 月的投资者会议上,Nvidia 展示了其全新的 GPU 发展蓝图,将推出 H200 和 B100 GPU,以及 X100 GPU。Nvidia 的战略核心是统一架构,支持在任何地方进行模型训练和部署。其 AI 芯片布局涵盖了训练和推理两个人工智能关键应用,并支持 x86 和 Arm 两种不同硬件生态。Nvidia 旨在通过全面的差异化的 AI 解决方案保持技术和市场的领先地位。
在 2023 年 10 月的投资者会议上,Nvidia 展示了其全新的 GPU 发展蓝图 。
与以往两年一次的更新节奏不同,这次的路线图将演进周期缩短至一年。预计在 2024 年,Nvidia 将推出 H200 和 B100 GPU;到 2025 年,X100 GPU 也将面世。其 AI 芯片规划的战略核心是“One Architecture” 统一架构,支持在任何地方进行模型训练和部署,无论是数据中心还是边缘设备,无论是 x86 架构还是 Arm 架构。其解决方案适用于超大规模数据中心的训练任务,也可以满足企业级用户的边缘计算需求。AI 芯片从两年一次的更新周期转变为一年一次的更新周期,反映了其产品开发速度的加快和对市场变化的快速响应。其 AI 芯片布局涵盖了训练和推理两个人工智能关键应用,训练推理融合,并侧重推理。同时支持 x86 和 Arm 两种不同硬件生态。在市场定位方面,同时面向超大规模云计算和企业级用户,以满足不同需求。Nvidia 旨在通过统一的架构、广泛的硬件支持、快速的产品更新周期以及面向不同市场提供全面的差异化的 AI 解决方案,从而在人工智能领域保持技术和市场的领先地位。Nvidia 是一个同时拥有 GPU、CPU 和 DPU 的计算芯片和系统公司。Nvidia 通过 NVLink、NVSwitch 和 NVLink C2C 技术将 CPU、GPU 进行灵活连接组合形成统一的硬件架构,并于 CUDA 一起形成完整的软硬件生态。
在 AI 计算芯片架构方面,注重训练和推理功能的整合,侧重推理。围绕 GPU 打造 ARM 和 X86 两条技术路线。在 Nvidia 的 AI 路线图中,并没有显示提及 Grace CPU 的技术路线,而是将其纳入 Grace+GPU 的 SuperChip 超级芯片路标中。
Nvidia Grace CPU 会跟随 GPU 的演进节奏并与其组合成新一代超级芯片;而其自身也可能根据市场竞争的需求组合成 CPU 超级芯片,实现 “二打一” 的差异化竞争力。从需求角度来看,CPU 的技术演进速度并不像 GPU 那样紧迫,并且 CPU 对于成本更加敏感。CPU 只需按照 “摩尔” 或 “系统摩尔”,以每两年性能翻倍的速度进行演进即可。而 GPU 算力需要不到一年就要实现性能翻倍,保持每年大约 2.5 倍的速率增长。这种差异催生了超级芯片和超节点的出现。
Nvidia 将延用 SuperChip 超级芯片架构,NVLink-C2C 和 NVLink 互联技术在 Nvidia 未来的 AI 芯片架构中将持续发挥关键作用。其利用 NVLink-C2C 互联技术构建 GH200、GB200 和 GX200 超级芯片。更进一步,通过 NVLink 互联技术,两颗 GH200、GB200 和 GX200 可以背靠背连接,形成 GH200NVL、GB200NVL 和 GX200NVL 模组。Nvidia 可以通过 NVLink 网络组成超节点,通过 InfiniBand 或 Ethernet 网络组成更大规模的 AI 集群。
在交换芯片方面,仍然坚持 InfiniBand 和 Ethernet 两条开放路线,瞄准不同市场,前者瞄准 AI Factory,后者瞄准 AIGC Cloud。但其并未给出 NVLink 和 NVSwitch 自有生态的明确计划。224G 代际的速度提升,可能率先 NVLink 和 NVSwitch 上落地。以 InfiniBand 为基础的 Quantum 系列和以 Ethernet 基础的 Spectrum-X 系列持续升级。预计到 2024 年,将商用基于 100G SerDes 的 800G 接口的交换芯片;而到 2025 年,将迎来基于 200G SerDes 的 1.6T 接口的交换芯片。其中 800G 对应 51.2T 交换容量的 Spectrum-4 芯片,而 1.6T 则对应下一代 Spectrum-5,其交换容量可能高达 102.4T。从演进速度上看,224G 代际略有提速,但从长时间周期上看,其仍然遵循着 SerDes 速率大约 3 到 4 年翻倍、交换芯片容量大约 2 年翻倍的规律。虽然有提到 2024 年 Quantum 将会升级到 800G,但目前我们只能看到 2021 年发布的基于 7nm 工艺,400G 接口的 25.6T Quantum-2 交换芯片。路线图中并未包含 NVSwitch 4.0 和 NVLink 5.0 的相关计划。有预测指出 Nvidia 可能会首先在 NVSwitch 和 NVLink 中应用 224G SerDes 技术。NVLink 和 NVSwitch 作为 Nvidia 自有生态,不会受到标准生态的掣肘,在推出时间和技术路线选择上更灵活,从而实现差异化竞争力。
SmartNIC 智能网卡/DPU 数据处理引擎的下一跳 ConnectX-8/BlueField-4 目标速率为 800G,与 1.6T Quantum 和 Spectrum-X 配套的 SmartNIC 和 DPU 的路标仍不明晰,NVLink5.0 和 NVSwitch4.0 可能提前发力。Nvidia ConnectX 系列 SmartNIC 智能网卡与 InfiniBand 技术相结合,可以在基于 NVLink 网络的超节点基础上构建更大规模的 AI 集群。而 BlueField DPU 则主要面向云数据中心场景,与 Ethernet 技术结合,提供更强大的网络基础设施能力。相较于 NVLink 总线域网络,InfiniBand 和 Ethernet 属于传统网络技术,两种网络带宽比例大约为 1 比 9。例如,H00 GPU 用于连接 SmartNIC 和 DPU 的 PCIE 带宽为 128GB/s,考虑到 PCIE 到 Ethernet 的转换,其最大可以支持 400G InfiniBand 或者 Ethernet 接口,而 NVLink 双向带宽为 900GB/s 或者 3.6Tbps,因此传统网络和总线域网络的带宽比为 1 比 9。虽然 SmartNIC 和 DPU 的速率增长需求没有总线域网络的增速快,但它们与大容量交换芯片需要保持同步的演进速度。它们也受到由 IBTA (InfiniBand) 和 IEEE802.3 (Ethernet) 定义互通标准的产业生态成熟度的制约。
互联技术在未来的计算系统的扩展中起到至关重要的作用。Nvidia 同步布局的还有 LinkX 系列光电互联技术。包括传统带 oDSP 引擎的可插拔光互联 (Pluggable Optics),线性直驱光互联 LPO (Linear Pluggable Optics),传统 DAC 电缆、重驱动电缆 (Redrived Active Copper Cable)、芯片出光 (Co-Packaged Optics) 等一系列光电互联技术。随着超节点和集群网络的规模不断扩大,互联技术将在未来的 AI 计算系统中发挥至关重要的作用,需要解决带宽、时延、功耗、可靠性、成本等一系列难题。
对 Nvidia 而言,来自 Google、Meta、AMD、Microsoft 和 Amazon 等公司的竞争压力正在加大。这些公司在软件和硬件方面都在积极发展,试图挑战 Nvidia 在该领域的主导地位,这或许是 Nvidia 提出相对激进技术路线图的原因。Nvidia 为了保持其市场地位和利润率,采取了一种大胆且风险重重的多管齐下的策略。他们的目标是超越传统的竞争对手如 Intel 和 AMD,成为科技巨头,与 Google、Microsoft、Amazon、Meta 和 Apple 等公司并驾齐驱。Nvidia 的计划包括推出 H200、B100 和 “X100” GPU,以及进行每年度更新的 AI GPU。此外,他们还计划推出 HBM3E 高速存储器、PCIE 6.0 和 PCIE 7.0、以及 NVLink、224G SerDes、1.6T 接口等先进技术,如果计划成功,Nvidia 将超越所有潜在的竞争对手 [2]。
尽管硬件和芯片领域的创新不断突破,但其发展仍然受到第一性原理的限制,存在天然物理边界的约束。通过深入了解工艺制程、先进封装、内存和互联等多个技术路线,可以推断出未来 Nvidia 可能采用的技术路径。尽管基于第一性原理的推演成功率高,但仍需考虑非技术因素的影响。例如,通过供应链控制,在一定时间内垄断核心部件或技术的产能,如 HBM、TSMC CoWoS 先进封装工艺等,可以影响技术演进的节奏。根据 Nvidia 2023 年 Q4 财报,该公司季度收入达到 76.4 亿美元,同比增长 53%,创下历史新高。全年收入更是增长 61%,达到 269.1 亿美元的纪录。数据中心业务在第四季度贡献了 32.6 亿美元的收入,同比增长 71%,环比增长 11%。财年全年数据中心收入增长 58%,达到创纪录的 106.1 亿美元 [3]。因此 Nvidia 拥有足够大的现金流可以在短时间内对供应链,甚至产业链施加影响。另外,也存在一些黑天鹅事件也可能产生影响,比如以色列和哈马斯的战争就导致了 Nvidia 取消了原定于 10 月 15 日和 16 日举行的 AI SUMMIT [4]。业界原本预期,Nvidia 将于峰会中展示下一代 B100 GPU 芯片 [5]。值得注意的是,Nvidia 的网络部门前身 Mellanox 正位于以色列。
为了避免陷入不可知论,本文的分析主要基于物理规律的第一性原理,而不考虑经济手段(例如控制供应链)和其他可能出现的黑天鹅事件(例如战争)等不确定性因素。当然,这些因素有可能在技术链条的某个环节产生重大影响,导致技术或者产品演进节奏的放缓,或者导致整个技术体系进行一定的微调,但不会对整个技术演进趋势产生颠覆式的影响。考虑到这些潜在的变化,本文的分析将尽量采取一种客观且全面的方式来评估这些可能的技术路径。我们将以 “如果 A 那么 X;如果 B 那么 Y;…” 的形式进行思考和分析,旨在涵盖所有可能影响技术发展的因素,以便提供更准确、更全面的分析结果。此外,本文分析是基于两到三年各个关键技术的路标假设,即 2025 年之前。当相应的前提条件变化,相应的结论也应该作适当的调整,但是整体的分析思路是普适的。
Nvidia 的 AI 布局
Nvidia 在人工智能领域的布局堪称全面,其以系统和网络、硬件和软件为三大支柱,构建起了深厚的技术护城河 [6]。有分析称 Nvidia 的 H100 显卡有高达 90% 的毛利率。Nvidia 通过扶持像 Coreweave 这样的 GPU 云服务商,利用供货合同让他们从银行获取资金,然后购买更多的 H100 显卡,锁定未来的显卡需求量。这种模式已经超出传统硬件公司的商业模式,套用马克思在资本论中所述 “金银天然不是货币,货币天然是金银。”,有人提出了 “货币天然不是 H100,但 H100 天然是货币” 的说法 [7]。这一切的背后在于对于对未来奇点临近的预期 [8],在于旺盛的需求,同时更在于其深厚的技术护城河。
Nvidia 2019 年 3 月发起对 Mellanox 的收购 [9],并且于 2020 年 4 月完成收购 [10],经过这次收购 Nvidia 获取了 InfiniBand、Ethernet、SmartNIC、DPU 及 LinkX 互联的能力。面向 GPU 互联,自研 NVLink 互联和 NVLink 网络来实现 GPU 算力 Scale Up 扩展,相比于基于 InfiniBand 网络和基于 Ethernet 的 RoCE 网络形成差异化竞争力。NVLink 自 2014 年推出以来,已经历了四个代际的演进,从最初的 2014 年 20G NVLink 1.0,2018 年 25G NVLink2.0,2020 年 50G NVLink 3.0 到 2022 年的 100G NVLink 4.0,预计到 2024 年,NVLink 将进一步发展至 200G NVLink 5.0。在应用场景上,NVLink 1.0 至 3.0 主要针对 PCIE 板内和机框内互联的需求,通过 SerDes 提速在与 PCIE 互联的竞争中获取显著的带宽优势。值得注意的是,除了 NVLink1.0 采用了 20G 特殊速率点以外,NVLink2.0~4.0 皆采用了与 Ethernet 相同或者相近的频点,这样做的好处是可以复用成熟的 Ethernet 互联生态,也为未来实现连接盒子或机框组成超节点埋下伏笔。NVSwitch 1.0、2.0、3.0 分别与 NVLink2.0、3.0、4.0 配合,形成了 NVLink 总线域网络的基础。NVLink4.0 配合 NVSwitch3.0 组成了超节点网络的基础,这一变化的外部特征是 NVSwitch 脱离计算单板而单独成为网络设备,而 NVLink 则从板级互联技术升级成为设备间互联技术。
在计算芯片领域,Nvidia 于 2020 年 9 月发起 ARM 收购,期望构建人工智能时代顶级的计算公司 [11],这一收购提案因为面临重大监管挑战阻碍了交易的进行,于 2022 年 2 月终止 [12]。但是,在同年 3 月其发布了基于 ARM 的 Grace CPU Superchip 超级芯片 [13]。成为同时拥有 CPU、GPU 和 DPU 的计算芯片和系统公司。
从业务视角看,Nvidia 在系统和网络、硬件、软件三个方面占据了主导地位 [6]。系统和网络、硬件、软件这三个方面是人工智能价值链中许多大型参与者无法有效或快速复制的重要部分,这意味着 Nvidia 在整个生态系统中占据着主导地位。要击败 Nvidia 就像攻击一个多头蛇怪。必须同时切断所有三个头才有可能有机会,因为它的每个 “头” 都已经是各自领域的领导者,并且 Nvidia 正在努力改进和扩大其护城河。在一批人工智能硬件挑战者的失败中,可以看到,他们都提供了一种与 Nvidia GPU 相当或略好的硬件,但未能提供支持该硬件的软件生态和解决可扩展问题的方案。而 Nvidia 成功地做到了这一切,并成功抵挡住了一次冲击。这就是为什么 Nvidia 的战略像是一个三头水蛇怪,后来者必须同时击败他们在系统和网络、硬件以及软件方面的技术和生态护城河。目前,进入 Nvidia 平台似乎能够占据先机。OpenAI、微软和 Nvidia 显然处于领先地位。尽管 Google 和 Amazon 也在努力建立自己的生态系统,但 Nvidia 提供了更完整的硬件、软件和系统解决方案,使其成为最具吸引力的选择。要赢得先机,就必须进入其硬件、软件和系统级业务生态。然而,这也意味着进一步被锁定,未来更难撼动其地位。从 Google 和 Amazon 等公司的角度来看,如果不选择接入 Nvidia 的生态系统,可能会失去先机;而如果选择接入,则可能意味着失去未来。
Nvidia 布局了两种类型网络,一种是传统 InfiniBand 和 Ethernet 网络,另一种是 NVLink 总线域网络。在传统网络中,Ethernet 面向 AIGC Cloud 多 AI 训练和推理等云服务,而 InfiniBand 面向 AI Factory,满足大模型训练和推理的应用需求。在交换芯片布局方面,有基于开放 Ethernet 增强的 Spectrum-X 交换芯片和基于 InfiniBand 的封闭高性能的 Quantum 交换芯片。当前 Ultra Ethernet Consortium (UEC) 正在尝试定义基于 Ethernet 的开放、互操作、高性能的全栈架构,以满足不断增长的 AI 和 HPC 网络需求 [14],旨在与 Nvidia 的网络技术相抗衡。UEC 的目标是构建一个类似于 InfiniBand 的开放协议生态,从技术层面可以理解为将 Ethernet 进行增强以达到 InfiniBand 网络的性能,或者说是实现一种 InfiniBand 化的 Ethernet。从某种意义上说 UEC 在重走 InfiniBand 道路。总线域网络 NVLink 的主要特征是要在超节点范围内实现内存语义级通信和总线域网络内部的内存共享,它本质上是一个 Load-Store 网络,是传统总线网络规模扩大以后的自然演进。从 NVLink 接口的演进历程可以看出,其 1.0~3.0 版本明显是对标 PCIE 的,而 4.0 版本实际上对标 InfiniBand 和 Ethernet 的应用场景,但其主要目标还是实现 GPU 的 Scale Up 扩展。
从原始需求的角度来看,NVLink 网络在演进过程中需要引入传统网络的一些基本能力,例如编址寻址、路由、均衡、调度、拥塞控制、管理控制和测量等。同时,NVLink 还需要保留总线网络基本特征,如低时延、高可靠性、内存统一编址共享以及内存语义通信。这些特征是当前 InfiniBand 或 Ethernet 网络所不具备的或者说欠缺的。与 InfiniBand 和 Ethernet 传统网络相比,NVLink 总线域网络的功能定位和设计理念存在着本质上的区别。我们很难说 NVLink 网络和传统 InfiniBand 网络或者增强 Ethernet 网络最终会殊途同归。
Nvidia 在 AI 集群竞争态势中展现出了全面布局,涵盖了计算(芯片、超级芯片)和网络(超节点、集群)领域。在计算芯片方面,Nvidia 拥有 CPU、GPU、CPU-CPU/CPU-GPU SuperChip 等全面的布局;在超节点网络层面,Nvidia 提供了 NVLink 和 InfiniBand 两种定制化网络选项;在集群网络方面,Nvidia 有基于 Ethernet 的交换芯片和 DPU 芯片布局。AMD 紧随其后,更专注于 CPU 和 GPU 计算芯片,并采用基于先进封装的 Chiplet 芯粒技术。与 Nvidia 不同的是,AMD 当前没有超级芯片的概念,而是采用了先进封装将 CPU 和 GPU Die 合封在一起。AMD 使用私有的 Infinity Fabric Link 内存一致接口进行 GPU、CPU、GPU 和 CPU 间的互联,而 GPU 和 CPU 之间的互联仍然保留传统的 PCIE 连接方式。此外,AMD 计划推出 XSwitch 交换芯片,下一代 MI450 加速器将利用新的互连结构,其目的显然是与 Nvidia 的 NVSwitch 竞争 [15]。BRCM 则专注于网络领域,在超节点网络有对标 InfiniBand 的 Jericho3-AI+Ramon 的 DDC 方案;在集群网络领域有基于 Ethernet 的 Tomahawk 系列和 Trident 系列交换芯片。近期 BRCM 推出其新的软件可编程交换 Trident 5-X12 集成了 NetGNT 神经网络引擎实时识别网络流量信息,并调用拥塞控制技术来避免网络性能下降,提高网络效率和性能 [16]。Cerebras/Telsa Dojo 则 “剑走偏锋”,走依赖 “晶圆级先进封装” 的深度定制硬件路线。
工程工艺洞察和推演假设
半导体工艺演进洞察
根据 IRDS 的乐观预测,未来 5 年,逻辑器件的制造工艺仍将快速演进,2025 年会初步实现 Logic 器件的 3D 集成。TSMC 和 Samsung 将在 2025 年左右开始量产基于 GAA (MBCFET) 的 2nm 和 3nm 制程的产品 [17]。
按照 TSMC 给出的工艺演进路标,2023~2025 年基本以 3nm 工艺为主,2nm 工艺在 2025 年以后才会发布。3nm 技术已经进入量产阶段,N3 工艺和 N3E 版本已经于 2023 年推出。2024 年下半年开始生产 N3P 版本,该版本将提供比 N3E 更高的速度、更低的功耗和更高的芯片密度。此外,N3X 版本将专注于高性能计算应用,提供更高的时钟频率和性能,预计将于 2025 年开始量产 [18]。工艺演进的收益对于逻辑器件的收益小于 50%,因此,未来单芯片算力提升将更依赖于先进封装技术。
先进封装演进洞察
TSMC 的 CoWoS 先进封装工艺封装基板的尺寸在 2023 年为 4 倍 Reticle 面积,2025 年将达到 6 倍 Reticle 面积 [19]。当前 Nvidia H100 GPU 的封装基板尺寸小于 2 倍 Reticle 面积,AMD 的 MI300 系列 GPU 的封装基板尺寸大约为 3.5 倍 Reticle 面积,逼近当前 TSMC CoWoS-L 工艺的极限。
HBM 内存演进洞察
HBM 内存的容量预计将在 2024 年达到 24GB,并在 2025 年进一步增长至 36GB [20]。HBM4 预计将带来两个重要的变化:首先,HBM 接口位宽将从 1024 扩展到 2048;其次,业界正在尝试将 HBM 内存 Die 直接堆叠在逻辑 Die 的上方 [21][22]。这两个变化意味着 HBM 内存的带宽和单个封装内能容纳的容量都将持续增长。
据报道,SK 海力士已经开始招聘 CPU 和 GPU 等逻辑半导体的设计人员。该公司显然正在考虑将 HBM4 直接堆叠在处理器上,这不仅会改变逻辑和存储器设备的传统互连方式,还会改变它们的制造方式。事实上,如果 SK 海力士成功实现这一目标,这可能会彻底改变芯片代工行业 [21][22]。
推演假设
本文基于两个前提假设来推演 Nvidia 未来 AI 芯片的架构演进。首先,每一代 AI 芯片的存储、计算和互联比例保持大致一致,且比上一代提升 1.5 到 2 倍以上;其次,工程工艺演进是渐进且可预测的,不存在跳变,至少在 2025 年之前不会发生跳变。到 2025 年,工艺将保持在 3nm 水平,但工艺演进给逻辑器件带来的收益预计不会超过 50%。同时,先进封装技术预计将在 2025 年达到 6 倍 Reticle 面积的水平。此外,HBM 内存容量也将继续增长,预计在 2024 年将达到 24GB,而在 2025 年将达到 36GB。
Nvidia AI 芯片架构解读
互联技术在很大程度上决定了芯片和系统的物理架构。Nvidia 利用 NVLink-C2C 这种低时延、高密度、低成本的互联技术来构建 SuperChip 超级芯片,旨在兼顾性能和成本打造差异化竞争力。与传统的 SerDes 互联相比,NVLink C2C 采用了高密度单端架构和 NRZ 调制,使其在实现相同互联带宽时能够在时延、功耗、面积等方面达到最佳平衡点;而与 Chiplet Die-to-Die 互联相比,NVLink C2C 具备更强的驱动能力,并支持独立封装芯片间的互联,因此可以使用标准封装,满足某些芯片的低成本需求。
为了确保 CPU 和 GPU 之间的内存一致性操作 (Cache-Coherency),对于 NVLink C2C 接口有极低时延的要求。H100 GPU 的左侧需要同时支持 NVLink C2C 和 PCIE 接口,前者 H100 GPU 的左侧需要同时支持 NVLink C2C 和 PCIE 接口,前者用于实现与 Nvidia 自研 Grace CPU 组成 Grace-Hopper SuperChip,后者用于实现与 PCIE 交换芯片、第三方 CPU、DPU、SmartNIC 对接。NVLink C2C 的互联带宽为 900GB/s,PCIE 互联带宽为 128GB/s。而当 Hopper GPU 与 Grace CPU 组成 SuperChip 时,需要支持封装级的互联。值得注意的是,Grace CPU 之间也可以通过 NVLink C2C 互联组成 Grace CPU SuperChip。考虑到成本因素,Nvidia 没有选择采用双 Die 合封的方式组成 Grace CPU,而是通过封装间的 C2C 互联组成 SuperChip 超级芯片。
从时延角度来看,NVLink C2C 采用 40Gbps NRZ 调制,可以实现无误码运行 (BER<1e-12),免除 FEC,接口时延可以做到小于 5ns。相比之下,112G DSP 架构的 SerDes 本身时延可以高达 20ns,因为采用了 PAM4 调制,因此还需要引入 FEC,这会额外增加百纳秒量级的时延。此外,NVLink C2C 采用了独立的时钟线来传递时钟信号,因此数据线上的信号不需要维持通信信号直流均衡的编码或扰码,可以进一步将时延降低到极致。因此,引入 NVLink C2C 的主要动机是满足芯片间低时延互联需求。
从互联密度来看,当前 112G SerDes 的边密度可以达到 12.8Tbps 每边长,远远大于当前 H100 的 (900+128) GB/s * 8/2 = 4.112Tbps 的边密度需求。NVLink C2C 的面密度是 SerDes 的 3 到 4 倍,(169Gbps/mm2 vs. 552Gbps/mm2)。而当前 NVLink C2C 的边密度还略低于 SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的边密度显然不是 NVLink C2C 需要解决的主要矛盾。
从驱动能力来看,112G SerDes 的驱动能力远大于 NVLink C2C。这在一定程度上会制约 NVLink C2C 的应用范围,未来类似于 NVLink C2C 的单端传输线技术有可能进一步演进,拓展传输距离,尤其是在 224G 及以上 SerDes 时代,芯片间互联更加依赖于电缆解决方案,这对与计算系统是不友好的,会带来诸如芯片布局、散热困难等一系列工程挑战,同时也需要解决电缆方案成本过高的问题。
从功耗来看,112G SerDes 的功耗效率为 5.5pJ/bit,而 NVLink C2C 的功耗效率为 1.3pJ/bit。在 3.6Tbps 互联带宽下,SerDes 和 NVLink C2C 的功耗分别为 19.8W 和 4.68W。虽然单独考虑芯片间互联时,功耗降低很多,但是 H100 GPU 芯片整体功耗大约为 700W,因此互联功耗在整个芯片功耗中所占比例较小。
从成本角度来看,NVLink C2C 的面积和功耗优于 SerDes 互联。因此,在提供相同互联带宽的情况下,它可以节省更多的芯片面积用于计算和缓存。然而,考虑到计算芯片并不是 IO 密集型芯片,因此这种成本节约的比例并不显著。但是,如果将双 Chiplet 芯粒拼装成更大规模的芯片时,NVLink C2C 可以在某些场景下可以避免先进封装的使用,这对降低芯片成本有明显的帮助,例如 Grace CPU SuperChip 超级芯片选择标准封装加上 NVLink C2C 互联的方式进行扩展可以降低成本。在当前工艺水平下,先进封装的成本远高于逻辑 Die 本身。
C2C 互联技术的另一个潜在的应用场景是大容量交换芯片,当其容量突破 200T 时,传统架构的 SerDes 面积和功耗占比过高,给芯片的设计和制造带来困难。在这种情况下,可以利用出封装的 C2C 互联技术来实现 IO 的扇出,同时尽量避免使用先进的封装技术,以降低成本。然而,目前的 NVLink C2C 技术并不适合这一应用场景,因为它无法与标准 SerDes 实现比特透明的转换。因此,需要引入背靠背的协议转换,这会增加时延和面积功耗。
Grace CPU 具有上下翻转对称性,因此单个芯片设计可以支持同构 Die 组成 SuperChip 超级芯片。Hopper GPU 不具备上下和左右翻转对称性,未来双 Die B100 GPU 芯片可能由两颗异构 Die 组成。
NVLink 和 NVLink C2C 技术提供了更灵活设计,实现了 CPU 和 GPU 灵活配置,可以构建满足不同应用需求的系统架构。NVLink C2C 可以提供灵活的 CPU、GPU 算力配比,可组成 1/0,0.5/1,0.5/2,1/4,1/8 等多种组合的硬件系统。NVLink C2C 支持 Grace CPU 和 Hopper GPU 芯片间内存一致性操作 (Cache-Coherency),让 Grace CPU 成为 Hopper GPU 的内存控制器和 IO 扩展器,实现了 4 倍 IO 带宽和 5 倍内存容量的扩展。这种架构打破了 HBM 的瓶颈,实现了内存超发。对训练影响是可以缓存更大模型,利用 ZeRO 等技术外存缓存模型,带宽提升能减少 Fetch Weight 的 IO 开销。对推理影响是可以缓存更大模型,按需加载模型切片推理,有可能在单 CPU-GPU 超级芯片内完成大模型推理 [23]。
有媒体测算 Nvidia 的 H100 利润率达到 90%。同时也给出了估算的 H100 的成本构成,Nvidia 向台积电下订单,用 N4 工艺制造 GPU 芯片,平均每颗成本 155 美元。Nvidia 从 SK 海力士(未来可能有三星、美光)采购六颗 HBM3 芯片,成本大概 2000 美元。台积电生产出来的 GPU 和 Nvidia 采购的 HBM3 芯片,一起送到台积电 CoWoS 封装产线,以性能折损最小的方式加工成 H100,成本大约 723 美元 [24]。
先进封装成本高,是逻辑芯片裸 Die 成本的 3 到 4 倍以上, GPU 内存的成本占比超过 60%。按照 DDR: 5 美金/GB,HBM: 15 美金/GB 以及参考文献 [25][26] 中给出的 GPU 计算 Die 和先进封装的成本测算,H100 GPU HBM 成本占比为 62.5%;GH200 中 HBM 和 LPDDR 的成本占比为 78.2%。
虽然不同来源的信息对各个部件的绝对成本估算略有不同,但可以得出明确的结论:内存在 AI 计算系统中的成本占比可高达 60% 到 70% 以上;先进封装的成本是计算 Die 成本的 3 到 4 倍以上。在接近 Reticle 面积极限的大芯片良率达到 80% 的情况下,先进封装无法有效地降低成本。因此,应该遵循非必要不使用的原则。
与 AMD 和 Intel GPU 架构对比
AMD 的 GPU 相对于 Nvidia 更加依赖先进封装技术。MI250 系列 GPU 采用了基于 EFB 硅桥的晶圆级封装技术,而 MI300 系列 GPU 则应用了 AID 晶圆级有源封装基板技术。相比之下,Nvidia 并没有用尽先进封装的能力,一方面在当前代际的 GPU 中保持了相对较低的成本,另一方面也为下一代 GPU 保留了一部分工程工艺的价值发挥空间。
Intel Ponte Vecchio GPU 将 Chiplet 和先进封装技术推向了极致,它涉及 5 个工艺节点(包括 TSMC 和 Intel 两家厂商的不同工艺),47 个有源的 Tile,并同时采用了 EMIB 2.5D 和 Foveros 3D 封装技术。可以说,它更像是一个先进封装技术的试验场。Intel 的主力 AI 芯片是 Gaudi 系列 AI 加速芯片 [27][28][29]。值得注意的是 Gaudi 系列 AI 芯片是由 TSMC 代工的 Gaudi 2 采用的是 TSMC 7nm 工艺,Gaudi 3 采用的是 TSMC 5nm 工艺。
Nvidia 未来 AI 芯片架构推演
NVLink 和 NVLink C2C 演进推演
互联技术在很大程度上塑造了芯片和系统的物理架构。从互联技术的发展历程出发,以芯片布局为线索,并考虑工程工艺的物理限制,可以对 Nvidia 未来 AI 芯片架构进行预测。这种推演也有助于发掘对互联技术的新需求。
互联技术的演进是一个渐进的过程,其基本技术要素如带宽、调制和编码等都遵循着其内在的发展规律。这些物理规律相对稳定,通过将这些技术进行组合并结合当前工程工艺的发展趋势以及需求,就可以大致描绘和预测出互联技术的发展方向。在这里不深入探讨晦涩难懂的互联技术本身的发展,而是从宏观技术逻辑和外在可观察的指标两个角度出发,探讨 NVLink 和 NVLink C2C 的历史演进,并对其未来发展进行预测。
从 NVLink 的演进看,当前其演进了四个代际,NVLink C2C 当前只有一个代际,通过与当下不同协议的速率演进对比及 NVLink 宣传材料,可以清晰的看到每个代际的 NVLink 技术的竞争对手和其要解决的痛点问题。当前接口有两大开放的互联生态,PCIE 互联生态和 Ethernet 互联生态,CXL 协议依托于 PCIE 互联生态,而 InfiniBand 则依托与 Ethernet 互联生态。NVLink 的主要目标是解决 GPU 之间的互联问题,而早期的 GPU 一定需要保留与 CPU 互联的 PCIE 接口,用于 GPU 互联是也天然的继承了这一技术,因此 NVLink 早期的竞争对手是 PCIE。从 PCIE、Ethernet 和 NVLink 的发展轨迹来看,NVLink 的 SerDes 速率介于同时期 PCIE 和 Ethernet SerDes 速率之间。这意味着 NVLink 利用了 Ethernet 生态成熟的互联技术来对抗 PCIE,实现接口速率超越 PCIE。通过复用 Ethernet 生态的成熟互联技术,NVLink 在成本方面也具有优势。
值得注意的是,NVLink 并未完全遵循 Ethernet 的互联技术规范。例如,在 50G NVLink3.0 采用了 NRZ 调制,而不是 Ethernet 所采用的 PAM4 调制 [30]。这意味着 NVLink3.0 利用了 100Gbps PAM4 SerDes 代际的技术,并通过采用更低阶 NRZ 调制来实现链路的无误码运行,免去 FEC 实现低时延。同样以低时延著称的 InfiniBand 在 50G 这一代际则完全遵从了 Ethernet 的 PAM4 调制,这在一定程度上使其在 50G 这一代际丧失了低时延的技术优势,市场不得不选择长期停留在 25G 代际的 InfiniBand 网络上。当然,InfiniBand 网络也有其无奈之处,因为它需要复用 Ethernet 光模块互联生态,所以它必须完全遵循 Ethernet 的互联电气规范,而与之对应的 NVLink3.0 则只需要解决盒子内或机框内互联即可。同样的事情也会在 100G 代际的 NVLink4.0 上发生,NVLink4.0 完全摆脱了盒子和框子的限制,实现了跨盒子、跨框的互联,此时为了复用 Ethernet 的光模块互联生态,NVLink4.0 的频点和调制格式也需要遵从 Ethernet 互联的电气规范。以前 InfiniBand 遇到的问题,NVLink 也同样需要面对。在 100G 时代,可以观察到 Ethernet、InfiniBand 和 NVLink 的 SerDes 速率在时间节奏上齐步走的情况。实际上,这三种互联接口都采用了完全相同的 SerDes 互联技术。同样的情况在 200G 这一代际也会发生。与 InfiniBand 和 Ethernet 不同的是,NVLink 是一个完全私有的互联生态,不存在跨速率代际兼容、同代际支持多种速率的接口和多厂商互通的问题。因此,在技术选择上,NVLink 可以完全按照具体应用场景下的需求来选择设计甜点,在推出节奏上可以根据竞争情况自由把控,也更容易实现差异化竞争力和高品牌溢价。
NVLink 的发展可以分为两个阶段。NVLink1.0~3.0 主要在盒子内、机框内实现 GPU 高速互联,对标 PCIE。它利用了 Ethernet SerDes 演进更快的优势,采用了更高速的 SerDes,同时在 NVLink2.0 时代开始引入 NVSwitch 技术,在盒子内、机框内组成总线域网络,在带宽指标上对 PCIE 形成了碾压式的竞争优势。NVLink4.0 以后 NVLink 走出盒子和机框,NVSwitch 走出计算盒子和机框,独立成为网络设备,此时对标的是 InfiniBand 和 Ethernet 网络。
虽然 NVLink4.0 没有公开的技术细节,但是从 NVLink 网络的 Load-Store 网络定位和满足超节点内部内存共享的需求上看,一个合理的推测是,NVLink4.0 很可能采用了轻量 FEC 加链路级重传的技术支持低时延和高可靠互联。在时延和可靠性竞争力指标上对 InfiniBand 和 Ethernet 形成碾压式的竞争力,这更有利于实现内存语义网络,支持超节点内内存共享。提供传统网络所不能提供的关键特性,才是 NVLink 作为总线域网络独立存在的理由。
基于 NVLink C2C 的产品目前只有 GH200 这一代,但是从 Nvidia 在该领域公开发表的论文中可以大致看出其技术发展的脉络。从技术演进上看,它是封装内 Die 间互联的在均衡上的增强。从 Nvidia SuperChip 超级芯片路标来看,它将在未来的 AI 芯片中继续发挥重要作用。对于这类接口,仍需保持连接两个独立封装芯片的能力和极低的时延和功耗。当前的 NVLink C2C 采用 9*40Gbps NRZ 调制方式。未来 NVLink-C2C 可能会向更高速率和双向传输技术方向演进。而 50G NRZ 是 C2C 互联场景下在功耗和时延方面的设计甜点。继续维持 NRZ 调制,选择合适工作频率,走向双向传输将是实现速率翻倍的重要技术手段。虽然 NVLink C2C 针对芯片间互联做了优化设计,但由于它与标准 SerDes 之间不存在速率对应关系,无法实现与标准 SerDes 之间比特透明的信号转换,因此其应用场景受限。在与标准 SerDes 对接时需要多引入一层协议转化会增加时延、面积和功耗开销。未来可能存在一种可能性,即采用类似 NVLink C2C 这种高密单端传输技术,同时与标准 SerDes 实现多对一的速率匹配,这种技术一旦实现将极大地扩展 C2C 高密单端互联技术的应用空间,也有可能开启 SerDes 面向更高速率演进的新赛道。
从 NVLink 和 NVSwitch 的演进来看,每一代速率会是上一代的 1.5 到 2 倍。下一代 NVLink5.0 大概率会采用 200G 每通道,每个 GPU 能够出的 NVLink 接口数量从 18 个增加到 32 个,甚至更高。而 NVSwitch4.0 在端口速率达到 200G 以外,交换芯片的端口数量可能在 NVSwitch3.0 交换芯片 64 端口的基础上翻 2 倍甚至 4 倍,总交换容量从 12.8T 到 25.6T 甚至 51.2T [30]。
B100 GPU 架构推演
以 H100 GPU 芯片布局为基础,通过先进的封装技术将两颗类似 H100 大小的裸 Die 进行合封,可以推演 B100 GPU 架构。B100 GPU 有两种 “双 Die” 推演架构:IO 边缝合和 HBM 边缝合 [31][32]。“HBM 边缝合” 利用 H100 的 HBM 边进行双 Die 连接,这种方案的优点在于,它可以使得 IO 可用边长翻倍,从而有利于扩展 IO 带宽。然而,它的缺点在于 HBM 可用边长并没有改变,因此无法进一步扩展 HBM 容量。“IO 边缝合” 利用 H100 的 IO 边进行双 Die 连接,这种方案的优势在于 HBM 可用边长能够翻倍,从而有利于扩展内存。然而,它的缺点在于 IO 可用边长并未改变,因此需要进一步提升 IO 密度。考虑到每代芯片与上一代相比,在内存、算力、互联三个层面需要实现两倍以上的性能提升,采用 “IO 边缝合” 方案的可能性更大。采用 “IO 边缝合” 的方案需要提升 IO 的边密度。
H100 不具备旋转对对称性,而双 Die 的 B100 仍需支持 GH200 SuperChip 超级芯片,因此 B100 可能由两颗异构 Die 组成。按照不同的长宽比采用 “IO 边缝合的方式” B100 的面积达到 3.3 到 3.9 倍的 Reticle 面积,小于当前 TSMC CoWoS 先进封装能够提供的 4 倍 Reticle 面积的能力极限。计算 Die 之间互联可以复用 NVLink C2C 互联技术,既利用 NVLink C2C 出封装的连接能力覆盖 Die 间互联的场景。
为了实现计算 Die 的归一化,可以将 IO 从计算 Die 中分离出来,形成独立的 IO Die。这样,计算 Die 的互联接口就实现了归一化,使计算 Die 具备了旋转对称性。在这种情况下,仍然存在两种架构:一种是同构计算 Die 与 IO Die 合封,另一种是计算 Die 与 IO Die 分别封装并用 C2C 互联将二者连接。计算 Die 的同构最大的优势在于可以实现芯片的系列化。通过灵活组合计算 Die 和 IO Die,可以实现不同规格的芯片以适应不同的应用场景的需求。
Nvidia B100 有 “异构 Die 合封”,“计算 Die 与 IO Die 分离,同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分离并分别封装,并用 C2C 互联将二者连接” 三种架构选项。Nvidia B100 如果采用单封装双 Die 架构,封装基板面积达到 3.3~3.9 倍 Reticle 面积,功耗可能超过 1kW。计算 Die 之间互联可以复用 NVLink C2C 互联技术。将计算 Die 和 IO Die 分离可以实现计算 Die 的同构化,降低成本。利用 NVLink C2C 出封装互联的能力,可以将 IO 扇出,降低 IO 边密度压力。需要注意的是,当前 NVLink C2C 速率与 PCIE & NVLink 的 SerDes 无法匹配,因此需要 IO Die 上作协议转换,无法做到协议无关。如果 C2C 互联和 SerDes 速率能够进行多对一的匹配实现比特透明的 CDR,这样可以消除协议转换的开销。考虑到 B100 2024 年推出的节奏,方案一、三匹配当前先进封装能力,但方案三需要引入额外的协议转换;方案二超出当前先进封装能力。
X100 GPU 架构推演
Nvidia X100 如果采用单 Socket 封装四 Die 架构,封装基板面积将超过 6 倍 Reticle 面积,这将超出 2025 年的先进封装路标的目标。而如果采用双 Socket 封装架构,则需要使用 10~15cm 的 C2C 互联技术来实现跨封装的计算 Die 间的互联,这可能需要对当前 NVLink C2C 的驱动能力进一步增强。
Nvidia X100 GPU 如果采用四 Die 架构,如果要控制封装基板面积在 6 倍 Reticle 面积以下,匹配 2025 年先进封装路标,则需要在计算 Die 上通过 3D 堆叠的方式集成 HBM [21][22]。因此 X100 如果不采用 SuperChip 超级芯片的架构而是延续单封装架构,要想在 2025 年推出,技术挑战非常大。一方面需要先进封装基板达到 6 倍 Reticle 面积,另一方面需要实现在计算 Die 上堆叠 HBM,同时要解决 HBM 和计算 Die 堆叠带来的芯片散热问题。
在满足 2025 年的工程约束的前提下,X100 也可以采用 SuperChip 超级芯片架构在 B100 双 Die 架构的基础上进行平面扩展。在这种情况下,Nvidia X100 也有 “异构 Die 合封”,“同构计算 Die 与 IO Die 合封”,“计算 Die 与 IO Die 分别封装” 三种架构选项。如果采用封装间互联的超级芯片的扩展方式,先进封装的基板面积约束将不再会是瓶颈,此时只需要增强 NVLink C2C 的驱动能力。
H100/H200, B100, X100 GPU 架构演进总结
基于以下两个前提:每一代 AI 芯片的存储、计算和互联比例保持大致一致,且比上一代提升 1.5 到 2 倍以上;工程工艺演进是渐进且可预测的,不存在跳变,至少在 2025 年之前不会发生跳变。因此,可以对 2023 年的 H100、2024 年的 B100 和 2025 年的 X100 的架构进行推演总结。
对于工程工艺的基本假设如下:到 2025 年,工艺将保持在 3nm 水平,但工艺演进给逻辑器件带来的收益预计不会超过 50%。同时,先进封装技术预计将在 2025 年达到 6 倍 Reticle 面积的水平。此外,HBM 内存容量也将继续增长,预计在 2024 年将达到 24GB,而在 2025 年将达到 36GB。
在上述前提假设条件下,针对 H100/H200, B100, X100 GPU 可以得到如下推演结论:
1. H200 是基于 H100 的基础上从 HBM3 升级到 HBM3e,提升了内存的容量和带宽。
2. B100 将采用双 Die 架构。如果采用异构 Die 合封方式,封装基板面积将小于当前先进封装 4 倍 Reticle 面积的约束。而如果采用计算 Die 和 IO Die 分离,同构计算 Die 和 IO Die 合封的方式,封装基板面积将超出当前先进封装 4 倍 Reticle 面积的约束。如果采用计算 Die 和 IO Die 分离,同构计算 Die 和 IO Die 分开封装的方式,则可以满足当前的工程工艺约束。考虑到 B100 2024 年推出的节奏,以及计算 Die 在整个 GPU 芯片中的成本占比并不高,因此用异构 Die 合封方式的可能性较大。
3. 如果 X100 采用单 Socket 封装,四个异构 Die 合封装的方式,需要在计算 Die 上堆叠 HBM,同时需要先进封装的基板达到 6 倍 Reticle 面积。但是,如果采用 SuperChip 超级芯片的方式组成双 Socket 封装模组,可以避免计算 Die 上堆叠 HBM,并放松对先进封装基板面积的要求,此时需要对 NVLink C2C 的驱动能力做增强。
基于 B100 双 Die 架构,采用双 Socket 板级 3D 扩展可以实现与 X100 同等的算力。类似的方法也可以应用到 X100 中进一步扩展算力。板级扩展可以降低对工程工艺的要求,以较低的成本实现算力扩展。虽然基于人们对于先进封装的 Chiplet 芯粒架构充满了期待,但是其演进速度显然无法满足 AI 计算系统 “三年三个数量级” 的增长需求 [33]。在 AI 计算领域基于先进封装 Die 间互联 Chiplet 芯粒架构,很可能因为无法满足 AI 计算领域快速增长的需求而面临 “二世而亡” 的窘境,业界需要重新寻找旨在提升 AI 算力的新技术路径,比如 SuperChip 超级芯片和 SuperPOD 超节点。因此,类似于 NVLink C2C 的低时延、高可靠、高密度的芯片间互联技术在未来 AI 计算芯片的 Scale Up 算力扩展中将起到至关重要的作用;面向 AI 集群 Scale Out 算力扩展的互联技术也同等重要。这两种互联技术,前者是 AI 计算芯片算力扩展的基础,而后者是 AI 计算集群算力扩展的基础。