
A comprehensive understanding of NVIDIA's "new GPU": 5 times faster than H100? 1200W power consumption? Liquid cooling? How does it compare to MI300X?

与竞品相比 Blackwell 性能表现出色,但要想要发挥 Blackwell 的最大潜力,转向液冷几乎成为必须。
作者:赵颖
来源:硬 AI
“Hopper 很棒,但我们需要更强大的 GPU”,时隔两年黄仁勋在英伟达 AI 盛会 GTC,重磅发布新一代 Blackwell 架构 GPU。
随着生成式 AI 的兴起,英伟达正用更强大的芯片吸引客户,Blackwell 架构被寄予厚望,性能方面实现飞跃。
据媒体周一分析,作为 Hopper 架构的后继者,Blackwell 在性能提升方面表现出色,最高规格的 Blackwell 芯片浮点运算速度(FLOPS)大约快了 5 倍,能耗也进一步优化,与 AMD MI300X GPU 相比显现出强大竞争力,巩固了英伟达在性能和能效方面的技术优势。
性能提升的关键在于 Blackwell 价格设计,每款 GPU 实际上由两颗 Compute Die 集成,通过 10TB/秒的 NVLink-HBI(高带宽接口)技术连接,使得它们能够作为单个加速器工作。
此外,两颗计算芯片周围配备了 8 个 8 层堆叠 HBM3e 内存,总容量可达 192GB,带宽高达 8TB/秒。与 H100 和 H200 不同,B100 和 B200 在内存和 GPU 带宽上保持一致。目前,Blackwell 系列包括三个型号:B100、B200 和 Grace-Blackwell Superchip(GB200)。
此外,想要发挥最大性能并非易事,需要考虑众多因素。尽管英伟达宣称新芯片算力能够达到 20petaflops,但这一性能指标是基于使用新推出的 FP4 精度,并采用液冷服务器的情况下测得的。想要发挥 Blackwell 的最大潜力,转向液态冷却几乎成为必须。若比较与上一代芯片 H100 的 FP8 性能,新芯片的速度仅提升约 2.5 倍。
GB200 超级芯片性能强悍
英伟达最强大的 GPU 集成在 GB200 芯片中,类似于 Grace-Hopper 芯片,Grace-Blackwell Superchip 将现有的 72 核 Grace CPU 与 Blackwell GPU 利用 NVLink-C2C 连接技术相结合。
不过,与单个 H100GPU 不同,GB200 配备了两个 Blackwell 加速器——使其计算性能达到 40petaflops,并拥有 384GB 的 HBM3e 内存。
先前的 GH200 被标注为 1000W——包括 700W 的 GPU 和 300W 的 Arm CPU。因此,可以粗略估算,在全负荷下,GB200——包括两个 GPU,每个 1200W,以及相同的 Arm CPU——可能的总功耗大约为 2700W。因此,英伟达直接采用液冷系统也就不足为奇了。
去掉笨重的热散布器,改为安装几个冷却板,英伟达能够将这两个加速器紧凑地安装在一个 1U 机架系统内,该机架能提供高达 80 千万亿次浮点运算的计算性能,或者以 FP8 计算达到 40 千万亿次浮点运算。
与上一代相比,这种双 GB200 系统能够提供比其 8U 10.2kW DGX H100 系统更多的计算性能——40 petaflops 对比 32petaflops——同时所需空间减少到八分之一。
新一代 NVLink 连接方案使性能大幅提升
GB200 构成了 Nvidia NVL72 机架级 AI 系统的核心,GB200 NVL72 则是一款机架级系统,它使用 NVLink 交换设备将 36 个 GB200 拼接成一个系统 。该系统旨在支持大规模的训练和推理任务,可处理高达 27 万亿个参数的大语言模型。
根据英伟达介绍,在训练领域,该系统性能达到在 FP8 精度下能达到 720petaflops。而在推理工作负载方面,该系统的计算能力可达 FP4 下的 1.44exaFLOPS 。如果这还不够,八个 NVL72 机架可以互联,组成 “巨无霸” DGX BG200 Superpod。
每个机架装配了 18 个节点,共计 32 个 Grace GPU 和 72 个 Blackwell 加速器。然后,这些节点通过一系列九个 NVLink 开关进行互连,使得这些节点像单个 13.5TB HBM3e 内存的 GPU 节点一样工作。
这基本上是 Nvidia 在之前的 DGX 系统中所采用的同样技术,使得八个 GPU 像单卡 GPU 一样运作。不同之处在于,Nvidia 利用专用的 NVLink 设备,实现了对更多 GPU 的支持。新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信。
散热需求激增,液冷或成必备
尽管英伟达新一代产品并不强制要求使用液冷,但若想充分利用英伟达的旗舰芯片,液态冷却几乎是必选的。
对于 B100、B200 和 GB200,其主要区别在于功率和性能。据英伟达介绍,这些芯片的工作功率范围可在 700W 至 1200W 之间,视具体型号和冷却方式而定。
在不同的功率工作状态下,芯片的性能自然也会有所不同。英伟达指出,采用空气冷却系统的 HGX B100 设备可以在每块 GPU 上实现 14petaflops 的速度,同时功耗与 H100 相当。这意味着,如果数据中心已能够支持英伟达的 DGX H100 系统,那么引入 B100 节点应不会遇到问题。
而 B200 则更加引人关注,在采用空气冷却的 HGX 或 DGX 架构中,每块 GPU 能提供 18petaflops 的计算能力,同时功耗达到一千瓦。据英伟达称,DGX B200 机箱配备 8 个 B200GPU 的总功耗约为 14.3kW,这意味着在机架功率和散热方面需要约 60kW 的额外容量。
对于专门为 AI 集群设计的新数据中心来说,这不是问题;但对于现有设施,挑战可能更大。
在 AI 数据中心领域,想要发挥 Blackwell 的最大潜力,转向液态冷却几乎成为必须。在液冷配置下,芯片在满负荷运作时的热输出可以达到 1200W,同时实现 20petaflops 的性能。
与竞品相比,Blackwell 仍具优势
虽然英伟达正主导 AI 基础设施市场,但它并非唯一参与者,重量级对手英特尔和 AMD 正在推出 Gaudi 和 Instinct 加速器,云服务商正推动自家定制芯片,AI 创业公司如 Cerebras 和 Samba Nova 也在竞争中占据一席之地。
以 AMD 去年 12 月推出的 MI300X GPU 相比,Blackwell 仍具备优势:
MI300X 利用先进的封装技术,将八个 CDNA 3 计算单元垂直堆叠在四个 I/O 芯片上,这些芯片为 GPU 之间以及与 192GBHBM3 内存之间提供高速通信。
在性能方面,MI300X 在 FP8 浮点计算中提供 30% 的性能优势,在与 Nvidia H100 为主的高性能计算集中型双精度工作负载中,几乎具有 2.5 倍的领先优势。将 750W 的 MI300X 与 700W 的 B100 对比,英伟达的芯片在 sparse 性能方面快了 2.67 倍。
此外,尽管这两款芯片现在都包含了 192GB 的高带宽内存,但 Blackwell 部件的内存速度快了 2.8TB/秒。而内存带宽已被证明是 AI 性能的关键指标,特别是在推理方面。例如,英伟达 H200 本质上是 H100 加强带宽的版本。尽管 FLOPS 相同,英伟达声称 H200 在如 Meta 的 Llama2 70B 模型中的速度是 H100 的两倍。
虽然英伟达在低精度领域保持明显领先,但可能牺牲了双精度性能,AMD 近年来在此类性能方面表现突出,赢得了多项高端超级计算机奖项。
分析预计,在 2024 年对 AI 新品的需求将远远超过供应,在这种情况下,赢得市场份额并不总是意味着拥有更快的芯片,关键是哪些芯片能够上市发货。尽管 Blackwell 性能令人兴奋,但在买家拿到它们之前还需要一段时间,B200 和 GB200 产能爬坡似乎要等到 2025 年初。
