英伟达超算机:定义 AGI 算力集群
DGX GH200,从 AI 决策型向 AI 生成式的过渡标杆。
英伟达创始人兼 CEO 黄仁勋,不但是个出色的技术工程师,也是位杰出的市场管理专家和营销大师。
黄仁勋的营销才能,从其对 GPU 的定义可以窥视。原先,GPU 只是一张显卡,后来黄仁勋将服务器也称为 GPU。最近,“黄氏” GPU 定义,已扩展至 CPU 叠加 GPU 内存算力集群。
英伟达最近发布的超级计算机 DGX GH200,从参数上看,性能极为惊人,结构也堪称精巧。但是,从技术原理上看,DGX GH200 原本很可能并非为 AI 集训所设计,其内核 Grace Hopper 是决策型 AI(为 AI 推荐系统所用)性质。
从结构设计上看,DGX GH200 从决策型 AI“转型” 到 LLM 方向,但其真正价值并非为 LLM 定制,而是其可扩展性、以及将 CPU 内存与 GPU 内存,通过 NVLINK C2C 组件整合起来的技术,从而实现黄仁勋将 GPU 的定义扩展为超算集群的逻辑自洽。
至于真正的为 LLM 定制的针对性综合解决方案,黄仁勋还没给出答案。
CPU+GPU=?
DGX GH200 的核心是 Grace Hopper(CPU+GPU)。每台 DGX GH200,都搭载了多达 256 个 Grace Hopper。
黄仁勋将 Grace Hopper 称为 “superchip”(超级芯片),这很像是一种营销表达。
实际上,Grace 是 CPU,确实是为 AI 而生,但本身的技术特性不是高性能 CPU 算力,而是能耗控制。换句话说,Grace 负责还过得去的算力性能;Hopper 则是 GPU,与印象中的英伟达 GPU 负责 AI 算力不同,“Grace Hopper” 中的 Hopper,负责的是散热。
根据英伟达技术白皮书显示,Hopper 是英伟达基于 Hopper 架构的 GPU(即 H100 系列),而 Grace 则是英伟达自研的基于 ARM 架构的高性能 CPU。
这颗芯片的 CPU 核(core)型号是 Arm 的公版 neoverse N2。根据英伟达在 2021 年发布 Grace Hopper 时的 PPT 信息,Grace 是一款包含了 76 个 CPU 核的 N2 多核处理器。
通过 LPDDR5X(内存)通信接口,Grace 接了高达 512GB 的内存(实际 480GB),内存带宽也达到 546 GB/s;Hopper(GPU)则通过 HBM3(显存)接口接了最多 96GB 的显存,带宽可达 3TB/s。
LPDDR,即 Low Power Double Data Rate,中文全称 “低功耗双倍数据速率”,是美国 JEDEC 固态技术协会(JEDEC Solid State Technology Association)面向低功耗内存制定的通信标准。
LPDDR 有时候也等同于 Low Power Double Data Rate SDRAM,中文全称 “低功耗双信道同步动态随机存取内存”。通常,这以先进封装技术直接堆在 CPU 处理器上方,以低功耗和小体积著称,是移动应用场景的主流内存产品。
2019 年 2 月,JEDEC 发布 JESD209-5,即 LPDDR5 低功耗内存传输速率(通信)标准。相较于 2014 年发布的第一代 LPDDR4 标准,LPDDR5 的 I/O 速度提升到 6400 MT/s,实现翻番。
基于 LPDDR5 的性能基础,LPDDR5X 更进一步:数据传输速率从 6400Mbps 增至 8533Mbps,对于支持 8533Mbps LPDDR5X 内存的移动 SoC,其峰值理论可用带宽将进一步增长到 68.26GB/s,从而赋予更广泛的设备拥有更多基于 AI 和 5G 的功能。
Grace 用了 LPDDR5X,就其 16GB 的容量而言,即使用了 8 片,CPU 的总容量也只有 128GB,远远达不到决策 AI 所需要的存储空间,更遑论对 LLM 的容量支持要求。但黄仁勋采用了新的结构,也就是集成 8 颗 Grace CPU,还将之互联成一个 Unified Memory。
这时,内存容量就高达 1TB(8*128G),等于用 X86 的 2S 结构,相当于 512GB per Socket 的 1TB 容量。
回到 Grace Hopper 超级芯片,其高达 144TB 的 Memory(显存)量,实际上是 LPDDR5X 的内存叠加 HBM3 的显存,即 256 组的 CPU 480GB 内存(LPDDR5X)叠加 GPU 96GB 显存(HBM3)。简单折算下,就是每个节点 8 组搭配,约 3.75TB 的 CPU 内存加上 768GB 的显存。
乍看上去,如此神一样存在的存储容量令人惊叹。但实际上,Grace Hopper 的整体容量,除了内存还包括显存,这是从所未见的结构设计。但这种结构忽略了 CPU 同样令人惊奇的延迟。
这问题该怎么解决?若解决不了,以 Grace Hopper 为核心的 DGX GH200,速度比蜗牛还慢,还怎么训练 AI?
因此,杰出的技术工程师黄仁勋,在 Grace Hopper 中,还应用了至关重要的组件 “NVLink C2C”。这个组件的核心是 NVLink 通信协议,将 Grace 的 CPU 与 Hopper 的 GPU 之间传输数据量的带宽,以 900GB/s 的带宽速率联系起来,远超常规的 64GB/s 带宽速率。
这就是黄仁勋敢于将 LPDDR5X 内存的 CPU 容量算到 DGX GH200 超算机整体存储规格的底气。虽然叠加高容量 CPU 内存会带来超级延迟的不利后果,但 GPU 对延迟并不敏感,通过以 NVLINK 通信协议为核心的 NVLINK C2C 组件,将 CPU 的内存变成了 GPU 内存,以此消除高容量 CPU 内存带来的延迟。
这种结构和部件设计,也是 DGX GH200 超算机引以为傲的可扩展性特征。
价值和不足
DGX GH200 超算机的性能取决于存储空间的大小。144TB 还能扩展吗?当然可以。这可通过将 Grace Hopper 与英伟达 Bluefield DPU 的接口连接 InfiniBand,这样就可进一步扩展到更大的规模,从而实现更高性能的计算。
虽然看上去有 144TB 超级内存空间,900GB/s 的传输速率也相当牛逼,但平均下来每组 Grace Hopper 的带宽也就 200GB/s,与 144TB 共享显存带宽差太远。
总体来说,对 DGX GH200 超算机的性能来说,Grace Hopper 芯片组的结构设计是关键,而英伟达的 NVLink 协议具有的超高性能数据互联能力是关键中的关键,核心中的核心。通过提供高达 900GB/s 的带宽并且提供一致性接口,Grace Hopper 实现强悍的可扩展性。
Grace Hopper 中 CPU 与其他高性能服务器端 ARM CPU 的区别,也许就是对于 NVLink 接口的支持,而这也成了 Grace Hopper 的最显著亮点。
虽然英伟达发布的 DGX GH200 超算机,其内核 Grace Hopper 的结构设计和软件超高速一致性内存接口 NVLink 的奇思妙想,并非是对 AGI 做的针对性整体解决方案。但是,黄仁勋的技术和结构设计能力肌肉秀,真正的价值是对处于 AI 生成式技术和应用阶段,对具有超强性能的算力集群产品做出符合 AGI 阶段的标准定义。
这里可能需要简单解释下为什么 DGX GH200 超算机不是为 AGI 做出的针对性解决方案,而是主要面向决策式传统 AI 的推荐系统。
首先,DGX GH200 超算机的核心结构 Grace Hopper 芯片组发布于 2021 年。那时虽然 AGI 也在迭代中,但远远没有像 2022 年 12 月 OpenAI 发布的 ChatGPT-3.5 这种现象级应用带来的轰动效应,因而也没有像现在这样全球范围内的广泛关注度。
其次,从技术原理看,传统 AI 决策型推荐系统的特点是内存占用大,但计算数据要转换的热数据(指频繁访问的在线类 Data)并不多。因此,通行的做法是,通过系统设计,在 CPU 内存中临时存放热数据,再以 GPU 侧的 HMB 显存做 cache 并导入热数据,对带宽和 CPU 内存速度要求不高。
大模型的数据转移特征是什么?内存占用也不小,但每次计算来回流动的基本是热数据,少有数据集之类的冷数据。所以就两难,若选择将海量热数据放到 LPDDRX5,带宽还是有点不够(毕竟每组 Grace Hopper 带宽也只有 200GB/s);若放冷数据,成本又太高。
这里还有个问题,就是维护成本极高。Grace Hopper 就物理形态看,CPU 和 GPU 还各自独立,这两种芯片互联使用的是 PCB 板上的走线。在技术逻辑角度,这两种物理芯片的存储空间通过 NVLink C2C 组件和 NVLink 协议,被集成为一个整体。
因此,高度集成的 Grace Hopper,但凡坏一块 LPDDR5X,整个芯片组就要报废。这样的维护成本,除了巨头比如微软和谷歌这种不差钱的公司,其他公司都难以承受。
综合来说,Grace Hopper 的 LLM 应用,在 DGX GH200 超算机的技术丛集中,并没有显现出惊艳的亮点;其结构设计确实表现出色,但这很像是以 LLM 需求所做的微调。因为这个结构,发布于 2021 年,那时 LLM 应用方向也还并不向今日这样如此明确。