关于英伟达最新一代的精髓:NVLink、NVL72

Wallstreetcn
2024.04.15 05:19
portai
I'm PortAI, I can summarize articles.

NVIDIA 最新一代的精髓是 NVL72 架构,采用 NVLink-C2C 互联技术。这个架构可以为大型语言模型的推理提供 30 倍的实时速度提升。NVLink 是一种专门设计用于连接 NVIDIA GPU 的高速互联技术,可以提升 GPU 通信性能。NVLink 允许 GPU 直接访问目标 GPU 的显存,避免了数据交换的延迟。该技术可以大大提高多 GPU 系统的性能和效率,解决了 PCIe 总线带宽和延时的问题。

英伟达 GTC 发布的这一代 Blackwell,精髓不是 Grace Blackwell 架构、不是 NVLink domain、不是精度软件优化液冷等等等等,这些单点都不重要,精髓就在 NVL72 这个架构,这个极致压缩又极致耦合的 NVL 72。本文就对 NVLink 及 NVL72 做一个分析记录。

一、NVLink 技术基本情况

(一)NVLink 技术基本概念

算力的提升不仅依靠单张 GPU 卡的性能提升,往往还需要多 GPU 卡组合。在多 GPU 系统内部,GPU 间通信的带宽通常在数百 GB/s 以上,PCIe 总线的数据传输速率容易成为瓶颈,且 PCIe 链路接口的串并转换会产生较大延时,影响 GPU 并行计算的效率和性能。GPU 发出的信号需要先传递到 PCIe Switch, PCIe Switch 中对数据进行处理,CPU 会对数据进行分发调度,这些都会引入额外的网络延迟,限制了系统性能。

为此,NVIDIA 推出了能够提升 GPU 通信性能的技术——GPU Direct、P2P 技术,使 GPU 可以通过 PCI Express 直接访问目标 GPU 的显存,避免了通过拷贝到 CPU host memory Buffer 作为中转,大大降低了数据交换的延迟,但受限于 PCI Express 总线协议以及拓扑结构的一些限制,无法做到更高的带宽。此后,NVIDIA 提出了 NVLink 总线协议。

NVLINK 是一种专门设计用于连接 NVIDIA GPU 的高速互联技术。它允许 GPU 之间以点对点方式进行通信,绕过传统的 PCIe 总线,实现了更高的带宽和更低的延迟。NVLINK 可用于连接两个或多个 GPU,以实现高速的数据传输和共享,为多 GPU 系统提供更高的性能和效率。

NVLink 的具体工作方式如下图所示:

NVLink Switch 协同 NVLink 释放数据传输能力。NVLink Switch 通过连接多个 NVLink,实现了机架内和机架间全速度的 GPU 通信,这是一种 1.8TB/s 双向直接 GPU 到 GPU 互联技术,极大地扩展了服务器内多 GPU 的输入和输出能力。NVLink Switch 还配备 NVIDIA 可扩展分层聚合和缩减协议(SHARP)™ 引擎,优化了网络内缩减和多播加速,进一步提高了通信效率。

NVLink Switch 允许 NVLink 连接跨节点扩展,借助 NVSwitch,NVLink 连接可在节点间扩展,以创建无缝、高带宽的多节点 GPU 集群,从而有效地形成数据中心大小的 GPU。

NVLink Switch 产品如下图所示:

(二)NVLink 技术架构

NVLink 的架构包括 NVLink 桥接器和 NVLink 交换机。NVLINK 桥接器是用于 GPU 与其他设备(如 CPU、内存或其他 GPU)之间通信的组件。它提供了一组 NVLink 接口,可以将 GPU 连接到其他设备上。而 NVLink 交换机是用于 GPU 之间通信的组件。它提供了一组 NVLink 连接端口,可以将多个 GPU 相互连接起来。NVLink 交换机可以位于 GPU 芯片内部或外部,从而形成 NVLink 通信网络。

NVLink 技术架构如下图所示:

(三)NVLink 发展迭代

NVLink 自 2014 年推出以来,已经历了 5 个代际的演进。第一代 NVLink 单链可实现 40 GB/s 的双向带宽,单芯片可支持 4 链路,即 160 GB/s 的总双向带宽;2017 年,基于 Volta 架构的第二代 NVLink 发布,单链可实现 50 GB/s 的双向带宽,单芯片可支持 6 链路,即 300 GB/s 的总双向带宽。2020 年,基于 Ampere 架构的第三代 NVLink 发布,单链可实现 50 GB/s 的双向带宽,单芯片可支持 12 链路,即 600 GB/s 的总双向带宽。2022 年,基于 Hopper 架构的第四代 NVLink 发布,传输信号变为 PAM4 调制电信号,单链可实现 50 GB/s 的双向带宽,单芯片可支持 18 链路,即 900 GB/s 的总双向带宽。第五代 NVLink 连接技术支持单块 Blackwell 架构将 GPU 到 GPU 再到 CPU 的总线数据传输速度提升至每秒 100GB,每块 GPU 拥有 18 个 NVLink 连接,Blackwell GPU 的总带宽可达到 1,800GB/秒,是 NVLink 4.0 的两倍,也是行业标准 PCIe Gen5 总线带宽的 14 倍,这确保了最复杂 LLM 之间 576 个 GPU 之间的无缝高速通信。

值得注意的是,除了 NVLink 1.0 采用了 20G 特殊速率点以外,NVLink 2.0~4.0 皆采用了与 Ethernet 相同或者相近的频点,这样做的好处是可以复用成熟的 Ethernet 互联生态,也为未来实现连接盒子或机框组成超节点埋下伏笔。NVSwitch 1.0、2.0、3.0 分别与 NVLink 2.0、3.0、4.0 配合,形成了 NVLink 总线域网络的基础。NVLink4.0 配合 NVSwitch3.0 组成了超节点网络的基础,这一变化的外部特征是 NVSwitch 脱离计算单板而单独成为网络设备,而 NVLink 则从 1.0 至 3.0 以来的板级互联技术升级成为设备间互联技术。

(四)NVLink 搭载产品介绍

NVLink 于 2014 年 3 月的 NVIDIA GTC 2014 上发布,2016 发布的 P100 是搭载 NVLink 的第一款产品,单个 GPU 具有 160GB/s 的带宽,相当于 PCIe Gen3 * 16 带宽的 5 倍。GTC 2017 上发布的 V100 搭载的 NVLink 2.0 将 GPU 带宽提升到了 300GB/s,大约是 PCIe 的 10 倍。2020 年发布的第三代 NVLink 搭载显卡 A100,是首次采用 Ampere 架构的 GPU,支持多实例 GPU 功能,允许单个 A100 GPU 分割成多个独立的小 GPU,大幅提升了云和数据中心的资源分配效率。

第四代 H100 支持 NVLink4.0,双向带宽更是提升到了 900GB/s,H100 能处理最具挑战性的 AI 工作负载和大规模数据处理任务。H100 升级了 Tensor 核心,显著提高了 AI 训练和推理的速度。支持双精度(FP64)、单精度(FP32)、半精度(FP16)和整数(INT8)计算负载。相比 A100,FP8 计算速度提升六倍,达到 4petaflops。内存增加 50%,使用 HBM3 高带宽内存,带宽可达 3 Tbps,外部连接速度几乎达到 5 Tbps。此外,新的 Transformer 引擎使模型转换器训练速度提升高达六倍,适用于对性能有更高要求的 AI 和科学模拟任务。

到了最新一代 NVLink 5.0,英伟达基于 AI 计算节点配合第五代 NVLink 连接多块 GB200 超级芯片,构建了 DGX 机架,还用 8 个 DGX 机架所包含的 576 块最强 B200 显卡构建了 SuperPOD 集群,AI 算力高达 11.5 Exaflops。此次 B200 采用了 192GB 的 HBM3e 显存,拥有 8TB 的内存带宽,提供 20 PetaFlops 的 AI 性能(FP4),10 PetaFlops 的 FP8 性能。GB200 超级芯片对外提供 40 PetaFlops 的 AI 性能,加上 Arm CPU 自带的内存,总体内存容量就达到了 864GB。另外,还有 16TB/s 的 HBM 内存带宽,以及总体 3.6TB/s 的 NVLink 带宽。

二、GB200 NVL72 基本情况

(一)GB200 NVL72 基本概念

GB200 NVL72 采用机架级设计使用第五代 NVLink 实现互联,NVLink 多节点 all-to-all 带宽达到 130TB/s。GB200 NVL72 可连接 36 个 Grace CPU 和 72 个 Blackwell GPU,为数据中心提供前所未有的计算能力。GB200 NVL72 将 72 GPU 高密度配置在一个机柜中,用于大模型训推,其中柜内组网以电气信号背板和铜线的 NVLink 网络为主,而机柜外扩容组网尤其千至万卡互联则需要 2-3 层交换机网络和光通信方案。前者是芯片互联增量,后者架构延续但整体升级。

GB200 NVL72 有 18 个 1U 服务器,其提供的 FP8 性能为 720 petaflops,FP4 计算性能为 1440 petaflops,可处理多达 27 万亿个 AI LLM 参数模型。每台服务器里带有两个 GB200 Grace Blackwell Superchip,这些计算节点带有 1.7TB 的 HBM3E 内存、32TB/s 的内存带宽,为应对功耗过于强大问题,NVIDIA 选择全部采用液冷 MGX 封装,采取液冷机架级解决方案。

从技术架构方面看,NVIDIA GB200 NVL72 的核心为 GB200 Grace Blackwell Superchip,采用 NVIDIA NVLink-C2C 互联技术,将两个高性能 NVIDIA Blackwell Tensor Core GPU 与一个 NVIDIA Grace CPU 连接,实现高效的计算协同,进一步用于支持万亿参数 LLM、多模态任务的变压器模型、大规模仿真模型和 3D 数据生成模型的更大内存需求,为万亿参数的大型语言模型(LLM)推理提供了 30 倍的实时速度提升。

在 NVL72 系统中,NVLink Switch 实现了 130TB/s 的 GPU 带宽,极大增强了大型模型的并行处理能力。通过在服务器外部添加第二层 NVSwitch,NVLink 网络可以连接多达 256 个 GPU,并提供 57.6 TB/s 的多对多带宽,从而快速完成大型 AI 作业。这种设计使得多服务器集群可以随着计算量的增加而扩展 GPU 通信,支持的 GPU 数量是单个 8 个 GPU 系统的 9 倍。NVLink 和 NVLink Switch 作为 NVIDIA 数据中心解决方案的关键构建模块,整合了 NVIDIA AI Enterprise 软件套件和 NVIDIA NGC™ 目录中的硬件、网络、软件、库及优化的 AI 模型和应用程序。

Nvidia GB200 NVL72 产品样图如下图所示:

(二)GB200 NVL72 性能对比

GB200 NVL72 能够大幅提升大规模训练速度。最新 GB200 NVL72 包含更快的第二代 Transformer 引擎,具有 FP8 精度,能够将大型语言模型的大规模训练速度提升 4 倍。得益于每秒 1.8TB 的 GPU 到 GPU 互连速度、InfiniBand 网络和 NVIDIA Magnum IO™ 软件的第五代 NVLink 技术,实现了显著的性能提升。GB200 NVL72 采用的液体冷却技术不仅提升了计算密度,减少了占地面积,而且通过高带宽、低延迟的 GPU 通信,显著减少了数据中心的碳足迹和能源消耗。与传统的 NVIDIA H100 风冷基础设施相比,GB200 在相同功耗下实现了 25 倍的性能提升,同时降低了水消耗。GB200 利用 NVIDIA Blackwell 架构的高带宽内存性能、NVLink-C2C 以及专用解压缩引擎,大幅提高了关键数据库查询的速度,相比 CPU 提升了 18 倍,并将总体拥有成本(TCO)降低了 5 倍,为企业处理、分析大量数据提供了强大的支持。

GB200 NVL72 推理能力、速度性能如下图所示:

GB200 NVL72 能耗与性能如下图所示:

三、技术下游应用领域

NVLink 主要应用于 NVIDIA 旗下主要芯片产品,用于实现 GPU 和 CPU 之间的高速数据传输,进一步提高数据处理和应用性能。英伟达芯片主要应用于高性能计算、人工智能、数据中心等领域,应用场景广泛。因此,本札记中聚焦于 NVLink 5.0 搭载产品 Blackwell 平台主要应用领域——人工智能与车载计算,介绍其市场应用情况。

(一)AI 算力爆发催化下,万亿参数级生产式 AI 超级计算机应运而生

NVIDIA 敏锐地捕捉到 AI 技术对计算能力的迫切需求,并通过 Blackwell 芯片的研发来满足这一市场需求。Blackwell 的发布,标志着 AI 硬件领域迈入了一个新纪元,其强大性能将为 AI 公司提供前所未有的计算支持,助力训练出更复杂、更精准的模型,基于 Blackwell 的 AI 算力将以名为 DGX GB200 的完整服务器形态提供给用户,结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU,而这些超级芯片通过第五代 NVLink 连接成一台超级计算机提高整体计算性能。为了更好地支持 GB200 超级芯片的应用,英伟达推出了全新的计算集群 DGX GB200 SuperPod,这一超级计算集群采用了新型高效液冷机架规模架构,能够在 FP4 精度下提供惊人的算力和内存容量。通过 DGX GB200 SuperPod,英伟达将为各行各业提供强大的 AI 计算能力,助力 AI 工业革命的发展,再次展现了其在 AI 领域的领先地位和创新能力。

(二)Blackwell 赋能自动驾驶生态,助推车载计算平台成功升级

NVIDIA 集中式车载计算平台 DRIVE Thor 将搭载专为 Transformer、大语言模型(LLM)和生成式 AI 工作负载而打造的全新 Blackwell 架构。性能高达 1000 TFLOPS 的 DRIVE Thor 是专为汽车行业的生成式 AI 应用而打造的车载计算平台。DRIVE Thor 不仅可以提供丰富的座舱功能、安全可靠的高度自动化驾驶和无人驾驶功能,还能将所有功能整合至同一个集中式平台上。目前,已经有多家厂商公布了这一平台的全新合作进展,比亚迪和英伟达的合作范围从汽车扩展到云,除了在 DRIVE Thor 上构建下一代电动汽车车队外,比亚迪还计划使用英伟达的 AI 基础设施进行基于云的 AI 开发和培训技术。

数字建模下汽车模型应用如下图所示:

四、技术竞争格局与未来展望

(一)海外互联技术竞争激烈,国内华为成为未来之星

大语言互联模型通常分为两类,一类称为总线互联协议,常见的总线互联协议包括 NVLink、AMD 的 infinity fabric、PCIe 以及 CXL 联盟推出的开放式互联新标准 CXL 等;另一类称为网络互联协议,包括 infiniband、以太网等。

Infinity Fabric 是 AMD 开发的高速互联技术,被用于连接 AMD 处理器内部的各个核心、缓存和其他组件,以实现高效的数据传输和通信。Infinity Fabric 采用了一种分布式架构,其中包含多个独立的通道,每个通道都可以进行双向数据传输。这种设计使得不同核心之间可以直接进行快速而低延迟的通信,从而提高了整体性能。此外,Infinity Fabric 还具备可扩展性和灵活性。它允许在不同芯片之间建立连接,并支持将多颗处理器组合成更强大的系统。

PCI Express (PCIe) 是一种高速串行计算机扩展总线标准,由 PCI-SIG 组织发布,主要用于连接 CPU 与各类高速外围设备,如 GPU、SSD、网卡、显卡等。与传统的 PCI 总线相比,PCIe 采用点对点连接方式,具有更高的性能和可扩展性。伴随着 AI、自动驾驶、AR/VR 等应用快速发展,计算要求愈来愈高,处理器 I/O 带宽的需求每三年实现翻番,PCIe 也大致按照 3 年一代的速度更新演进,每一代升级几乎能够实现传输速率的翻倍,并有着良好的向后兼容性。

Compute Express Link (CXL) 是一项全新的互联标准,由英特尔、戴尔、惠普、谷歌等业界巨头共同推动。它旨在提供高带宽、低延迟的连接,以支持各种加速器、存储设备和处理器之间的协同工作。CXL 的设计目标是解决数据中心所面临的性能和可扩展性挑战,以满足未来计算需求。CXL 的一个显著特点是支持内存一致性,这意味着不同设备之间可以共享数据而无需进行复杂的数据复制。这种一致性对于多处理器系统和大规模计算任务尤为重要,因为它能够提高数据访问效率,减少延迟,从而加速计算速度。此外,CXL 还具有灵活性,可用于各种设备和应用,使其成为通用的互联解决方案。目前,CXL 的生态系统仍处于建立的初期,还需要更多硬件供应商、软件提供商的加入才能形成完整的产业链。CXL 的应用案例还比较有限,在数据中心、AI 和网络领域具有很大的潜力。

CXL 联盟具体成员名单如下图所示:

以太网是应用最广泛最成熟的网络技术,起源于 Xerox PARC 公司,可在数据中心的服务器之间传输大量数据,这对于许多加速计算任务至关重要。RoCE 协议下,以太网融合 RDMA 功能,在高性能计算场景下的通信性能大幅提升。为应对 AI 和 HPC 工作负载提出的新挑战,网络巨头联合成立了超以太网联盟(UEC),超以太网解决方案堆栈将利用以太网的普遍性和灵活性处理各种工作负载,同时具有可扩展性和成本效益,为以太网注入了新的活力。

InfiniBand 是一种高速、低延迟互联技术,由 IBTA(InfiniBand Trade Association)提出,其规定了一整套完整的链路层到传输层(非传统 OSI 七层模型的传输层,而是位于其之上)规范,拥有高吞吐量和低延迟,扩展性好,通过交换机在节点间的点对点通道进行数据传输,通道私有且受保护。

作为国内较早入局 AI 大数据计算的企业,华为也推出了自己的高速互联技术,提供了高带宽、低延迟的网络通信能力,适用于大规模并行计算和数据中心的需要。华为 CloudEngine 系列数据中心交换机提供了高密度的端口和高速的数据交换能力,支持 100Gbps、400Gbps 等速率,以及 RoCE 等 RDMA 技术,确保数据中心内部的高速通信。CloudEngine 16800 系列交换机是华为推出的首款面向 AI 时代的数据中心交换机。内嵌 AI 芯片,承载独创的 iLossless 智能无损交换算法,对全网流量进行实时的学习训练,实现网络 0 丢包与 E2Eμs 级时延,达到最高吞吐量。CloudEngine 16800-X 是华为推出的业界首款面向多元算力的 800GE 数据中心交换机。最多支持 288 个 800GE 端口,支撑业务十年平滑演进,提供业界最优 3.5 微秒跨板转发时延,网络级负载均衡实现 90% 高吞吐;依托超融合以太实现通用计算、高性能计算、智能计算和存储融合承载,TCO 降低 36%。

(二)算力驱动产品更新,应用场景越来越广泛

NVLink 将继续发挥重要作用,随着计算机视觉、人工智能和大数据等领域的不断发展,对高性能、高吞吐量的数据传输需求将持续增长,NVLink 技术有望在更广泛的应用场景中得到应用,包括数据中心、科学计算、医疗影像等领域。同时,随着半导体制造工艺的不断进步,NVLink 技术有望实现更高的带宽和更低的延迟,进一步提升系统性能和效率,成为连接多个 GPU 或其他处理器的首选技术之一,为大规模并行计算提供强大支持。

此外,随着物联网、自动驾驶、虚拟现实等新兴技术的快速发展,对处理海量数据和实时计算的需求将变得越来越迫切,NVLink 技术通过其高效的数据传输能力有望为这些新兴应用提供关键支持,助力推动技术创新和产业发展,未来将在高性能计算、人工智能和新兴技术应用等领域展现出更加广阔的发展前景。

文章来源:高华 GH,原文标题:《关于英伟达最新一代的精髓:NVLink、NVL72》