
SemiAnalysis GTC Deep Dive: Behind Three New Systems, NVIDIA is Redefining the Boundaries of AI Infrastructure
英伟达在 GTC 2026 发布三款系统:融合 Groq LP30 芯片的 LPX 推理机架、塞入 256 颗 CPU 的液冷机架 Vera ETL256,以及存储参考架构 STX。SemiAnalysis 认为,三款系统共同指向同一个战略信号:英伟达不再仅仅是 GPU 供应商,而是在向全栈 AI 基础设施平台商演进,其触角已覆盖推理优化、CPU 密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个 AI 硬件供应链的竞争格局。
在 GTC 2026 大会上,英伟达一口气推出三款全新系统——Groq LPX 推理机架、Vera ETL256 CPU 机架与 STX 存储参考架构,将其产品版图从 GPU 算力核心向低延迟推理、CPU 编排与存储层全面延伸,标志着英伟达正系统性地重构 AI 基础设施的定义边界。
其中最受市场关注的是 Groq LPX 系统。这是英伟达以 200 亿美元完成对 Groq 知识产权授权与核心团队引进后,不到四个月内推出的首款产品化成果。
LPX 机架将 Groq 的 LP30 芯片与英伟达 GPU 深度整合,并引入"注意力与前馈网络解耦"(Attention FFN Disaggregation,下称 AFD)技术,在高交互推理场景中针对性地压缩解码延迟,为大规模推理系统开辟了此前不存在的优化路径。
与此同时,Vera ETL256 将 256 颗 CPU 塞入单一液冷机架,以铜缆拓扑实现机架内全互联,直接瞄准随 AI 规模扩张而日益凸显的 CPU 供给瓶颈;STX 则通过标准化存储参考架构,将英伟达的掌控范围从算力层和网络层正式延伸至存储基础设施层。
SemiAnalysis 认为,三款系统共同指向同一个战略信号:英伟达不再仅仅是 GPU 供应商,而是在向全栈 AI 基础设施平台商演进,其触角已覆盖推理优化、CPU 密度、存储编排等此前由其他厂商主导的领域,这将深刻影响整个 AI 硬件供应链的竞争格局。
LPX 与 LP30:Groq 架构正式融入英伟达推理栈
英伟达与 Groq 之间的交易在结构上被设计为知识产权授权与人才引进,而非传统并购。英伟达由此几乎即时获得了 Groq 的全部 IP 和核心团队,并在不到四个月内推出基于 Groq 第三代 LPU 架构的 LP30 芯片与 LPX 机架系统。
LP30 采用三星 SF4 工艺,配备 500MB 片上 SRAM,FP8 精度下算力为 1.2 PFLOPS,相较于 Groq 第一代 LPU(230MB SRAM,750 TFLOPS INT8)实现了大幅提升,性能增长主要由制程节点从 GF16 迁移至 SF4 驱动。
LP30 以单一整体裸片形式存在,无需先进封装。值得关注的是,SF4 工艺不挤占英伟达在台积电 N3 上的稀缺产能配额,也不消耗同样紧张的 HBM 资源,因此 LPX 系统代表的是真正意义上的增量产能与增量收入,据 SemiAnalysis 指出,这是竞争对手无法复制的差异化优势。
LPU 的核心价值与天然局限
LPU 架构的竞争优势在于高带宽 SRAM 与确定性流水线执行机制,这使其在单用户低延迟场景下具备 GPU 难以企及的首 token 生成速度。然而,高密度 SRAM 的代价是容量受限——权重加载后所剩空间极为有限,随批量增大 KV Cache 迅速饱和,整体吞吐量显著弱于 GPU。
据 SemiAnalysis 分析,独立部署的 LPU 系统在大规模 token 服务上并不经济,但在对延迟极度敏感的场景中可获取可观的溢价,这正是 LPU 在解耦解码系统中的定位基础。

AFD 技术:GPU 与 LPU 的角色分工
AFD 技术将大模型推理中的注意力计算(Attention)与前馈网络计算(FFN)拆分至不同硬件。注意力计算因涉及动态 KV Cache 加载,天然适合 GPU 处理;FFN 计算因其无状态、可静态调度的特性,与 LPU 确定性架构高度契合。
在这一框架下,GPU 专注处理注意力计算,HBM 容量得以充分释放用于 KV Cache,提升系统可并发处理的 token 总量;LPU 则承担 FFN 计算,发挥其低延迟优势。GPU 与 LPU 之间通过 All-to-All 集合通信完成 token 的分发与汇聚,并以乒乓流水线方式隐藏通信延迟。
此外,LPU 也可在投机解码(Speculative Decoding)框架中发挥作用,将草稿模型或多 token 预测(MTP)层部署至 LPU,进一步降低单次解码步骤的延迟开销,通常可将每次解码步骤的输出 token 数提升至 1.5 至 2 倍。

LPX 机架架构
LPX 机架由 32 个 1U LPU 计算托盘与 2 台 Spectrum-X 交换机构成。每个计算托盘搭载 16 块 LP30、2 块 Altera FPGA(英伟达称之为"Fabric Expansion Logic")、1 颗 Intel Granite Rapids 主机 CPU 及 1 块 BlueField-4 前端模块。
FPGA 在系统中承担多重关键职能:将 LPU 的 C2C 协议转换为以太网以接入 Spectrum-X 规模扩展网络,提供 LPU 与主机 CPU 之间的 PCIe 桥接,并为系统提供每块最高 256GB 的 DDR5 扩展内存用于 KV Cache 存储。整个机架的规模扩展带宽总计约 640TB/s。
LPU 模块以"腹对腹"方式安装于 PCB 板两侧,上下各 8 块,旨在缩短全互联网格所需的 X 和 Y 方向走线长度。节点内 16 块 LPU 以全互联 Mesh 拓扑相连,节点间通过铜缆背板互联,跨机架连接则通过前面板 OSFP 接口实现。

Vera ETL256:256 颗 CPU 的密度极限
随着 AI 工作负载对数据预处理、调度编排和强化学习验证的需求持续攀升,CPU 正成为制约 GPU 利用率的新瓶颈。强化学习场景尤为突出——CPU 需要并行运行仿真环境、执行代码并对输出进行验证。GPU 规模的扩张速度远超 CPU,使得维持 GPU 满载所需的 CPU 集群规模不断扩大。
英伟达的应对方案是 Vera ETL256,将 256 颗 Vera CPU 集成于单一机架,依赖液冷实现这一密度目标。
该系统的设计逻辑与 NVL 计算机架一脉相承:将算力密度提升至铜缆可覆盖机架内全部连接的临界点,从而在主干网络层面完全消除光收发器的需求。铜缆带来的成本节约,足以抵消液冷引入的额外开销。
具体而言,Vera ETL 机架由 32 个计算托盘构成,上下各 16 个,以 4 个 1U MGX ETL 交换托盘(基于 Spectrum-6)为中轴对称排列。这种对称布局刻意压缩各计算托盘与主干交换托盘之间的线缆长度差异,确保全部连接均处于铜缆可达范围内。
每个交换托盘的后向端口负责机架内铜缆主干通信,32 个前向 OSFP 接口则提供与 POD 其余节点的光纤连接。机架内网络采用 Spectrum-X 多平面拓扑,将 200 Gb/s 通道分布至四台交换机,在单一网络层内实现 256 颗 CPU 的全互联以太网连接,每个计算托盘承载 8 颗 Vera CPU。

STX:英伟达向存储层的系统性延伸
STX 是英伟达在 GTC 2026 发布的存储参考机架架构,与此前推出的 CMX 上下文存储平台配套,共同构成英伟达向存储基础设施层渗透的完整布局。
STX 在 CMX 基础上进一步建立参考架构,精确规定一个集群中需要配置多少磁盘驱动器、Vera CPU、BF-4 DPU、CX-9 网卡和 Spectrum-X 交换机。
每个 STX 机箱内含 2 个 BF-4 单元,合计 2 颗 Vera CPU、4 块 CX-9 网卡和 4 个 SOCAMM 模块;整个 STX 机架共 16 个机箱,对应 32 颗 Vera CPU、64 块 CX-9 网卡和 64 个 SOCAMM。
英伟达在发布 STX 的同时罕见地点名一批主要存储厂商——包括 DDN、Dell Technologies、HPE、IBM、NetApp、Supermicro 及 VAST Data 等——表示上述厂商均将支持 STX 标准,延续了英伟达以行业背书强化参考架构话语权的一贯做法。
据 SemiAnalysis 分析,BlueField-4、CMX 与 STX 的组合,代表英伟达在完成算力层(GPU)与网络层(Spectrum-X 及 NVLink)的主导地位之后,正在系统性地向存储层、软件层和基础设施运营层推进。
三款新系统合力拓宽了英伟达的产品护城河,也意味着 AI 基础设施供应链中更大比例的市场份额将持续向英伟达集中。
