初探 GB200 参考设计

初探 GB200 参考设计，GB200 性能可能会成为大杀器，整体推理性能的提升可能是 20-40 倍。除以价格因素，依然可以获得 10 倍以上 per dollar 的性能提升。该设计适合推荐系统，但价格昂贵，可能给 AMD 带来竞争压力。CX7 和 CX8 是两种参考设计，B200 的价格有竞争力。GB200 的性能提升了 2 倍多，具体网络配置和架构设计有待了解。

GB200 性能可能会成为大杀器，整体推理性能的提升可能是 20-40 倍...除以价格因素，依然可以获得 10 倍以上 per dollar 的性能提升。

首先我们得先想清楚一个问题，做这个给谁用？现在有几个不同的观点。其一，回看当初的 GH200，对推荐系统的提升效果尤其明显（下图）

此外从之前我们探讨的 meta 报告中给出的不同模型的能力需求雷达图中，也可以看到，推荐系统模型的特点是对 Memory Capacity（注意这里不见得是 HBM，应该包括了 DDR）的要求尤其高。因此 GH200 通过 grace hopper 实现的统一大内存（恐怖的 144TB DDR），的确非常适合推荐系统。这里又会让人联想到近期 NV 反复与市场强调的正在爆发的推荐引擎推理需求。

但这里的确有个问题，1）这玩意很贵；2）费这么大劲定义这么牛逼的一个系统，不可能只面向推荐系统的少数巨头。3）推荐系统不需要如此强的带宽，岂不是浪费？具体网络配置和架构设计

该文件中，专门区分了 CX7 和 CX8 两种参考设计，另一个 J 总也透露，可能在 B100 沿用 CX7，B200 才会升级到 CX8（特别是前后版本 NVlink，寻址空间从 256 直接到了 2000…）。价格上 GB200（1 Grace+2GB100）接近 7 万美金。而文件中展示的 B100 和 B200 的价格，的确非常有竞争力，会给 AMD 相当大压力...

我们回到前面探讨的产品定位问题。表面上看又是一个巨贵的玩意儿（NVL72 rack 是 250 万美金）。但从性能的提升看，过去 GH200 在 LLM 65B 上的推理速度相比 H100 提升了 2 倍多，在 VectorDB 和 DLRM 上的相比 H100 提升了 5-6 倍。假设在 LLM 负载上，B100 相比 H100 的提升是 4 倍（两颗 die+ 更大的 HBM），GB200 相比 B100 的提升是 2-3 倍（nvlink 升级 +grace hopper vs pcie），这里还没考虑软件的优化，之前 tensor-RT 优化过的推理任务提升也是好几倍。几个因子相乘，整体推理性能的提升可能是 20-40 倍...当然你要除以价格因素（2.3 万美金 vs7 万美金），依然获得了 10 倍以上 per dollar 的性能提升...

如果上述我们的推演大差不差，那这一次 GB200 的性能的确可能会成为大杀器。上一代 GH200 相比 H100 的提升不够明显、推出时间拉的太长、价格因子放到分母被摊平....让 GH200 显得没有那么惊艳。这一次的 GB200 似乎的确值得期待。其实就等下面这张图，NV 何时给我们放出后续，看 GB200 的那根柱子能捅到哪里去.......

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。