Wallstreetcn
2024.03.15 11:13
portai
I'm PortAI, I can summarize articles.

初探 GB200 参考设计

初探 GB200 参考设计,GB200 性能可能会成为大杀器,整体推理性能的提升可能是 20-40 倍。除以价格因素,依然可以获得 10 倍以上 per dollar 的性能提升。该设计适合推荐系统,但价格昂贵,可能给 AMD 带来竞争压力。CX7 和 CX8 是两种参考设计,B200 的价格有竞争力。GB200 的性能提升了 2 倍多,具体网络配置和架构设计有待了解。

GB200 性能可能会成为大杀器,整体推理性能的提升可能是 20-40 倍...除以价格因素,依然可以获得 10 倍以上 per dollar 的性能提升。

首先我们得先想清楚一个问题,做这个给谁用?现在有几个不同的观点。其一,回看当初的 GH200,对推荐系统的提升效果尤其明显(下图)

此外从之前我们探讨的 meta 报告中给出的不同模型的能力需求雷达图中,也可以看到,推荐系统模型的特点是对 Memory Capacity(注意这里不见得是 HBM,应该包括了 DDR)的要求尤其高。因此 GH200 通过 grace hopper 实现的统一大内存(恐怖的 144TB DDR),的确非常适合推荐系统。这里又会让人联想到近期 NV 反复与市场强调的正在爆发的推荐引擎推理需求。

但这里的确有个问题,1)这玩意很贵;2)费这么大劲定义这么牛逼的一个系统,不可能只面向推荐系统的少数巨头。3)推荐系统不需要如此强的带宽,岂不是浪费?具体网络配置和架构设计

该文件中,专门区分了 CX7 和 CX8 两种参考设计,另一个 J 总也透露,可能在 B100 沿用 CX7,B200 才会升级到 CX8(特别是前后版本 NVlink,寻址空间从 256 直接到了 2000…)。价格上 GB200(1 Grace+2GB100)接近 7 万美金。而文件中展示的 B100 和 B200 的价格,的确非常有竞争力,会给 AMD 相当大压力...

我们回到前面探讨的产品定位问题。表面上看又是一个巨贵的玩意儿(NVL72 rack 是 250 万美金)。但从性能的提升看,过去 GH200 在 LLM 65B 上的推理速度相比 H100 提升了 2 倍多,在 VectorDB 和 DLRM 上的相比 H100 提升了 5-6 倍。假设在 LLM 负载上,B100 相比 H100 的提升是 4 倍(两颗 die+ 更大的 HBM),GB200 相比 B100 的提升是 2-3 倍(nvlink 升级 +grace hopper vs pcie),这里还没考虑软件的优化,之前 tensor-RT 优化过的推理任务提升也是好几倍。几个因子相乘,整体推理性能的提升可能是 20-40 倍...当然你要除以价格因素(2.3 万美金 vs7 万美金),依然获得了 10 倍以上 per dollar 的性能提升...

如果上述我们的推演大差不差,那这一次 GB200 的性能的确可能会成为大杀器。上一代 GH200 相比 H100 的提升不够明显、推出时间拉的太长、价格因子放到分母被摊平....让 GH200 显得没有那么惊艳。这一次的 GB200 似乎的确值得期待。其实就等下面这张图,NV 何时给我们放出后续,看 GB200 的那根柱子能捅到哪里去.......

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。