Groq 的 LPU,能否颠覆英伟达的 GPU?

Wallstreetcn
2024.02.23 08:21
portai
I'm PortAI, I can summarize articles.

LPU 最显著的特点就是快——每秒生成大约 500 个 tokens,而 GPU 每秒只能生成约 40 个 tokens。但在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。

AI 热潮还在持续,“AI 卖铲人” 英伟达遭遇对手 Groq,后者靠着自研芯片 LPU 火遍社交网络。

LPU 最显著的特点就是快——每秒生成大约 500 个 tokens,而 GPU 每秒只能生成约 40 个 tokens。

最近在社交媒体上,充斥着大量 Groq 与其他 AI 系统的对比,但其中最为核心的一点是:LPU 能否颠覆英伟达 GPU 的霸主地位?

“性价比” 因素难有定论

LPU 能否颠覆 GPU 的关键就在于性价比,但这一点尚不能确定。

随着 AI 热浪席卷,AI 新创企业不仅难以获得 GPU,而且成本翻倍。困扰 AI 开发工程师的难题,就是如何尽可能低成本获得强大的 GPU(比如英伟达的 A100 和 H100 芯片)。LPU 的出现无疑是为 AI 开发者提供了一个新的选项。

从性能上看,横空出世的 Groq 声称 LPU 芯片速度比 GPU 快 10 倍。

为什么 LPU 芯片速度能提高这么多?Groq 品牌和创意副总裁 Mark Heaps 解释称,LPU 通过 “软件优先的硬件解决方案”,简化了数据的传输方式,而这种简化既表现在芯片上,还表现在芯片之间甚至是整个网络中。他补充说:

LPU 不需要调度程序、CUDA 库、内核等内容,但它不仅可以提高性能,还可以改善开发人员的体验。

但从价格上看,LPU 与 GPU 价格孰高孰低,引起了一些争议。华尔街见闻此前提到,原阿里技术副总裁贾扬清发文分析,一张 LPU 卡仅有 230MB 的内存,且售价超 2 万美元,在运行 Llama-2 70b 模型时,需要 305 张 Groq 卡才足够,而用 H100 则只需要 8 张卡。这意味着在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍

华为 “天才少年” 左鹏飞则表示,Groq 成本价非常低,预计每卡成本在 1200 美金左右。GPU 的成本大头则在 HBM,但 Groq 直接丢掉了 HBM,可以按 SRAM 的成本价估算卡成本。按 1200 美金/卡的成本计算,500 张 Groq 卡的总成本是 60 万美金。Groq 公司拿这 60 万美金只能采购两台英伟达 H100。

Heaps 表示,他们的芯片是基于 14nm 成熟工艺,容易获取且成本低廉。同时,Heaps 指出了 LPU 未来的发展方向:

我们下一代产品是 4nm 芯片。

与 GPU 的适用场景各异

Heaps 在比较 GPU 与 LPU 时提到,选择 GPU 与 LPU 往往需要考虑很多因素,比如工作负载和型号。Heaps 称,在运行较小规模的硬件部署时,GPU 系统确实将很有优势:

但如果我们谈论的是使用大型语言模型,为成千上万的用户提供服务的大型系统,我们的数据显示 LPU 在功耗方面更有效率。

在 Groq LPU 推出之前,大模型的训练和推理都是基于英伟达 GPU 来设计,采用昂贵的 CUDA 软件技术栈,而 LPU 则是专为 AI 推理所设计的芯片,在很多领域还未被大规模应用。

Heaps 解释说,去年大量新的 LLM 模型推出,需要芯片兼容训练和推理,而往后则会有更差异化的需求,LPU 就有了用武之地:

过去,人们想要一个像 GPU 这样的通用解决方案,既可以用于训练,也可以用于推理。

但现在,新兴市场迫使人们追寻差异化,此时通用的解决方案并不能很好地帮助他们实现目标。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。