AI 热潮汹涌,算力需求爆炸,GPU“一卡难求”
“卖铲子” 的英伟达已经赚翻了。
人工智能热潮之下,新涌入这一赛道的公司意识到了一个大问题:想做大模型的公司太多,GPU 已经不够用了。
有媒体近期获悉,用于训练 AI 的 GPU 的需求激增,包括亚马逊、微软、谷歌和甲骨文等主要云服务供应商,都已经开始限制算力供给,此外,服务器硬件也越来越难租到了,有公司对媒体表示,租赁硬件需要等待数月之久。
GPU 需求爆炸让 AI 淘金浪潮的 “卖铲人” 英伟达赚得盆满钵满,也大受资本市场认可。今年以来,英伟达股价累计涨超 88%。
AI 引爆 GPU 需求
风险投资公司 Root Ventures 的工程师 Yasyf Mohamedali 对媒体表示,他已经花了数周时间试图从亚马逊 AWS 和谷歌云租赁一台 AI 服务器,但一直没有成功。直到最近才好不容易从一家小初创企业那里通过转租拿到了一台。
他认为:
“除非你已经(和主要云服务供应商)签订了现有合同,或者预付了费用,否则几乎不可能租到服务器。“
据两名知情人士对媒体表示,由于 GPU 短缺,亚马逊的新客户很难立即获得 GPU 服务器。亚马逊的客服建议他们租用搭载亚马逊内部芯片 Trainium 的服务器,但绝大多数开发团队都更习惯使用 GPU 服务器。
而微软甚至在尝试说服一些客户放弃已经预付款但还未投入使用的 GPU 服务器,以便将这些服务器转售给其他公司。
此外,规模更小的甲骨文在过去一个月里,拒绝了所有 AI 新客户,理由是 GPU 服务器容量有限。
有市场分析指,这次的 “缺芯” 难题和 2020 年下半年开始的车企缺芯潮不一样,GPU 的主要供应商英伟达并不存在供应链方面的阻碍。GPU 短缺主要是因为云厂商没有预见到 AI 需求会如此强劲,没有订购足够的芯片。
去年科技企业集体降本过冬,也是导致本轮 GPU 短缺的因素之一。Wedbush Securities 分析师 Matt Bryson 认为,由于云厂商支出增长放缓,因此在过去一年缩减了新建服务器的规模。
不过,他也表示,目前英伟达积压的订单在 2-3 个月左右,随着产品的逐渐交付,GPU 短缺难题在未来或有所缓解。
创业公司前来救援
在亚马逊、微软、谷歌、甲骨文等巨头之外,一些小厂商开始涌入这一赛道 “救急”。这些公司通过大批量从英伟达那里下单获得 GPU,然后再把 GPU 转租出去来赚钱。它们的方案往往比云服务巨头更有性价比。
例如,主要云服务的收费模式是按季度、年的时间来收费,但服务器通常不会 24 小时运转,这就意味着买了云服务的公司,是在为他们没有使用的服务器容量付费。
而初创公司 Banana 则以使用的秒数来租赁 GPU 服务器,对体量不大的开发团队而言颇具吸引力。
据媒体报道,目前类似 RunPod、Crusoe、Lambda Labs 等 GPU 提供商的服务器容量都已接近上限,这些公司都在加紧扩容。Lambda Labs 在 3 月获得了 4400 万美元融资,全部投入于购买更多芯片。