芯片专家详解刷屏的 Groq 芯片
芯片专家详解刷屏的 Groq 芯片,Groq 速度更快,核心技术是 LPU,但成本太高,还不能成为英伟达的竞争对手。Groq 公司成立于 2016 年,去年 11 月曾与马斯克的 Grok 公司发生商标争议。Groq 云服务上线后获得好评,被称为低延迟产品的 “游戏规则改变者”,有望对 GPU 在人工智能应用需求方面实现 “革命性提升”,可能成为英伟达 A100 和 H100 芯片的有力替代品。
财报发布前两天,英伟达突然冒出来一个劲敌。
一家名叫 Groq 的公司今天在 AI 圈内刷屏,杀招就一个:快。
在传统的生成式 AI 中,等待是稀松平常的事情,字符一个个蹦出,半天才能回答完毕。但在 Groq 今天开放的云服务体验平台上,你看到的会是一秒一屏。当模型收到提示后,几乎能够立即生成答案。这些答案不仅真实可信,还附有引用,长度更是达到数百个单词。
电子邮件初创企业 Otherside AI 的首席执行官兼联合创始人马特·舒默(Matt Shumer)在演示中亲自体验了 Groq 的强大功能。他称赞 Groq 快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。更令人惊讶的是,它超过 3/4 的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。
虽然今天才刷屏,但 Groq 公司并非初出茅庐的新创企业。实际上,该公司成立于 2016 年,并在那时就注册了 Groq 商标。去年 11 月,当马斯克发布人工智能模型 Grok 时,Groq 公司的开发者们就发了一篇文章说马斯克撞名自己的公司。信写的挺逗的,但这波流量他们是一点没吃到。
这一次他们之所以能突然爆发,主要是因为 Groq 云服务的上线,让大家真的能亲身感受一下不卡顿的 AI 用起来有多爽。
有从事人工智能开发的用户称赞,Groq 是追求低延迟产品的 “游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq 的 LPU 在未来有望对 GPU 在人工智能应用需求方面实现 “革命性提升”,并认为它可能成为英伟达 A100 和 H100 芯片的 “高性能硬件” 的有力替代品。
Groq 芯片,能在速度上取胜的核心技术是 LPU
根据其模型的首次公开基准测试结果,Groq 云服务搭载的 Llama2 或 Mistreal 模型在计算和响应速度上远超 ChatGPT。这一卓越性能的背后,是 Groq 团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得 Groq 每秒可以生成高达 500 个 token。相比之下,目前 ChatGPT-3.5 的公开版本每秒只能生成大约 40 个 token。
这一芯片能在速度上取胜的核心技术是 Groq 首创的 LPU 技术。
根据推特上与 Groq 关系密切的投资人 k_zeroS 分享,LPU 的工作原理与 GPU 截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的 GPU 那样频繁地从内存中加载数据。这一特点不仅有助于避免 HBM 短缺的问题,还能有效降低成本。
不同于 Nvidia GPU 需要依赖高速数据传输,Groq 的 LPU 在其系统中没有采用高带宽存储器(HBM)。它使用的是 SRAM,其速度比 GPU 所用的存储器快约 20 倍。
鉴于 AI 的推理计算相较于模型训练需要的数据量远小,Groq 的 LPU 因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于 Nvidia 的 GPU。
如果在 AI 处理场景中采用 Groq 的 LPU,可能就无需为 Nvidia GPU 配置特殊的存储解决方案。LPU 并不像 GPU 那样对存储速度有极高要求。Groq 公司宣称,其技术能够通过其强大的芯片和软件,在 AI 任务中取代 GPU 的角色。
另一位安卡拉大学的助教更形象的解释了一下 LPU 和 GPU 的差别,“想象一下,你有两个工人,一个来自 Groq(我们称他们为 “LPU”),另一个来自 Nvidia(我们称之为 “GPU”)。两人的任务都是尽快整理一大堆文件。
GPU 就像一个速度很快的工人,但也需要使用高速传送系统(这就像高带宽存储器或 HBM)将所有文件快速传送到他们的办公桌上。这个系统可能很昂贵,有时很难得到(因为 HBM 产能有限)。
另一方面,Groq 的 LPU 就像一个高效组织任务的工人,他们不需要那么快地交付文件,所以用了一张就放在他们身边的更小的桌子(这就像 SRAM,一种更快但更小的存储器),所以他们几乎可以立即获得所需的东西。这意味着他们可以在不依赖快速交付系统的情况下快速工作。
对于不需要查看堆中每一篇文件的任务(类似于不使用那么多数据的人工智能任务),LPU 甚至更好。它不需要像往常一样来回移动,既节省了能源,又能快速完成工作。
LPU 组织工作的特殊方式(这是时态指令集计算机体系结构)意味着它不必一直站起来从堆里抢更多的论文。这与 GPU 不同,GPU 不断需要高速系统提供更多的文件。”
运用 LPU 这一技术,Groq 生产了加速器单元,根据其网站介绍规格如下:
确实快,但是贵,目前并不能成为英伟达的竞争对手
在 Groq 刚刚刷屏的时候,AI 行业都沉浸在它闪电速度的震撼之中。然而震撼过后,很多行业大佬一算账,发现这个快的代价可能有点高。
贾扬清在推特上算了一笔账,因为 Groq 小的可怜的内存容量(230MB),在运行 Llama-2 70b 模型时,需要 305 张 Groq 卡才足够,而用 H100 则只需要 8 张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。
芯片专家姚金鑫(J 叔)向腾讯科技进行了更详细的解释:
按照 Groq 的信息,这颗 AI 芯片的规格如下:
从芯片的规格中,可以看到几个关键信息点:SRAM 的容量是 230MB,带宽 80TB/s,FP16 的算力是 188TFLOPs。
按照当前对大模型的推理部署,7B 的模型大约需要 14G 以上的内存容量,那么为了部署一个 7B 的模型,大约需要 70 片左右的芯片,根据透露的信息,一颗芯片对应一张计算卡,按照 4U 服务器配置 8 张计算卡来计算,就需要 9 台 4U 服务器(几乎占了一个标准机柜了),总共 72 颗计算芯片,在这种情况下,算力(在 FP16 下)也达到了惊人的 188T * 72 = 13.5P,如果按照 INT8 来算就是 54P。54P 的算力来推理 7B 的大模型,用大炮打蚊子来形容一点也不为过。
目前社交媒体广泛传播的文章对标的是英伟达 H100,其采用的是 80G 的 HBM,这个容量可以部署 5 个 7B 的大模型实例;我们再来看算力,稀疏化后,H100 在 FP16 下的算力将近 2P,在 INT8 上也将近 4P。
那么就可以做个对比,如果从同等算力来看,如果都是用 INT8 来推理,采用 Groq 的方案需要 9 台包含 72 片的服务器集群,而如果是 H100,达到同等算力大约需要 2 台 8 卡服务器,此时的 INT8 算力已经到 64P,可以同时部署的 7B 大模型数量达到 80 多个。
原文中提到,Groq 对 Llama2-7B 的 Token 生成速度是 750 Tokens/s,如果对标的是 H100 服务器,那这 2 台总共 16 颗的 H100 芯片,并发吞吐就高到不知道哪里去了。如果从成本的角度,9 台的 Groq 服务器,也是远远贵过 2 台 H100 的服务器(即使此刻价格已经高到离谱)。
● Groq:2 万美金 *72=144 万美金,服务器 2 万美金 *9=18 万美金,纯的 BOM 成本 160 万美金以上(全部都是按照最低方式来计算)。
● H100:30 万美金 *2 = 60 万美金(国外),300 万人民币 *2=600 万人民币(国内实际市场价)
如果是 70B 的模型,同样是 INT8,要用到至少 600 张卡,将近 80 台服务器,成本会更高。
这还没有算机架相关费用,和消耗的电费(9 台 4U 服务器几乎占用整个标准机柜)。
实际上,部署推理性价比最高的,恰恰是 4090 这种神卡。
Groq 是否真的超越了英伟达?对此,姚金鑫(J 叔)也表达了自己不同的看法:
“英伟达在本次 AI 浪潮中的绝对领先地位,使得全球都翘首以盼挑战者。每次吸引眼球的文章,总会在最初被人相信,除了这个原因之外,还是因为在做对比时的 “套路”,故意忽略其他因素,用单一维度来做比较。这就好比那句名言 “抛开事实不谈,难道你就没有一点错的地方吗?”
抛开场景来谈对比,其实是不合适的。对于 Groq 这种架构来讲,也有其尽显长处的应用场景,毕竟这么高的带宽,对许多需要频繁数据搬运的场景来说,那就是再好不过了。
总结起来,Groq 的架构建立在小内存,大算力上,因此有限的被处理的内容对应着极高的算力,导致其速度非常快。
现在把句话反过来,Groq 极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100 同样吞吐量,你就需要更多的卡。
速度,在这里成了 Groq 的双刃剑。
传奇 CEO,小团队
虽然 Groq 还面对着很多潜在的问题,但它还是让人看到了 GPU 之外的可能路径。这主要得益于其背后的超强团队。
Groq 的 CEO 是被称为 “TPU 之父” 的前谷歌员工乔纳森·罗斯;联合创始人道格拉斯·怀特曼也来自谷歌 TPU 团队,并先后创立了四家公司。该公司首席技术官吉姆·米勒曾是亚马逊云计算服务 AWS 设计算力硬件的负责人,CMO 曾主导了苹果 Macintosh 的市场发布。
Groq 目前的团队也相对较小,其总部位于加州山景城,该公司仅有 180 余名员工,甚至还不到英特尔等大型芯片制造商所需工程师数量的四分之一。
罗斯等人的目标是在 Groq 复制他在谷歌的成功经验,打造一个内部芯片项目,引领整个行业向新技术迈进。他希望吸引少数关键客户,通过广泛部署 Groq 芯片为公司提供稳定的收入来源,推动公司的独立发展。目前,这家初创公司已开始向潜在客户发送样品。
“这就像猎杀大象,” 罗斯说道,“你只需要少数猎物就能维持自己的生命,尤其在我们还如此弱小的时候。”
本文作者:郝博阳、郭晓静,来源:腾讯科技,原文标题:《芯片专家详解刷屏的 Groq 芯片:目前并不能替代英伟达》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。