Amazon deploys Cerebras chips, focusing on its "ultra-fast inference solutions"

亚马逊云服务与芯片初创公司 Cerebras 达成多年合作，将在数据中心联合部署 Cerebras 与自研 Trainium 芯片，提供高速 AI 推理服务。Cerebras 芯片推理速度号称比英伟达 GPU 快 25 倍，此次合作有助于其触达大量云端客户。

亚马逊云服务与芯片初创公司 Cerebras 宣布达成多年合作协议，将在其数据中心部署 Cerebras 芯片，用于 AI 推理计算。

3 月 13 日周五，根据双方公布的协议，亚马逊云服务将把 Cerebras 芯片与自研 Trainium 芯片组合部署，以提供更高速的推理计算服务。

这也是继今年 1 月 OpenAI 与 Cerebras 签署逾百亿美元合作协议之后，这家初创公司再度获得大型科技巨头背书。

Cerebras 将其芯片标榜为 “极速推理解决方案”，并表示它们可以处理被称为 “解码” 的复杂任务，即推理计算阶段，人工智能模型在此阶段对用户查询做出响应，速度比英伟达的 GPU 快 25 倍。

此次合作对 Cerebras 的商业版图具有重要意义。Cerebras 首席执行官 Andrew Feldman 表示：

越来越多的人使用人工智能，使用频率也越来越高，并且用它来解决更复杂的问题。这使得 Cerebras-Trainium 解决方案能够接入最大的云平台，让我们有机会接触到大量的客户。

推理市场崛起，GPU 主导地位受压

AI 行业算力需求的重心正悄然转移。

随着 AI 工具和智能体的用户规模迅速扩张，训练阶段的算力需求趋于饱和，推理计算的重要性日益凸显。企业普遍认识到，GPU 虽在模型训练中表现出色，但在要求极致响应速度的推理工作负载上并非最优选择，这促使各方加快多元化供应商布局。

AWS 作为全球最大的云服务提供商，此前主要依赖旗下 Annapurna Labs 半导体业务设计的 Trainium 芯片为数据中心提供算力支持。

此次引入 Cerebras 芯片，意在弥补 Trainium 在高速推理场景下的局限，并在推理产品线上提供分层定价方案，速度较慢的纯 Trainium 服务将以更低价格提供，而 Cerebras 与 Trainium 的组合方案则定位高端。

AWS 联合创始人、副总裁 Nafea Bshara 表示，该公司的目标是"持续推进速度提升并降低价格"。Feldman 则直言：

如果你希望获得快速 token 输出，如果速度对你至关重要，如果你在从事代码或智能体工作，我们不仅是绝对最快的，而且我们意在设定行业标准。

这笔交易是英伟达面临日益激烈竞争的缩影。

定制处理器设计商正以专项场景突破的方式蚕食英伟达的市场份额，客户对更快速度和更低成本的诉求也在倒逼芯片巨头加速产品迭代。

据报道，英伟达去年 12 月与芯片初创公司 Groq 签署了一项价值 200 亿美元的授权协议，并计划于近期发布采用 Groq 技术、专门面向推理场景的新型处理系统。

对于 Cerebras 而言，与 AWS 的合作发生在其业务高速扩张的关键节点。

今年 2 月，Cerebras 宣布完成 10 亿美元新一轮融资，累计融资总额升至 26 亿美元，投后估值约为 230 亿美元。

今年 1 月，ChatGPT 开发商 OpenAI 签署了一项价值逾百亿美元的协议，部署 Cerebras 芯片为其旗舰聊天机器人提供算力支持，OpenAI 计划使用 Cerebras 芯片部署最高 750 兆瓦的算力。

这家初创公司背后汇聚了富达管理（Fidelity Management）、Atreides Management、Benchmark、Tiger Global 和 Coatue 等一线机构投资者的支持，但此前曾一度面临融资困难。

Cerebras 曾于 2024 年 9 月提交 IPO 申请，但约一年后撤回了上市文件。上市计划何时重启，目前尚无定论。