NVIDIA's Ambition: "AI Native" Completely Disrupts Data Centers

华尔街见闻
2023.08.09 01:34
portai
I'm PortAI, I can summarize articles.

投资数百万美元购买上一代计算资源,实在太愚蠢了。像最新发布的、人工智能数专用的开发硬件 GH200,只需要不到十分之一的成本和功耗,就能完成同样的工作。

投资数百万美元购买上一代计算资源,实在太愚蠢了。像最新发布的、人工智能数专用的开发硬件 GH200,只需要不到十分之一的成本和功耗,就能完成同样的工作。

英伟达 CEO 黄仁勋在周二的发布会上这样说。昨日,英伟达发布新一代 GH200 Grace Hopper 超级芯片平台,专为加速计算和生成式 AI 时代而打造。

黄仁勋指出,为了满足生成式 AI 不断增长的需求,数据中心需要有针对特殊需求的加速计算平台。新的 GH200 芯片平台提供了卓越的内存技术和带宽,提升无损耗连接 GPU 聚合性能的能力,并且拥有可以在整个数据中心轻松部署的服务器设计。

值得一提的是,大模型浪潮来袭,催生各种 AI 原生应用,带动算力需求激增,专为应对数据密集型人工智能应用的数据中心市场正迅速崛起。

数据中心迎来新变革

据华尔街日报报道,分析师们指出说,随着老牌云计算供应商竞相为数据中心改装先进芯片和进行其他升级,以满足人工智能软件的需求,一些新兴的建设者看到了从零开发新设施的机会。

数据中心类似于一个大型仓库,配备了多架服务器、网络和存储设备,用于存储和处理数据。与传统数据中心相比,AI 数据中心拥有更多使用高性能芯片的服务器,因此 AI 数据中心服务器每个机架的平均耗电量可达 50 千瓦或更多,而传统数据中心每个机架的耗电量大约为 7 千瓦。

这意味着 AI 数据中心需要增建能够提供更高功率的基础设施,由于额外的用电量会产生更多的热量,AI 数据中心还需要其他冷却方法,如液体冷却系统,以防止设备过热。

服务和咨询公司 Unisys 高级副总裁 Manju Naglapur 指出:

专门建造的人工智能数据中心可容纳利用人工智能芯片(如英伟达的 GPU)的服务器,在人工智能应用筛选庞大的数据存储时,可同时运行多个计算。这些数据中心还配备了光纤网络和更高效的存储设备,以支持大规模的人工智能模型。

AI 数据中心是高度专业化的建筑,需要投入大量的资金和时间。研究公司 Data Bridge Market Research 数据显示,到 2029 年,全球人工智能基础设施市场的支出预计将达到 4225.5 亿美元,未来六年的复合年增长率将达到 44%。

DataBank 首席执行官 Raul Martynek 表示,人工智能的部署速度很可能会导致数据中心容量在未来 12 到 24 个月内出现短缺。

AI 算力新秀获得 23 亿美元融资

目前,各路巨头都在押注 AI 数据中心,“地产标杆” 黑石卖房转投 AI 数据中心。Meta 也曾表示,将建设一个新的人工智能数据中心。

此前文章提到,AI 算力新秀 CoreWeave,拿英伟达 H100 抵押贷款,获得债务融资 23 亿美元(约 165 亿人民币)。

CoreWeave 表示,这笔资金将用于加快建设人工智能数据中心,这是该公司继今年 4 月获得 2.21 亿美元和 5 月获得 2 亿美元后的又一次融资。CoreWeave 成立于六年前,目前已有 7 个人工智能数据中心上线,预计到今年年底将翻一番。

CoreWeave 正与英伟达以及 Inflection AI 合作建一个超大型 AI 服务器集群,目标是运行 2.2 万块英伟达 H100。如果建成,将成为全球最大的 AI 服务器集群。

值得一提的是,根据 CoreWeave 官网宣传,他们的服务比传统云计算厂商便宜 80%。英伟达最新的 HGX H100 服务器,内含 8 张 80G 显存的 H100 和 1T 内存那种,起步价每小时只要 2.23 美元(16 块人民币)。

而相比前代平台,新 GH200 Grace Hopper 平台的双芯片配置将内存容量提高 3.5 倍,带宽增加三倍,一个服务器就有 144 个 Arm Neoverse 高性能内核、8 petaflops 的 AI 性能和 282GB 的最新 HBM3e 内存技术。

难怪在这个 LLM 大爆炸的时代,黄仁勋依然大胆放话 “买得越多,省得越多”!