AMD reaches a milestone moment! Oracle collaborates with MI300X to build a supercomputing cluster

智通财经
2024.09.27 08:03
portai
I'm PortAI, I can summarize articles.

甲骨文选择 AMD 的 MI300X AI 加速器为其最新的 OCI 超级计算集群提供核心人工智能算力支持。这一合作标志着 AMD 在数据中心 AI GPU 市场的里程碑时刻,可能帮助其逐步扩大市场份额,挑战英伟达的主导地位。尽管英伟达在 AI 基础设施领域仍占据绝对优势,AMD 通过与甲骨文的合作,正积极参与 AI 基础设施竞争。

智通财经 APP 获悉,以云计算服务和数据库软件闻名全球的科技巨头甲骨文 (ORCL.US) 在近日选择配备 ROCm 开放软件生态的 AMD Instinct MI300X AI 加速器——被视为英伟达 H100 以及 H200 AI GPU 的最强大竞品,为甲骨文最新的 OCI 计算超级集群实例提供最核心的人工智能算力硬件支持。携手甲骨文,对于目前在数据中心 AI GPU 市场份额不到 10% 的 AMD(AMD.US) 来说,堪称 “里程碑时刻”,意味着 AMD 逐渐融入全球云计算巨头圈层,有望不断抢占英伟达在 AI GPU 市场的份额。

云巨头甲骨文选择 AMD Instinct MI300X AI 加速器用于其最新的 OCI(Oracle Cloud Infrastructure) 超级计算集群,这表明 AMD 正在不断增强其在 AI GPU 市场的影响力,能够获得云巨头甲骨文的真金白银认可对于 AMD 而言至关重要,AMD 有机会利用甲骨文在全球云计算服务市场中的强大影响力,扩大 Instinct MI300X 在数据中心 AI GPU 领域的市场份额。

尽管英伟达凭借无比强大的 CUDA 软件生态体系以及高性能 AI GPU 共同铸造的 “AI 基础设施领域护城河”, 目前仍在全球数据中心 AI GPU 市场中占据绝对的主导地位,尤其在 AI 大模型训练和推理硬件体系中扮演关键角色,但这一举措表明 AMD 正积极参与这场 AI 基础设施竞争,并通过其 Instinct MI300X AI 加速器 +ROCm 软件加速生态系统来挑战英伟达在 AI GPU 领域的霸主地位。

据了解,Oracle Cloud Infrastructure (OCI) Supercluster 是甲骨文所打造出的云计算超级算力集群,提供高性能的 AI 基础设施,所提供的强大 AI 算力资源用于一站式训练、调整和部署生成式 AI 大模型以及高效率部署与运作类似 ChatGPT 的生成式 AI 应用程序。

根据最新消息,甲骨文最新的 OCI 超级算力集群配备 AMD MI300X AI 加速器作为最核心的 AI 算力硬件,通过结合 OCI 上其他加速器设备共同使用的甲骨文极速网络结构技术,在单个集群系统中最多支持 16,384 个高性能 GPU。

甲骨文的这些 OCI 裸机实例旨在运行性能要求极度苛刻的人工智能工作负载,包括需要高吞吐量、领先行业的内存容量和带宽的大型语言模型推理和训练并行化繁重计算工作负载。据了解,Fireworks AI 等众多知名科技公司已经实际采用了这些 OCI 裸机实例。

通过与甲骨文合作,AMD 在 AI 数据中心的份额有望迅速提升

随着大型云计算服务商开始寻找英伟达昂贵且供不应求的 H100/H200 替代品,以及 AMD 通过提供更好的软硬件协同体系支持开始在 AI GPU 取得一些进展,AMD MI300X 现在也成为 AI 领域的热门基础硬件。

AMD 重磅打造的 MI300X 这一款 AI 加速器在内存带宽和容量方面相比于英伟达 Hopper 架构 AI GPU 具有强大优势,尤其适用于对于 AI 并行化算力负载要求较高的生成式 AI 模型训练和推理任务。甲骨文的最新选择表明,AMD 在硬件设计和 AI 相关的软件生态支持上,特别是高性能计算和 AI 工作负载所需的软硬件协同体系方面,已经具备强大的竞争力。

毫无疑问,与甲骨文之间的合作有助于全面扩大 AMD 旗下 MI300X AI 加速器在数据中心 GPU 市场的份额,大幅提高其客户在并行化计算密集型企业计算工作负载中的效率。

英伟达在硬件架构、并行计算、和 AI 训练/推理所需的软件加速生态方面的深厚积累,使其至少在近几年仍然牢牢占据数据中心 AI GPU 主导地位。企业们在大规模 AI 基础设施搭建过程中,往往高度依赖扎根于全球 AI 开发多年的 CUDA 加速软件生态以及与 CUDA 配套协同使用的英伟达高性能 AI GPU。但是近期不少分析师认为,如果 AMD 能够继续改进其 ROCm 软件生态,并加快其对主流 AI 开发者环境的支持,可能会进一步侵蚀英伟达在数据中心 AI GPU 市场的份额。

通过 AMD 前段时间对于 AI GPU 的宏伟蓝图,足以看出 AMD 对于未来占据数据中心 AI GPU 市场更多份额可谓非常具有信心。根据首席执行官苏姿丰 (Lisa Su) 在台湾 Computex 会议所展示的 AI 蓝图,AMD 应用于 AI 数据中心服务器的 AMD M300X AI 芯片升级版本——MI325X 将于第四季度开始上市销售,AMD 更加先进的 MI350 系列则将在 2025 年推出,而 MI400 系列将在一年后推出。AMD 大约每年一次的发布周期与英伟达首席执行官黄仁勋所提出的一年一次 AI GPU 新品发布的计划全面对标。

苏姿丰指出,MI325X AI 性能提升幅度为 AMD 史上最大幅度,相较竞品英伟达 H200 将有 1.3 倍以上提升。具体来看,AMD MI325X 峰值理论 FP16 是 H200 的 1.3 倍左右,1.3 倍于 H200 的内存带宽,基于每台服务器的模型大小是 H200 的 2 倍。

全球知名战略咨询公司贝恩预测,随着人工智能 (AI) 技术的迅速普及颠覆了企业和经济,人工智能相关的所有市场规模正在膨胀,到 2027 年将达到 9900 亿美元。这家咨询公司在周三发布的第五份年度《全球技术报告》中指出,包括人工智能相关服务和基础硬件在内的整体市场将在去年 1850 亿美元的基础上,每年增长 40% 至 55%。这意味着,到 2027 年将带来 7800 亿至 9900 亿美元的收入。