
Can AMD really break Nvidia's monopoly? AMD has risen more than 10% in the past two weeks, but...

英伟达的 Cuda 生态圈将 AMD 芯片拒之门外,AMD 想要打破垄断并非易事。
硬件软件齐发力,AMD 正在努力赶超英伟达,目前正面临生态垄断的关键问题。
9 月底,Lamini 联合创始人兼首席执行官 Sharon Zhou 在 X 平台发布了一条推文,推文表示在过去的一年里,她一直在使用 AMD(超威半导体)的 100 多个芯片来为其人工智能初创公司的产品提供支持。
这条推文再度引发了市场兴奋。为了追赶英伟达,AMD 今年以来动作频频,过去两周以来,AMD 股价累计上涨了约 10%。
今年 6 月,AMD 在其新品发布会上发布最新 GPU Instinct MI300,并称 MI300X 提供的 HBM 密度最高是英伟达 AI 芯片 H100 的 2.4 倍,其 HBM 带宽最高是 H100 的 1.6 倍。这意味着,AMD 的芯片可以运行比英伟达芯片更大的模型,将于今年晚些时候发布的 Instinct MI300XA 也因此被视为英伟达 H100 的有力竞品。
但是在软件方面,英伟达的 Cuda 生态圈将 AMD 芯片拒之门外,想要打破英伟达的垄断并非易事。
AMD 的软件难题:跨越 Cuda 生态壁垒
从硬件参数上来看,AMD Instinct MI300A 已经赶上甚至赶超了英伟达 H100 的水准,剩下的难题就是完善软件生态,主要是需要兼容英伟达自研的 Cuda 生态。
英伟达的 Cuda 软件及其芯片形成封闭的生态圈,使得 AMD 的 RocM 软件难以流行。此外,英伟达在其他软件组件(例如连接操作系统和硬件的驱动程序)方面也拥有巨大的领先优势。
Zhou 在接受采访时表示,尽管其初创公司成立时间不过一年,但她的联合创始人 Greg Diamos 已经花费了多年的时间致力于针对 Lamini 开发的软件优化 AMD 芯片。
因此,如果一家初创公司的 AI 应用搭载的是英伟达芯片,那么它基本上不可能转向 AMD 芯片,因为这意味着公司必须 “扔掉所有代码并从头开始”。
为了更明确地表达跨越生态的难度,Zhou 指出,英伟达在 Cuda 生态方面拥有 “两个十年的领先优势”。
但这不意味着 AMD 的芯片没有任何优势。
首先,AMD MI300A 芯片率先实现了 CPU 和 GPU 的结合,能够加快训练计算的速度,而英伟达的 Falcon Shores 计划尚未落地。
其次,MI300A 芯片拥有 128GB 的内存,比 H100 80GB 的内存更大,意味着开发人员可以在单个芯片上加载更大、更复杂的人工智能模型,而不是将其拆分到多个芯片上,分割模型会使训练和运行速度变慢且更加耗电。
此外,很多初创公司也正致力于让非英伟达芯片也可以兼容生态。比如 Lamini 一直致力于简化在 AMD GPU 上构建人工智能模型的困难;Modular 正在构建软件,以允许开发人员在不同类型的硬件上训练和运行模型。
周二,AMD表示,正计划收购一家名为 Nod.ai 的人工智能初创公司,以增强其人工智能软件的开发能力,以便更轻松地部署针对 AMD 芯片的人工智能模型。
