What does NVIDIA's inference context memory storage mean for NAND?

华尔街见闻
2026.01.14 16:27
portai
I'm PortAI, I can summarize articles.

花旗报告指出,英伟达最新推出的 AI 推理上下文内存存储(ICMS)架构,预计将显著加剧全球 NAND 闪存供应短缺。该架构每台服务器需额外配置 1152TB SSD,预计将在 2026 年、2027 年分别带来相当于全球 NAND 总需求 2.8% 和 9.3% 的新增用量。此举不仅将推升 NAND 价格,也为三星、SK 海力士、美光等头部存储芯片制造商带来明确的结构性增长机遇。

花旗认为,英伟达在 AI 推理应用中采用的上下文内存存储技术,预计将加剧 NAND 闪存市场的供应短缺。

据追风交易台,花旗最新报告指出,英伟达推出的推理上下文内存存储(ICMS)架构将显著拉动 NAND 闪存需求,为存储芯片制造商带来结构性机遇,并可能进一步推升 NAND 价格。建议密切关注存储产业链供需格局变化,相关厂商有望持续受益于此轮需求增长。

英伟达宣布其 Vera Rubin 平台将采用搭载 BlueField-4 芯片的 ICMS 架构,通过卸载 KV Cache 突破内存瓶颈、提升 AI 推理性能。该架构单台服务器需额外配置 1152TB SSD NAND,报告预计 2026 年、2027 年将分别带来占全球 NAND 需求总量 2.8%、9.3% 的新增需求。此举将进一步加剧全球 NAND 供应短缺,同时为三星电子、SK 海力士、闪迪、铠侠、美光科技等头部 NAND 供应商创造显著市场机会。

ICMS:AI 推理的存储瓶颈解决方案

报告指出,大规模 AI 推理面临显著的内存瓶颈。Transformer 模型的核心内存优化机制——KV Cache,通过存储已计算的键值对来避免重复运算,并根据性能与容量需求分层存储:活跃 KV 缓存存放于 GPU HBM(G1),过渡/溢出 KV 缓存置于系统 DRAM(G2),热 KV 缓存则分配至本地 SSD(G3)。

为针对性优化这一架构,英伟达推出了推理上下文内存存储(ICMS)方案。该方案并非替代现有存储层级,而是在本地 SSD(G3)与企业共享存储(G4)之间新增一个 G3.5 层级的专用 KV Cache。这一层级能够高效地将 G4 中的冷 KV 上下文数据转换为 G2 中的暖 KV 缓存,并与 HBM 协同工作,从而显著提升数据传输效率与整体 AI 推理性能。

在硬件实现上,Vera Rubin 平台采用 16TB TLC SSD 作为 ICMS 存储介质,结合 KV 缓存管理器与拓扑感知调度机制,目标实现三大性能突破:每秒处理令牌数最高提升 5 倍、能效比最高提升 5 倍以及更低的延迟。具体配置方面,每台服务器搭载 72 块 GPU,每块 GPU 对应 16TB ICMS 专用 NAND 容量,使得单台服务器的总 NAND 需求达到 1152TB。

英伟达在 AI 推理中引入上下文内存存储技术,标志着 AI 算力架构的重要演进。与传统训练场景不同,推理过程依赖于大量的上下文数据存储与快速调用能力。这一技术路径的转变,为 NAND 闪存开辟了全新的应用场景,有望成为继数据中心和智能手机之后的重要需求增长点。

NAND 需求增量明确,供应短缺持续深化

花旗通过场景分析测算后认为,ICMS 架构的规模化落地将为全球 NAND 市场带来显著且确定的需求增量。报告预计,2026 年 Vera Rubin 服务器出货量将达到 3 万台,对应 ICMS 架构的 NAND 需求将达 3460 万 TB(折合 346 亿 8Gb 当量),这一需求规模占当年全球 NAND 总需求的 2.8%;随着 AI 推理需求的进一步释放,2027 年 Vera Rubin 服务器出货量有望增至 10 万台,届时 ICMS 带来的 NAND 需求将飙升至 1152 万 TB(折合 1152 亿 8Gb 当量),占全球 NAND 总需求的比例将提升至 9.3%。

报告同时指出,当前全球 NAND 市场本就处于供应紧张的状态,近年来 AI 产业的爆发式发展已推动数据存储需求持续攀升,NAND 作为核心存储介质的供需平衡已较为脆弱。而英伟达 ICMS 架构带来的新增需求具有刚性强、规模大的特点,将直接打破现有供需格局,导致全球 NAND 供应短缺的局面进一步加剧。

AI 驱动下,NAND 市场加速升级

花旗认为,英伟达 ICMS 架构的推出并非孤立的技术革新,而是 AI 技术与存储行业深度融合的必然结果,这一趋势将深刻影响 NAND 市场的未来发展。报告指出,在大模型推理场景不断拓展、运算规模持续扩大的背景下,存储系统的性能、容量和能效已成为决定 AI 应用体验的关键因素,这将推动 NAND 技术加速向更高密度、更快读写速度、更低功耗的方向迭代升级。

同时,报告预测,AI 原生存储架构的创新探索将为 NAND 行业开辟新的增长空间,除了当前的 ICMS 架构之外,未来可能会出现更多针对特定 AI 场景的定制化存储解决方案,持续释放 NAND 的需求潜力。

报告还提到,ICMS 架构带来的需求增量不仅将利好 NAND 厂商,还将向上游产业链传导,推动 SSD 制造、存储控制器等相关环节的协同发展,为整个半导体产业链注入新的增长动力。