
Unlocking the next big opportunity in storage! Korean media details Jensen Huang's "mysterious reasoning contextual memory platform"

英伟达在 CES 上发布 “推理上下文内存平台”(ICMS),将 AI 硬件重心转向高效存储。 它通过 DPU 管理大容量 SSD,解决了 AI 推理中激增的 “KV 缓存” 需求,使 NAND 闪存/SSD 成为核心计算部件。这直接激活了企业级存储市场,为三星、SK 海力士等头部厂商带来巨大新订单,开启行业新周期。
在 1 月 5 日的 2026 年国际消费电子展(CES)上,英伟达首席执行官黄仁勋发布了名为 “推理上下文内存平台”(ICMS)的全新硬件,旨在解决人工智能推理阶段爆炸式增长的数据存储需求。此举标志着 AI 硬件架构的重心正从单纯的算力堆叠向高效的上下文存储转移,NAND 闪存和 SSD 有望接棒 HBM,成为下一个关键的增长引擎。
《韩国经济日报》在 1 月 24 日的文章中介绍,黄仁勋在演讲中展示了一个被称为 “推理上下文内存平台”(Inference Context Memory Platform,简称 ICMS)的神秘黑色机架。这并非普通的硬件更新,而是一个旨在解决人工智能推理阶段数据瓶颈的关键创新。记者敏锐地捕捉到,这可能是继 HBM(高带宽内存)之后,存储行业的下一个爆发点。
这一平台的核心逻辑在于解决 AI 推理中的 “KV 缓存”(键值缓存)问题。随着 AI 从单纯的学习阶段转向大规模推理应用,数据量呈爆炸式增长,现有的 GPU 显存和服务器内存架构已难以满足需求。英伟达通过引入全新的数据处理单元(DPU)和海量 SSD(固态硬盘),构建了一个庞大的缓存池,试图打破这一物理限制。
这一技术变革对于韩国存储巨头三星电子和 SK 海力士来说,无疑是一个巨大的利好消息。报道认为,随着 ICMS 的推广,NAND 闪存将迎来类似 HBM 的 “黄金时代”。这不仅意味着存储容量需求的激增,更预示着存储架构的根本性变革——GPU 将可能绕过 CPU,直接与存储设备进行高速通信。
KV 缓存爆炸式增长引发存储焦虑
韩媒文章指出,黄仁勋引入 ICMS 技术的核心动因在于 “KV 缓存” 的激增。在 AI 推理时代,KV 缓存是 AI 理解对话上下文、进行逻辑推理的关键。例如,当用户向 AI 询问关于 G-Dragon 的复杂主观问题时,AI 需要调用模型内部数据和历史对话上下文(即 KV 缓存)进行权重分配和推理,以避免重复计算和幻觉。
随着 AI 从单纯的学习转向推理,以及应用场景向多模态扩展,所需处理的数据量呈现不规则且爆炸式的增长。英伟达发现,仅靠昂贵的 HBM 或常规 DRAM 已无法容纳海量的 KV 缓存,而现有的服务器内部存储架构在应对未来推理时代时显得捉襟见肘。因此,一种能承载海量数据且保持高效访问的专用存储平台成为刚需。
DPU 驱动的 9600TB 巨量空间
据韩媒文章,ICMS 平台的核心在于将 DPU 与超大容量 SSD 相结合。文章转述英伟达介绍,该平台采用了新的 “BlueField-4” DPU,充当数据传输的 “行政后勤官”,以减轻 CPU 负担。一个标准的 ICMS 机架包含 16 个 SSD 托架,每个托架配备 4 个 DPU 并管理 600TB 的 SSD,使得单个机架的总容量达到惊人的 9600TB。
这一容量远超传统 GPU 机架。相比之下,一套包含 8 个机架的 VeraRubin GPU 平台,其 SSD 总容量约为 4423.68TB。黄仁勋表示,通过 ICMS 平台,虚拟层面上将 GPU 的可用内存容量从以前的 1TB 提升到了 16TB。同时,借助 BlueField-4 的性能提升,该平台实现了每秒 200GB 的 KV 缓存传输速度,有效解决了大容量 SSD 在网络传输中的瓶颈问题。
开启 NAND 闪存黄金时代
文章指出,ICMS 平台主要利用的是 SSD,这直接利好 NAND 闪存制造商。过去几年,虽然 AI 火热,但镁光灯主要集中在 HBM 上,NAND 闪存和 SSD 并没有受到同等程度的关注。
英伟达将该平台定位为介于服务器内部本地 SSD 和外部存储之间的 “第 3.5 层” 存储。与昂贵且耗电的 DRAM 相比,由高性能 DPU 管理的 SSD 具备大容量、速度快且断电不丢失数据的优势,成为存储 KV 缓存的理想选择。
这一架构变革直接利好三星电子和 SK 海力士。由于 ICMS 对存储密度的极高要求,市场对企业级 SSD 和 NAND 闪存的需求将大幅攀升。此外,英伟达正在推进 “Storage Next”(SCADA)计划,旨在让 GPU 绕过 CPU 直接访问 NAND 闪存,进一步消除数据传输瓶颈。
SK 海力士已迅速响应这一趋势。据报道,SK 海力士副总裁金天成透露,公司正与英伟达合作开发名为 “AI-N P” 的原型产品,计划利用 PCIe Gen 6 接口,在今年年底推出支持 2500 万 IOPS(每秒读写次数)的存储产品,并预计到 2027 年底将性能提升至 1 亿 IOPS。随着各大厂商加速布局,NAND 闪存和 SSD 有望在 AI 推理时代迎来量价齐升的新周期。
以下是韩媒文章全文,由 AI 翻译:
英伟达首席执行官黄仁勋在 2026 年国际消费电子展(CES)上发布了一个神秘的内存平台:“推理上下文内存平台”。今天,《科技与城市》栏目将深入探讨它究竟是什么。
关键词:KV 缓存
在 5 日(当地时间)于拉斯维加斯举行的 NVIDIA Live 大会上,NVIDIA 首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个 HBM 吗?
今日之星:黑色机架式 NVIDIA ICMS(推理上下文内存存储)。图片来源:NVIDIA首席执行官黄仁勋指着的是 VeraRubin 人工智能计算平台一角的一个黑色机架。这个机架,也就是我们今天故事的主角,里面存放着海量的存储空间。
首先,让我解释一下黄仁勋引入这项技术的原因。我们应该从 “KV 缓存” 说起,黄仁勋 CEO 在官方场合经常提到它。读者朋友们,你们可能在最近关于 GPU 和 AI 硬件的文章中已经多次听到过 KV 缓存这个名字。
这个关键词在 AI 推理时代至关重要。它关乎 AI 理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开 OpenAI 的 ChatGPT 或 Google Gemini,问一个关于韩国流行歌手 G-Dragon 的问题。
如果用户问的是 G-Dragon 的音乐、时尚或事业等客观信息,AI 可以根据它学习到的信息回答。但是,聊了一会儿之后,用户突然问:“那他为什么会成为他那个时代的 ‘偶像’ 呢?” 这就好比问了一个没有明确答案的论述题。这时,AI 就开始推理了。
这就是 KV 缓存的关键所在:键和值。首先是键。我们很容易理解,但人工智能使用键向量来清晰地识别对话上下文中问题中的 “那个人” 是谁,以及答案的主题和目标(键)。然后,它会利用模型内部关于 G-Dragon 以及在与用户对话过程中收集到的各种数据(值)的中间计算结果,进行权重分配、推理,最终得出答案。
如果没有 KV 缓存,如果每个问题都像第一次一样重新计算,GPU 将重复两到三次工作,从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而,KV 缓存可以提高效率。基于 “注意力计算” 的推理,会重用从与用户的长时间对话中获得的各种数据并应用权重,速度更快,对话也更加自然。
图片由 NVIDIA 提供随着人工智能行业从学习向推理转型,这种键值缓存不再仅仅是辅助存储器。此外,所需的容量也在不断增加。
首先,随着越来越多的人将生成式人工智能融入日常生活,数据量的不规则激增不可避免。随着图像和视频服务的加入,对人工智能高级推理和想象力的需求将进一步增长,数据量还将呈爆炸式增长。
随着人工智能发现新信息的能力不断提升,它会在与用户的互动过程中,在各种场景下创建大量有用的键值缓存(KV 缓存)。
面对键值缓存的爆炸式增长,NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类:一类是大量生成键值缓存的 GPU,另一类是使用键值缓存的 GPU。然而,存储空间不足以存储所有这些缓存。
当然,服务器内部的内存容量很大。GPU 旁边是 HBM 内存→如果不够用,就用 DRAM 模块→如果实在不行,甚至会在服务器内部使用 SSD 固态硬盘。然而,CEO 黄仁勋似乎已经意识到,这种架构在未来的推理时代将难以驾驭。因此,他在 CES 上发布了这款黑盒子。
NVIDIA CEO 黄仁勋在 CES 2026 上推出 ICMS。图片由 NVIDIA YouTube 提供。DPU + 超大容量 SSD = KV 缓存存储专用团队
这台黑色服务器是 “推理上下文内存平台”,简称 ICMS。让我们仔细看看它的规格。首先,驱动 ICMS 的设备是 DPU,即数据处理单元。读者可能对 GPU 和 CPU 比较熟悉,但服务器的隐藏动力源——DPU 也值得一看。
NVIDIA 首席执行官黄仁勋发布了 BlueField-4 DPU。图片由 NVIDIA 提供。DPU(数据处理单元)就像军队中的行政后勤官。如果说 CPU 是连长,那么 GPU 就是计算突击队员。DPU 负责弹药和食物的运送,甚至处理通信和移动,使 CPU 能够做出适当的决策,而 GPU 则专注于攻击。NVIDIA 的新型 DPU“Bluefield-4” 被赋予了一项新任务:ICMS。现在,让我们仔细看看 ICMS 平台。这个机架总共包含 16 个 SSD 托架。
图片来源:NVIDIA每个托架配备四个 DPU,每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。
这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中,为了最大化 KV 缓存,我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD,这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。
也就是说,单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU“机架” 所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16,即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。
图片由 NVIDIA 提供黄仁勋在 CES 演讲中表示:“以前 GPU 的内存容量为 1TB,但通过这个平台,我们获得了 16TB 的存储容量。”
仔细想想,他的话似乎相当准确。一个完整的 VeraRubin 平台由八个 GPU 机架组成。每个机架有 72 个 GPU,共计 576 张存储卡。将 ICMS 的总容量 9600TB 除以 576 张存储卡,得出约 16.7TB。
虽然人们仍然担心服务器的物理距离和 SSD 的传输速度,但 BlueField 4 性能的提升缓解了这些问题。黄仁勋解释说:“我们实现了与之前相同的每秒 200GB 的 KV 缓存传输速度。”
此外,现有的 GPU 服务器存在网络瓶颈,限制了 7.68TB 和 15.36TB 等大容量 SSD 的充分利用。这项基于 DPU 的网络改进似乎正是为了解决这些问题。
被视为 “零” 的 NAND 闪存的黄金时代即将到来吗?
图片由 NVIDIA 提供NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM,第二组是 DRAM 模块,第三组是服务器内部的本地 SSD,第四组是服务器外部的存储。ICMS 深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同,SSD 比硬盘速度更快、容量更大,即使断电也不会丢失数据(这得益于高性能 DPU),使其成为理想之选。
该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量,这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存,而且这仅仅是按位计算。此外,这款产品的开发商是 NVIDIA,一家全球所有人工智能公司都梦寐以求的公司,因此商机更加巨大。
三星电子的服务器固态硬盘。即使人工智能时代已经到来,NAND 闪存和固态硬盘的价格一直滞后,预计今年第一季度将出现大幅上涨。图片由三星电子提供。过去三年,尽管人工智能市场发展迅猛,但 NAND 闪存和固态硬盘 (SSD) 并未受到太多关注。这主要是因为与在 NAND 闪存发展中发挥关键作用的 HBM 相比,它们的利用率较低。NVIDIA 正从 ICMS 项目入手,筹备一个旨在进一步提升 SSD 利用率的项目。该项目是 “Storage Next”(也称为 SCADA,即 Scaled Accelerated Data Access,规模化加速数据访问)计划的一部分。目前,执行 AI 计算的 GPU 将直接访问 NAND 闪存(SSD)来获取各种数据,而无需经过 CPU 等控制单元。这是一个旨在消除 GPU 和 SSD 之间瓶颈的大胆设想。SK 海力士也已正式宣布正在开发 AI-N P,以顺应这一趋势。 SK 海力士副总裁金天成表示:“SK 海力士正与 NVIDIA 积极开展名为 ‘AI-N P’ 的初步实验(PoC)。”
他解释说:“基于 PCIe Gen 6、支持 2500 万 IOPS(每秒输入/输出操作数)的存储原型产品有望在今年年底发布。” 他还表示:“到 2027 年底,我们将能够生产出支持高达 1 亿 IOPS 的产品。” 2500 万 IOPS 是目前固态硬盘速度的 10 倍以上。








