Insights into the Future of AI Chips from the 'Chip Olympics': Interconnect Bottlenecks Emerge as Packaging Innovation Becomes the Next Battleground

随着 HBM4 带宽逼近极限、GPU 规模持续扩张，芯片间通信与内存带宽瓶颈集中显现，推动光互联、CPO、DWDM 及 UCIe 等方案加速收敛。英伟达、Broadcom、Marvell 等厂商明确下一代数据中心互联路径，而台积电 aLSI、英特尔 UCIe-S 及多家 AI 加速器方案则围绕先进封装展开竞逐。整体来看，算力提升正越来越依赖系统级封装与互连创新，封装已成为 AI 芯片竞争的核心战场。

号称 “芯片奥林匹克” 的半导体行业年度顶级电路会议 ISSCC 2026 释放出一批具有直接市场意义的技术信号——三星 HBM4 性能数据首度公开，英伟达与 Broadcom 的光互联路线图趋于清晰，AMD、微软等巨头的 AI 加速器架构细节也相继披露。

据顶级半导体分析机构 Semianalysis ，三星在本届会议上展示的 HBM4 技术数据显示，其带宽达 3.3 TB/s，引脚速度最高可达 13 Gb/s，超出 JEDEC 标准逾两倍，表明三星正在缩小与 SK 海力士之间的技术差距。与此同时，英伟达在会上提出的DWDM 光互联方案，与 OCI MSA 行业联盟同期发布的规范高度吻合，进一步明确了下一代 AI 数据中心互联的技术走向。

三星 HBM4 若能在良率和可靠性上持续改善，将对 SK 海力士的市场主导地位构成实质性挑战；而光互联标准的逐步收敛，则意味着相关供应链的投资窗口正在打开。

ISSCC：半导体行业的年度技术风向标

先简单介绍一下 ISSCC，国际固态电路会议，是半导体领域三大顶级学术会议之一，另外两个为 IEDM 和 VLSI。与后两者相比，ISSCC 更侧重电路集成与实现，几乎每篇论文均附有电路图及实测数据，是业界观察芯片技术实际落地进展的重要窗口。

今年的 ISSCC 尤为值得关注。据 SemiAnalysis 指出，往年 ISSCC 的论文对产业的直接影响参差不齐，但 2026 年明显不同——大量论文与当前市场热点高度相关，涵盖 HBM4、LPDDR6、GDDR7、NAND 闪存、共封装光学（CPO）、先进芯片间互联，以及来自联发科、AMD、英伟达、微软等厂商的处理器架构。

三星 HBM4：性能突破，但良率与成本仍是隐忧

三星是三大内存厂商中唯一在本届 ISSCC 发表 HBM4 技术论文的企业。

其展示的 HBM4 采用 12 层堆叠、36 GB 容量，配备 2048 个 IO 引脚，带宽达 3.3 TB/s，核心 DRAM 采用第六代 10nm 级（1c）工艺，逻辑基底芯片则采用 SF4 先进逻辑制程。

最关键的架构变化在于基底芯片的制程分离。HBM4 将基底芯片从 DRAM 制程迁移至 SF4 逻辑制程，使工作电压（VDDQ）从 HBM3E 的 1.1V 降至 0.75V，降幅达 32%，同时实现更高的晶体管密度与更优的面积效率。结合自适应体偏置（ABB）控制技术和 4 倍 TSV 数量提升，三星 HBM4 在低于 1V 核心电压下可达 11 Gb/s 引脚速度，最高可至 13 Gb/s，大幅超越 JEDEC HBM4 标准规定的 6.4 Gb/s 上限。

然而，这一技术路线存在明显代价。SF4 制程的成本高于 SK 海力士采用的台积电 N12 工艺及美光的内部 CMOS 基底方案。更关键的是，三星 1c 制程的前端良率去年仅约 50%，尽管持续改善，但较低的良率对 HBM4 的毛利率构成压力。SemiAnalysis 指出，三星 HBM 历史上的利润率本就低于 SK 海力士，这一格局在 HBM4 世代仍面临挑战。

在可靠性与稳定性方面，三星目前仍落后于 SK 海力士，但技术层面的追赶态势已较为明显。

LPDDR6 与 GDDR7：三星与 SK 海力士各有侧重

三星与 SK 海力士均在本届 ISSCC 展示了 LPDDR6 芯片。两家的产品均支持最高 14.4 Gb/s 的数据速率，较最快的 LPDDR5X 提升约 35%。

在低电压性能上，两家存在差异。三星 LPDDR6 可在 0.97V 下达到 12.8 Gb/s，而 SK 海力士在 0.95V 下仅能达到 10.9 Gb/s，显示三星在低引脚速度下的功耗效率更具优势。三星还同步展示了基于 SF2 制程的 LPDDR6 PHY，支持效率模式下读取功耗降低近 50%。

SK 海力士的亮点则在于 GDDR7。其基于 1c 制程的 GDDR7 最高可达 48 Gb/s（1.2V），即便在 1.05V/0.9V 的低电压下也能达到 30.3 Gb/s，高于 RTX 5080 所搭载的 30 Gb/s 显存。位密度达到 0.412 Gb/mm²，显著优于三星 1b 制程的 0.309 Gb/mm²。

值得注意的是，SemiAnalysis 指出，英伟达此前公布的搭载 128GB GDDR7 的 Rubin CPX 大上下文 AI 处理器，已从 2026 年路线图中基本消失，英伟达转而聚焦于 Groq LPX 方案的推出。

光互联：英伟达 DWDM 路线与行业标准趋于收敛

光互联是本届 ISSCC 另一核心议题，直接关系到下一代 AI 加速器集群的组网方式。

英伟达在会上提出了基于 DWDM（密集波分复用）的光互联方案，采用每波长 32 Gb/s、8 个波长复用的架构，并以第 9 个波长进行时钟转发，以简化 SerDes 设计、提升能效。这与 OFC 2026 前夕成立的 OCI MSA（光计算互联多源协议）所发布的规范高度吻合——OCI MSA 聚焦于 200 Gb/s 双向链路，采用 4 波长 50G NRZ 的 DWDM 方案用于规模扩展（scale-up）互联。

这一进展厘清了此前市场的疑惑：英伟达的 COUPE 光引擎面向 200G PAM4 DR 光学的规模扩展（scale-out）交换，而 DWDM 则用于规模扩展（scale-up）互联，两条路线并行不悖。

Broadcom 方面，其展示了 6.4T MZM 光引擎，由 64 路约 100G PAM4 通道组成，并在 Tomahawk 5 51.2T CPO 系统中完成测试验证。Broadcom 表示未来将切换至 COUPE 方案，但现有产品仍沿用其他封装路线。

Marvell 则展示了面向数据中心园区场景的 800G Coherent-Lite 收发器，功耗仅为 3.72 pJ/b（不含硅光子），约为传统相干收发器的一半，在 40 公里光纤上的延迟低于 300 纳秒。

先进封装与芯片间互联：多路技术竞逐

随着多芯片设计成为主流，芯片间互联成为性能瓶颈，多家企业在本届 ISSCC 展示了各自方案。

台积电展示了主动局部硅互联（aLSI）技术，通过在桥接芯片中引入边沿触发收发器（ETT）电路，改善信号完整性，将 PHY 深度从 1043μm 压缩至 850μm，总功耗仅 0.36 pJ/b。SemiAnalysis 指出，该测试载体的封装设计与 AMD MI450 GPU 高度吻合，暗示 aLSI 可能是 AMD 下一代产品的封装方案。

英特尔展示了兼容 UCIe-S 标准的芯片间接口，基于 22nm 制程，可在标准有机封装上实现最高 48 Gb/s/通道、传输距离 30mm 的互联，被认为是未来 Diamond Rapids 至强 CPU 的原型方案。

微软则披露了其芯片间互联细节，基于台积电 N3P 制程，在 24 Gb/s 下系统功耗为 0.33 pJ/b，SemiAnalysis 认为这正是微软 Cobalt 200 CPU 中连接两颗计算小芯片的定制高带宽互联。

AI 加速器：AMD、微软、Rebellions 架构细节首度公开

AMD 在会上详细介绍了 MI355X GPU 相对于 MI300X 的改进。核心计算芯片（XCD）从 N5 迁移至 N3P 制程，矩阵吞吐量翻倍而面积不变；IO 芯片（IOD）从 4 颗合并为 2 颗，减少了芯片间互联开销，互联功耗降低约 20%。

微软 Maia 200 是本届会议披露的另一重要 AI 加速器。作为目前主流 HBM 加速器中最后坚守光罩级单片设计的产品，Maia 200 基于台积电 N3P 制程，集成超过 10 PFLOPS 的 FP4 算力、6 颗 HBM3E 及 28 路 400 Gb/s 全双工芯片间链路，封装方案与英伟达 H100 类似，采用 CoWoS-S 中介层。

韩国 AI 芯片初创公司 Rebellions 则首度公开了其 Rebel100 加速器的架构细节。该芯片采用三星 SF4X 制程及 I-CubeS 先进封装，配备 4 颗计算芯片和 4 颗 HBM3E，并集成硅电容以改善 HBM3E 供电质量。SemiAnalysis 指出，三星可能通过捆绑 I-CubeS 封装与前端制程，并以 HBM 供货条件为筹码，推动这一尚未获得主流 AI 加速器采用的封装技术打入市场。