
Insights into the Future of AI Chips from the 'Chip Olympics': Interconnect Bottlenecks Emerge as Packaging Innovation Becomes the Next Battleground
随着 HBM4 带宽逼近极限、GPU 规模持续扩张,芯片间通信与内存带宽瓶颈集中显现,推动光互联、CPO、DWDM 及 UCIe 等方案加速收敛。英伟达、Broadcom、Marvell 等厂商明确下一代数据中心互联路径,而台积电 aLSI、英特尔 UCIe-S 及多家 AI 加速器方案则围绕先进封装展开竞逐。整体来看,算力提升正越来越依赖系统级封装与互连创新,封装已成为 AI 芯片竞争的核心战场。
号称 “芯片奥林匹克” 的半导体行业年度顶级电路会议 ISSCC 2026 释放出一批具有直接市场意义的技术信号——三星 HBM4 性能数据首度公开,英伟达与 Broadcom 的光互联路线图趋于清晰,AMD、微软等巨头的 AI 加速器架构细节也相继披露。
据顶级半导体分析机构 Semianalysis ,三星在本届会议上展示的 HBM4 技术数据显示,其带宽达 3.3 TB/s,引脚速度最高可达 13 Gb/s,超出 JEDEC 标准逾两倍,表明三星正在缩小与 SK 海力士之间的技术差距。与此同时,英伟达在会上提出的DWDM 光互联方案,与 OCI MSA 行业联盟同期发布的规范高度吻合,进一步明确了下一代 AI 数据中心互联的技术走向。
三星 HBM4 若能在良率和可靠性上持续改善,将对 SK 海力士的市场主导地位构成实质性挑战;而光互联标准的逐步收敛,则意味着相关供应链的投资窗口正在打开。
ISSCC:半导体行业的年度技术风向标
先简单介绍一下 ISSCC,国际固态电路会议,是半导体领域三大顶级学术会议之一,另外两个为 IEDM 和 VLSI。与后两者相比,ISSCC 更侧重电路集成与实现,几乎每篇论文均附有电路图及实测数据,是业界观察芯片技术实际落地进展的重要窗口。
今年的 ISSCC 尤为值得关注。据 SemiAnalysis 指出,往年 ISSCC 的论文对产业的直接影响参差不齐,但 2026 年明显不同——大量论文与当前市场热点高度相关,涵盖 HBM4、LPDDR6、GDDR7、NAND 闪存、共封装光学(CPO)、先进芯片间互联,以及来自联发科、AMD、英伟达、微软等厂商的处理器架构。
三星 HBM4:性能突破,但良率与成本仍是隐忧
三星是三大内存厂商中唯一在本届 ISSCC 发表 HBM4 技术论文的企业。
其展示的 HBM4 采用 12 层堆叠、36 GB 容量,配备 2048 个 IO 引脚,带宽达 3.3 TB/s,核心 DRAM 采用第六代 10nm 级(1c)工艺,逻辑基底芯片则采用 SF4 先进逻辑制程。
最关键的架构变化在于基底芯片的制程分离。HBM4 将基底芯片从 DRAM 制程迁移至 SF4 逻辑制程,使工作电压(VDDQ)从 HBM3E 的 1.1V 降至 0.75V,降幅达 32%,同时实现更高的晶体管密度与更优的面积效率。结合自适应体偏置(ABB)控制技术和 4 倍 TSV 数量提升,三星 HBM4 在低于 1V 核心电压下可达 11 Gb/s 引脚速度,最高可至 13 Gb/s,大幅超越 JEDEC HBM4 标准规定的 6.4 Gb/s 上限。


然而,这一技术路线存在明显代价。SF4 制程的成本高于 SK 海力士采用的台积电 N12 工艺及美光的内部 CMOS 基底方案。更关键的是,三星 1c 制程的前端良率去年仅约 50%,尽管持续改善,但较低的良率对 HBM4 的毛利率构成压力。SemiAnalysis 指出,三星 HBM 历史上的利润率本就低于 SK 海力士,这一格局在 HBM4 世代仍面临挑战。

在可靠性与稳定性方面,三星目前仍落后于 SK 海力士,但技术层面的追赶态势已较为明显。
LPDDR6 与 GDDR7:三星与 SK 海力士各有侧重
三星与 SK 海力士均在本届 ISSCC 展示了 LPDDR6 芯片。两家的产品均支持最高 14.4 Gb/s 的数据速率,较最快的 LPDDR5X 提升约 35%。

在低电压性能上,两家存在差异。三星 LPDDR6 可在 0.97V 下达到 12.8 Gb/s,而 SK 海力士在 0.95V 下仅能达到 10.9 Gb/s,显示三星在低引脚速度下的功耗效率更具优势。三星还同步展示了基于 SF2 制程的 LPDDR6 PHY,支持效率模式下读取功耗降低近 50%。
SK 海力士的亮点则在于 GDDR7。其基于 1c 制程的 GDDR7 最高可达 48 Gb/s(1.2V),即便在 1.05V/0.9V 的低电压下也能达到 30.3 Gb/s,高于 RTX 5080 所搭载的 30 Gb/s 显存。位密度达到 0.412 Gb/mm²,显著优于三星 1b 制程的 0.309 Gb/mm²。
值得注意的是,SemiAnalysis 指出,英伟达此前公布的搭载 128GB GDDR7 的 Rubin CPX 大上下文 AI 处理器,已从 2026 年路线图中基本消失,英伟达转而聚焦于 Groq LPX 方案的推出。
光互联:英伟达 DWDM 路线与行业标准趋于收敛
光互联是本届 ISSCC 另一核心议题,直接关系到下一代 AI 加速器集群的组网方式。
英伟达在会上提出了基于 DWDM(密集波分复用)的光互联方案,采用每波长 32 Gb/s、8 个波长复用的架构,并以第 9 个波长进行时钟转发,以简化 SerDes 设计、提升能效。这与 OFC 2026 前夕成立的 OCI MSA(光计算互联多源协议)所发布的规范高度吻合——OCI MSA 聚焦于 200 Gb/s 双向链路,采用 4 波长 50G NRZ 的 DWDM 方案用于规模扩展(scale-up)互联。

这一进展厘清了此前市场的疑惑:英伟达的 COUPE 光引擎面向 200G PAM4 DR 光学的规模扩展(scale-out)交换,而 DWDM 则用于规模扩展(scale-up)互联,两条路线并行不悖。
Broadcom 方面,其展示了 6.4T MZM 光引擎,由 64 路约 100G PAM4 通道组成,并在 Tomahawk 5 51.2T CPO 系统中完成测试验证。Broadcom 表示未来将切换至 COUPE 方案,但现有产品仍沿用其他封装路线。
Marvell 则展示了面向数据中心园区场景的 800G Coherent-Lite 收发器,功耗仅为 3.72 pJ/b(不含硅光子),约为传统相干收发器的一半,在 40 公里光纤上的延迟低于 300 纳秒。

先进封装与芯片间互联:多路技术竞逐
随着多芯片设计成为主流,芯片间互联成为性能瓶颈,多家企业在本届 ISSCC 展示了各自方案。
台积电展示了主动局部硅互联(aLSI)技术,通过在桥接芯片中引入边沿触发收发器(ETT)电路,改善信号完整性,将 PHY 深度从 1043μm 压缩至 850μm,总功耗仅 0.36 pJ/b。SemiAnalysis 指出,该测试载体的封装设计与 AMD MI450 GPU 高度吻合,暗示 aLSI 可能是 AMD 下一代产品的封装方案。
英特尔展示了兼容 UCIe-S 标准的芯片间接口,基于 22nm 制程,可在标准有机封装上实现最高 48 Gb/s/通道、传输距离 30mm 的互联,被认为是未来 Diamond Rapids 至强 CPU 的原型方案。
微软则披露了其芯片间互联细节,基于台积电 N3P 制程,在 24 Gb/s 下系统功耗为 0.33 pJ/b,SemiAnalysis 认为这正是微软 Cobalt 200 CPU 中连接两颗计算小芯片的定制高带宽互联。
AI 加速器:AMD、微软、Rebellions 架构细节首度公开
AMD 在会上详细介绍了 MI355X GPU 相对于 MI300X 的改进。核心计算芯片(XCD)从 N5 迁移至 N3P 制程,矩阵吞吐量翻倍而面积不变;IO 芯片(IOD)从 4 颗合并为 2 颗,减少了芯片间互联开销,互联功耗降低约 20%。
微软 Maia 200 是本届会议披露的另一重要 AI 加速器。作为目前主流 HBM 加速器中最后坚守光罩级单片设计的产品,Maia 200 基于台积电 N3P 制程,集成超过 10 PFLOPS 的 FP4 算力、6 颗 HBM3E 及 28 路 400 Gb/s 全双工芯片间链路,封装方案与英伟达 H100 类似,采用 CoWoS-S 中介层。
韩国 AI 芯片初创公司 Rebellions 则首度公开了其 Rebel100 加速器的架构细节。该芯片采用三星 SF4X 制程及 I-CubeS 先进封装,配备 4 颗计算芯片和 4 颗 HBM3E,并集成硅电容以改善 HBM3E 供电质量。SemiAnalysis 指出,三星可能通过捆绑 I-CubeS 封装与前端制程,并以 HBM 供货条件为筹码,推动这一尚未获得主流 AI 加速器采用的封装技术打入市场。
