中金 :AI 浪潮,HBM 成为存储战略要地
中金认为 HBM 的快速增长对于产业链各环节带来了增量空间,已成为存储器链条各环节必争之地。HBM 需求由 AI 芯片带动,竞争白热化,SK 海力士、三星电子、美光科技已发力 HBM3E 产品。HBM 制造复杂度提升,不同产业链环节有参与机会。
AGI 时代来临之际,算力和存储的需求同步提升,在存算一体模式成为主流之前,HBM(高带宽存储)对于克服 “存储墙”、提升带宽等方面有较强优势,主要应用在 AI 芯片片上存储。根据 SK 海力士测算,HBM 的需求在 2022 至 2025 年之间的 CAGR 增速将达到 109%。HBM 的快速增长对于 IDM、晶圆制造、封装、设备材料等产业链环节带来了增量空间,目前已成为存储器链条各环节必争之地。
要点
AI 算力追求高性能动态存储,HBM 成当前较佳方案。随着数据量越发庞大加之 AI 芯片的加速发展,冯氏计算架构问题凸显:“存”“算” 之间性能失配,使得计算机的计算能力增长遇到瓶颈,虽然多核并行加速技术可以提高算力,但存储带宽的限制仍对计算系统的算力提升产生了制约。GDDR 是目前应用较为广泛的显存技术。但在 AI 计算领域 GDDR 也难堪重任,于是制造商将目光投向 HBM 技术。
HBM 需求由 AI 芯片带动,主流厂商竞争白热化。根据我们测算,HBM 的综合需求与 AI 芯片的存储容量需求、带宽需求、HBM 堆叠层数等多个参数有明显关系。SK 海力士、三星电子、美光科技三大家竞争进入白热化,目前已各自发力 HBM3E 产品。
HBM 制造复杂度提升,不同产业链环节均有参与机会。AI 芯片制造步骤相对于传统计算芯片复杂度大幅提升,同时考虑到不同的连接方式对于精度的要求和工艺要求不同,制造过程分布在 IDM、晶圆厂和封装厂。GPU、HBM 是 Chiplet 中的主要有源器件,由 IDM、晶圆厂、存储厂进行制造;无源器件中,Interposer、RDL 可由晶圆厂、IDM、封装厂制造;基板和 PCB 则由对应的厂商供应。
HBM 堆叠技术对于前后道设备要求大幅提升,键合方式路径变化是市场关注热点。HBM 堆叠环节主要围绕凸块制造、表面布线、TSV、键合、解键合,光刻、涂胶显影、溅射机、刻蚀、电镀等前道工具参与其中。随着堆叠结构增多,晶圆厚度降低,对减薄、切割、模塑等设备需求提升。较为关键的键合中,当前市场主流键合方式依然是 TCB 压合以及 MR 方案,我们认为未来混合键合或将成为主流方案。
正文
AI 算力追求高性能动态存储,HBM 成为当前较佳方案
人工智能、云计算和深度学习可以总结为 3 大算力阶段,目前处于第三阶段。云端 AI 处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使 IO 瓶颈愈加严重,需增加 DDR 接口通道数量、片内缓存容量和多芯片互联。传统的冯·诺伊曼架构以计算为中心,由于处理器以提升速度为主,存储器更注重容量提升和成本优化,导致 “存”“算” 之间性能失配。
HBM 具备高带宽、小体积等优势。随着 GPGPU 的出现,GPU 越来越多地被应用于高性能计算,在 AI 计算领域 GDDR 也难堪重任,于是制造商将目光投向 HBM 技术。通过多层堆叠,HBM 能达到更高的 I/O 数量,使得显存位宽达到 1,024 位,几乎是 GDDR 的 32 倍,显存带宽显著提升,此外还具有更低功耗、更小外形等优势。显存带宽显著提升解决了过去 AI 计算 “内存墙” 的问题,HBM 逐步提高在中高端数据中心 GPU 中的渗透比率。
受构造影响,GDDR 的总带宽上限低于 HBM。总带宽=I/O 数据速率(Gb/s)* 位宽/8。为解决 DDR 带宽较低的问题,本质上需要对单 I/O 的数据速率和位宽(I/O 数 * 单 I/O 位宽)进行提升,可分为 GDDR 单体式方案和 HBM 堆叠式方案。单体式 GDDR 采取大幅提升单 I/O 数据速率的手段来改善总带宽,GDDR5 和 GDDR6 的单 I/O 数据速率已达到 7 Gb/s 到 16Gb/s,超过 HBM3 的 6.4 Gb/s。HBM 利用 TSV 技术提升 I/O 数和单 I/O 位宽,从而大幅提升位宽,虽然维持较低的单 I/O 数据速率,但总带宽远优于 GDDR。
HBM 的综合功耗低于 GDDR。HBM 通过增加 I/O 引脚数量来降低总线频率,从而实现更低的功耗。尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为 1/3 至 2/3),限制了算力提升。
HBM 通过 3D 封装工艺实现 DRAM die 的垂直方向堆叠封装,可以较大程度节约存储芯片在片上占据的面积。HBM 芯片的尺寸比传统的 DDR4 芯片小 20%,比 GDDR5 芯片节省了 94% 的表面积。根据三星电子的统计,3D TSV 工艺较传统 POP 封装形式节省了 35% 的封装尺寸。
目前主流的 GDDR 标准为 GDDR6,主流的 HBM 标准为 HBM3,HBM3 的显存带宽约为 GDDR6 的 8-9 倍。GDDR7 的官方标准于 3 月 5 日由 JEDEC 发布,一个大的技术变化是内存总线上的两位不归零 (NRZ) 编码转换为三位脉冲幅度调制 (PAM3) 编码,JEDEC 预计第一代 GDDR7 的数据传输速率预计约为 32 Gbps/pin。我们预计未来中短期 HBM3E 和 GDDR7 将成为主流标准,而 HBM3E 在显存带宽方面有望达到 GDDR7 的 6 倍。
图表 1:市场上不同品牌和型号的 GPU 和存储类型
资料来源:各公司官网,Yole,中金公司研究部
HBM 供需测算和技术路径讨论
需求:通过增量 GPU 需求测算 HBM 需求。根据我们测算,全球 HBM 晶圆 2024、2025 年总需求分别为 6 万片/每月、15 万片/每月。基础假设为 2024、2025 年携带 HBM 的 GPU 总量分别为 647 万颗和 810 万颗,单颗 GPU 携带 6、8 颗 Cube(堆叠之后的 HBM),随着平均堆叠层数的提升,总晶圆数量也随之上升。我们然后假设每片晶圆上可切割的颗数为 400 颗不变。得到 2025 年总晶圆需求为 16 万片/月,根据 Yole,2024 年全球产能预计将达到 15 万片,在我们的假设下 HBM 仍有一定缺口。
图表 2:HBM 需求总量的计算
资料来源:英伟达官网,AMD 官网,Yole,中金公司研究部
图表 3:HBM 晶圆产量测算
资料来源:Yole,中金公司研究部
供给:SK 海力士、三星电子、美光科技三大家竞争进入白热化,各自发力 HBM3E 产品。在近期英伟达 GTC 期间,三大家均展出了各自的最新 HBM3E 产品,在堆叠层数、单颗 cube 容量、带宽上逐步对齐。SK 海力士 HBM3E 在芯片密度、IO 速率、带宽、最大容量方面有明显提升。
图表 4:各家存储厂厂商在 HBM 上的路线图
资料来源:Yole,各公司官网,中金公司研究部
HBM 供应链拆解:制造商、设备商、材料商
HBM 制造仍然以 IDM 为主,但国内发展了出前后道分工的模式。GPU 芯片的制造过程分布在 IDM、晶圆厂和封装厂。一般而言,xPU(CPU、GPU 等)、HBM 是片上的主要有源器件,由 IDM、晶圆厂、存储厂进行制造;无源器件中,Interposer、RDL 可由晶圆厂、IDM、封装厂制造;基板和 PCB 则由对应的厂商供应。最终的合封通常在封装厂制造并进行测试。
我们认为,OSATs 对于 HBM 封装工艺在堆叠技术和封装处理工艺上有一定积累,但是对于晶圆处理上与晶圆厂和 IDM 有一定差距。目前来看,考虑到全球采用 HBM 和 Chiplet 堆叠技术的 HPC 设计公司并不多,从总量上看还是没有做消费电子和 PC 链条上的芯片更大,因此单纯的做 HBM 封装或 Chiplet 封装对于超大型封测厂来说并不是当前最优经济选择,但是随着未来 AI 芯片尤其是服务器的总量需求增加,我们认为一些成熟制程晶圆厂、大型 OSATs 也会逐步开始对高端先进封装进行投资。
图表 5:存储行业封装参与者
资料来源:各公司官网,中金公司研究部
EUV 光刻机已广泛使用在 DRAM 制造中。三星电子于 2020 年首次将 EUV 应用于 1z DRAM 的生产中,SK 海力士宣布在 2021 年 2 月完成了首条配备 EUV 工具的生产线,用于在 2021 年下半年生产 1a DRAM。在未来几年,SK 海力士和三星预计将生产出采用高数值孔径 EUV 的 DRAM 样品,为 2026 年之后大规模生产针对节点尺寸≤10 纳米的产品做准备。美光科技一直在使用自对准多重图案化方法如 SAQP,但在小于 1β节点的情况下,多重图案化方法和沉浸式光刻的工艺控制和生产稳定性变得越来越困难,故美光或将从 1γ节点开始引入 EUV 技术。
刻蚀设备占比在 DRAM 制造产线中不断提升。根据 Yole 估算,DRAM 制造的设备支出中,超过 70% 可能会集中在沉积和蚀刻系统上。光刻的支出可能会降至 20% 以下。全球市场来看,Lam,TEL 和 AMAT 几乎垄断全球干法刻蚀设备市场,2020 年三者干法刻蚀设备的全球市占率分别为 46.71%,26.57% 和 16.96%,合计占比超 90%。其中,硅基刻蚀主要被 Lam 和 AMAT 垄断,介质刻蚀主要被 TEL 和 Lam 垄断。
图表 6:HBM 前道设备主要供应商
资料来源:各公司官网,中金公司研究部
HBM 的中后道制造环节主要围绕凸块、芯片表面布线、基板布线、不同层之间的键合贴装展开。所用设备和材料与前道基本一致,其中键合是较关键步骤之一。
Bumping(凸块):倒装是先进封装中的核心工艺,而 Bumping 又是倒装流程中重要的工艺,是 Chiplet 的第一步。Bumping 指的是在晶圆表面预留的位置(通常是 Pad)生长焊球,通过焊球实现与基板、PCB 的连接。Bumping 的材料一般有锡、铜、金,其制造过程与前道晶圆制造步骤基本相似,主要涉及 PI 涂敷、光刻、溅镀、电镀、清洗、回流焊等工艺。Bumping 的参数主要分为直径、高度和密度,随着芯片复杂度提升,引脚数相应提升,导致 Bumping 直径更小、高度更低、密度更高,对应难度更高。
TSV(Through silicon via, 硅通孔):主要用于立体封装,在硅片中进行垂直方向上的打孔,为芯片起到电气延伸和互连的作用。按照集成类型的不同,TSV 分为 2.5D 和 3D,2.5D TSV 位于中介层中,而 3DTSV 贯穿芯片本身,直接连接上下层芯片。TSV 连接方式大量应用于高端存储器堆叠、Interposer 中。
全球来看,涉及中道制造设备的公司与前道制造设备供应商类似,其中在光刻工艺步骤中,AMAT、TEL、SUSS、Veeco、PSK、DNS 等公司均有涉及,键合/解键合、TSV、CMP 和检测过程的国产厂商已经占据一定份额。国内前道设备制造商如北方华创、盛美上海、芯源微、芯碁微装、中科飞测、华卓精科、上海微电子均已在中道制造设备中有大量产品出货,并且在上述公司发展初期为收入增长提供了较大的支撑。且我们认为在先进封装的快速发展趋势下,中道制造的重要性逐步凸显,对于中道设备的需求将持续提升,我们认为未来仍将是半导体装用设备和零部件厂商的重要业绩来源。
HBM 多层堆叠结构提升工序步骤,带动封装设备需求持续提升。HBM 堆叠结构增多,要求晶圆厚度不断降低,这意味着对减薄、键合等设备的需求提升;HBM 多层堆叠结构依靠超薄晶圆和铜—铜混合键合工艺增加了对临时键合/解键合等设备的需求;各层 DRAM Die 的保护材料也非常关键,对注塑或压塑设备提出了较高要求。
图表 7:HBM 中道制造产业链
资料来源:Wind,各公司公告,中金公司研究部
图表 8:HBM 后道制造产业链
注:统计截至 2024 年 4 月 1 日
资料来源:Wind,各公司公告,中金公司研究部
HBM 对堆叠高度、散热有明确要求,当前市场主流键合方式依然是 TCB 压合以及 MR 方案,我们认为未来混合键合或将成为主流方案,但其成本和时间仍相对模糊。对于 HBM 而言,以下几个方面是堆叠所追求的:1)更短互连和更大单 cube 容量;2)更好的散热;3)维持单 cube 高度不变。
MR- MUF(Mass reflow,批量回流焊)
MR-MUF 是海力士的高端封装工艺,通过将芯片贴附在电路上,在堆叠时,在芯片和芯片之间注入液态环氧树脂塑封(Liquid epoxy Molding Compound,LMC)液态保护材料并硬化。与传统的每个芯片堆叠后铺设薄膜材料的方法相比,MR 技术在热散布效率、生产效率和成本效益方面具有一定优势。SK 海力士已将 MR 技术应用于其 HBM3E 产品中。
图表 9:SK 海力士 Mass reflow 制造流程
资料来源:SK 海力士官网,中金公司研究部
TCB(Thermo-Compression Bonding,热压键合)
TCB 的核心是通过热压键合技术将芯片与基板固定在一起,从而实现高密度的芯片封装。随着焊接凸点间距不断减小、基板和晶片厚度不断下降,传统的回流焊工艺出现了翘起、局部桥接、芯片偏移等缺陷,TCB 工艺能很好地解决这些问题。
图表 10:TCB 工艺流程
资料来源:Li, J. H. et al.《The thermal cycling reliability of copper pillar solder bump in flip chip via thermal compression bonding》(2020),中金公司研究部
图表 11:ASMPT 的 LPC TCB 工艺流程
资料来源:Li, Ming et al.《A high throughput and reliable thermal compression bonding process for advanced interconnections》(2015),中金公司研究部
HB(Hybrid bonding,混合键合)
HB 工艺能提供更高的互连密度,因此对于 15μm 以下的凸点间距,HB 工艺正逐渐取代传统的 die-to-die 焊接工艺。传统焊接工艺的凸点使用覆盖了焊料的铜柱,而 HB 工艺使用和表面平行的金属片,提高了互连密度和效率。HB 工艺主要包含 die-to-wafer 和 wafer-to-wafer 两类键合,wafer-to-wafer 的工艺更加成熟,但需要每个芯片尺寸相同,且整体良率较低,因此和 die-to-wafer 工艺相比缺乏一定灵活性。根据 ZDNET,JEDEC(国际半导体标准化组织)可能放宽第六代 HBM4 的堆叠高度,在对应厚度上 MR 和 TC 方案仍可以继续使用,虽然 HB 方案可提供更窄的 pitch 间距和更薄的高度,考虑到其普及率不高,以目前较高的价格,大规模应用可能有所推迟。
图表 12:Hybrid Boding 工艺
资料来源:A. Elsherbini et al.《Enabling Hybrid Bonding on Intel Process》(2021),中金公司研究部
图表 13:Hybrid Bonding 工艺在 3D 封装中的应用
资料来源:A. Elsherbini et al.《Enabling Hybrid Bonding on Intel Process》(2021),中金公司研究部
DRAM 的 Scaling(缩放)挑战和堆叠方式
DRAM 厂商和研究机构迫切地想突破新工艺和寻找 DRAM 更高极限的新工艺。平面 DRAM 的 scaling 在随着摩尔定律放缓和物理极限的限制也有所放缓,随着 EUV 的应用,平面 DRAM 仍有一定 scaling 空间。但为了持续的提高密度并降低每 bit 价格,各类研究如调整晶体管的制造方式、采用单体 3D-DRAM 结构等正在进行。
延续 Scaling 方向:Planer DRAM 采用 EUV 和 HKMG 制造技术。我们观察到,DRAM 的 Scaling 本预计在几年前停止,但新的技术解决方案使其延续到 1β节点,目前 1β正进入早期生产阶段。规模化成本的增加和基础物理的限制使得 DRAM 制造商在平面方向上的 Scaling 变得越来越具有挑战性。我们认为,新材料、新设备、新器件架构(如单体 3D DRAM)以及新工艺技术将是长期延续 DRAM Scaling 所必需的。
延续 Scaling 方向:4F2 单元结构。4F²单元结构被看作是减少芯片面积的主要选择之一,与现有的 6F²结构相比,可以减少大约 30% 的面积,而无需使用更小的光刻节点。2023 年 5 月,三星成立研发团队开发 10 纳米节点(如 1d)及更小节点的 DRAM 的 4F²结构。4F² DRAM 很可能会采用垂直电容和垂直晶体管。
图表 14:同等线宽下,4F2 相较于 6F2 可节省约 30% 晶圆面积
资料来源:Spessot, A., & Oh, H. (2020). 1T-1C Dynamic Random Access Memory Status, Challenges, and Prospects. IEEE Transactions on Electron Devices, 67, 1382-1393.,中金公司研究部
延续 Scaling:从平面结构走向 3D DRAM。平面 DRAM 的 Scaling 能力受限,随着晶体管尺寸的不断减小,电容器的尺寸也必须相应缩小,导致存储电荷能力下降,所以需要发展 3D DRAM,通过垂直堆叠存储单元层来显著提高存储密度和性能。
另一种 3D DRAM 结构与 3D NAND 非常相似,即互补金属氧化物半导体键合阵列(CMOS-Bonded Array,简称 CBA)。DRAM 架构的外围电路和存储器阵列先在不同的晶圆上进行加工,然后结合在一起。该 DRAM 架构很可能会在 4F²单元引入时(Yole 预计 2025 年后)被采用。目前来看,将 CBA 与 6F²单元结合使用并不方便。
图表 15:电容为横向排布的 DRAM
资料来源:NEO 半导体,中金公司研究部
图表 16:CBA(CMOS bonded array)结构与 3D-stacking NAND 结构类似
资料来源:Yole,中金公司研究部
HBM 与 GPU 上下堆叠方式。AMD 曾经展出过的存储器与 GPU 上下堆叠的构造方式。在 2023 年 ISSCC 的演讲中,AMD 详细介绍了提高数据中心的能效,并在半导体制造节点进步放缓的情况下,设法跟上摩尔定律的步伐的方法,即用多芯片模块(MCMs)的形式将 HBM 与 GPU 上下堆叠,其中逻辑芯片和 HBM 堆栈位于硅中介层的上方。
图表 17:AMD 展示不同的存储器与计算芯片的组合方式
资料来源:AMD 在 2023 年 ISSCC 的演讲,中金公司研究部
分析师
张怡康 分析员 SAC 执证编号:S0080522110007 SFC CE Ref:BTO172
胡炯益 分析员 SAC 执证编号:S0080522080012
唐宗其 分析员 SAC 执证编号:S0080521050014 SFC CE Ref:BRQ161
江磊 分析员 SAC 执证编号:S0080523070007 SFC CE Ref:BTT278
彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806
石晓彬 分析员 SAC 执证编号:S0080521030001