HBM技术及产能分析

2024年01月25日

随着生成式人工智能（AI）的持续火爆，市场对于高性能AI芯片的需求，也带动了此类AI芯片内部所集成的高带宽内存（HBM）的需求爆发。

根据市场研究机构Gartner的预测，2023年全球HBM营收规模约为20.05亿美元，预计到2025年将翻倍成长至49.76亿美元，增长率高达148.2%。

作为HBM市场的领导厂商，SK海力士最新公布的2023年财报也显示，受益于AI市场的需求，其HBM3的营收较2022年增长了5倍以上。

去年年底，韩国媒体还曾爆料称，已分别向SK海力士和美光预付了7000亿至1万亿韩元的预付款，用于订购大量 HBM3e内存，为其 AI 领域的下一代产品做准备。

不久前美光CEO Mehrotra也曾指出，其专为AI、超级计算机设计的HBM3E预计2024年初量产，有望于2024会计年度创造数亿美元的营收。Mehrotra还对分析师表示，“2024年1~12月，美光HBM预估全数售罄”。

目前HBM市场的供应商只有SK海力士、三星、美光三家，且产能都比较有限。数据显示，在2022年HBM市场中，SK海力士占据50%的市场份额，三星占比40%，美光占比10%。

而HBM产能供应上的瓶颈，也与CoWos封装产能瓶颈有关，这也同样是英伟达（NVIDIA）等的AI芯片的供应瓶颈。

一、HBM难在哪？

HBM全称为High Bandwidth Memory，即高带宽内存，与常规的DDR DRAM不同，HBM是将很多个DDR DRAM芯片堆叠在一起，然后与GPU/GPU封装在一起，实现大容量、高带宽、低延迟的DDR DRAM组合阵列。

如下图，HBM是将多个DRAM堆叠在一起，Die之间通过TVS硅通孔和Microbump连接。DRAM下面是则是DRAM逻辑控制单元，对DRAM进行控制。CPU/GPU和DRAM堆栈通过uBump和Interposer（起互联功能的硅片）连通。Interposer再通过Bump和 Substrate(封装基板）连通到BALL。最后BGA BALL 连接到PCB上。

正如前面所说，HBM的可以带来大容量、高带宽、低时延、占用面积小等优点，但是同样也面临着技术难度高、良率、高成本、散热等方面的问题。

比如，HBM依赖昂贵的硅中介层和 TSV工艺来制造，并且HBM 的 2.5D 结构会产生热量，而靠近 CPU 和 GPU 的布局又会加剧这种情况。另外，HBM走线长度短、焊盘数高，在PCB甚至封装基板上无法实现密集且短的连接，因此还需要CoWoS等2.5D先进封装技术来实现。CoWoS能以合理的成本提供更高的互连密度和更大的封装尺寸，目前大部分HBM均使用的此项技术。

因此，无论是对于HBM来说，还是对于高性能的AI GPU来说，他们的产能都将受制于CoWoS产能。那么2024年，HBM的代工产能情况如何？国内是否有国产化HBM及其封装工艺的替代？

近日，知乎答主@Morris.Zhang 发文对此进行了分析：

二、HBM芯片的代工产能测算

@Morris.Zhang 认为，2024年SK海力士、美光、三星这三家的HBM产能会扩产到75万片/年，以12层的HBM3e当前良率90%计算，约可切出750颗/wafer，即2024年全球总计能够产出超过5600万颗的HBM产能（12层+8层），上半年产能比例略小；12层HBM颗粒的渠道单价测算是$250 /颗，那么此前传闻的英伟达斥资约13亿美元预定的HBM订单，仅能预定520万颗，仅占2024年总产能的小部分。

补充说明：12层HBM颗粒的渠道单价测算$250+/颗，价格相比一年前略有上浮；换一个测算角度：目前在AI-HPC计算芯片上，通常6颗容量16GB的HBM3颗粒的合计成本约$1500+，相当于$15.6/GB；换算到H100 SXM5，6颗HBM3 80GB，相当于$18.75/GB，约占芯片物料成本的50%+。

倘若基于2024年CoWoS产能来算：

英伟达预定了至少约14+万片wafer（包含台积电12万片以及作为第二供应商的Amkor 2-3万片产能，后者良率较低），设想平均38%良率切出450+万颗GPU，那么每GPU搭配6片颗粒，即需要至少2700+万颗HBM，意味着英伟达仅采购HBM都需要花费68亿美元。

倘若按照2024年全球的GPU+HBM组合的产能来算：

截至Y24-Q4，各家CoWoS GPU产品的预定产能大约900万颗，结合明年三家HBM原厂的扩产计划总计近6000万颗HBM（12层为主，8层略少）；这两份供应数据就是吻合的。同时也说明2024年的CoWoS和HBM产能都是充足的。不过虽然产能不缺，但是上述数据毕竟是“年度计”，很多产能直到Y24-Q4才会开出，而各家预定的产能当然是越早越好，时效性是关键条件，上半年初的机会窗口更重要，倘若下半年才开始投产，黄花菜就凉了。

注释 1：上述谈到的CoWoS全球封装产能是估算约30万片wafer，包括台积电27万片+安靠4万片（估算晶圆数据约有1万误差，且后者作为second source的Amkor良率很低）；以及，这些晶圆流片的工艺节点都集中在5nm和3nm，因此yield%保守平均估计在最高38%，约切出900万颗GPU die；每颗GPU搭载6片HBM颗粒是假定最小配置，如AMD MI300 GPU是搭配8片HBM颗粒。则2024年全球的HBM颗粒总需求估算为5500万颗（12层为主）。

诸如英伟达RTX系列使用GDDR6颗粒的消费卡，不会算入CoWoS产能；上述的英伟达14万片wafer是特指Hopper和B100（5nm/3nm），估算2024年英伟达HBM颗粒订单需求是2700万颗。

注释 2：虽说三星也计划导入全栈CoWoS，但了解到2024年可能开不出产能，2025年可能对三星更有利，作为同时供应HBM和CoWoS的IDM，工艺特点和价格优势是显见的。其次，诸如UMC和GlobalFoundries等产线也可以做前道65nm interposer（但是这两家的工艺节点微缩到14nm就停止了，没有先进制程），因此即不能代工前道的先进工艺logic和interposer，也不能完成一条龙的CoWoS全栈。另外，倘若Y25 INTC IFS 独立运营，其封装方案也值得观望。

三、HBM及其封装工艺的国产替代

HBM存储颗粒的国产化

H100芯片的物料成本保守测算在$3300+，其中50%-60%都是HBM3（6颗粒），80GB容量花费的单位成本相当于$18.75/GB；除了Logic Area之外的其它物料（晶圆、封装前后、基板等物料）都是标准定价。

当前我们看到HBM全球库存和渠道周转十分紧张，实际原因是供应商仅有SK Hynix一家，恰逢AI大语言模型趋势带来的HBM需求高峰。2024-2025年，三星、美光的HBM产能都会陆续开出，各厂提前预订产能，渠道也会随之松弛下来，届时甚至现货市场的HBM颗粒都可以直接采购，演变成DRAM现货渠道的业态。

但是谈到国产化，韩美三家内存厂的HBM是否可以供应给国内？该问题要从“三个方式”来看：一则三家内存厂不会直接走ToB集成合同供货给国内客户，特别是某些受限的企业；二则国内厂商可以直接从现货渠道采购HBM颗粒，进而再适配控制器、适配I/O和逻辑封装；三则国内厂商可以直接从现货渠道采购DRAM颗粒，进而再通过封装工艺堆叠成HBM，再适配控制器、适配I/O和逻辑封装。

针对“第二、第三种方式”做进一步解读：

第二种方式：单就HBM颗粒而言，目前Hynix HBM的产能紧张是出于供需失衡，而非出于政策限制。因为，存储颗粒是一种标准品SKU，无需针对颗粒本身做客户化定制，于是这个品类就产生了所谓现货市场。标准现货是可以通过渠道或分销平台正常流通的，即倘若2024年三家内存厂的产能开出，则全球各区域的代理商库存都会充足，无数的次级渠道/次级代理商都可以无限转售；因此，只要现货库存充足、价格趋势向好，现货市场便永远可以拿货，这是内存颗粒的产业特性。

因此，倘若某些受限的国内厂商需要HBM，而不能获得SK海力士的合同供货和集成定制，则可以从现货市场采购，其它国内厂商也可以效仿，即直接从现货渠道采购HBM颗粒，进而再适配控制器、适配I/O和逻辑封装。推测昇腾搭载的HBM就是现货渠道采购的HBM或2D-DRAM颗粒，重新堆叠封装后的产物（采购2D-DRAM再堆叠封装的方式属于“第三种方式”）。

第三种方式：相比第三种方式更多一道工序，即堆叠封装，需要攻克几个技术课题。国内有1-2家专业厂商可以从事这种工作：通过从现货市场采购2D-DRAM颗粒，再通过TSV垂直方向通孔、Hybrid Bonding键合的封装工艺实现堆叠出一个HBM器件。

需要指出的是，2023年下半年，佰维存储在东莞松山湖高新区落地了一套封装产线“晶圆级先进封测制造项目”，该厂区项目的另一个实施主体是“芯成汉奇半导体”（佰维持股70%），项目主题是通过TSV和混合键合工艺实现针对DRAM颗粒的多层堆叠封装，甚至是异质集成。

假以时日，该厂应该可以稳定供应国内部分厂商的HBM需求，甚至搭建起国内封装的HBM现货渠道和合同定制服务，推测初代产品可能会在较高的线宽节点堆叠（同时受限于interposer和CoWoS），颗粒密度小一些，频率/位宽/带宽规格小一些，但未来可期。

还有第四种方式：自主研发HBM颗粒和器件。

国内希望拿到三家HBM内存原厂的HBM合同供货和集成定制，但是受到BIS禁令限制；那么除了上述两种方式获得HBM内存，还可以寄希望于自研产品。

国内厂商昇维旭（SwaySure）、长鑫都在自主研发HBM，前者进度更快。长鑫和昇维旭都有来自台湾的研发高管，DRAM颗粒指日可待，但目前没有产品化的SKU，HBM则可能要期待Y25年或更长时间。

昇维旭同样是华为合作体系的厂商，主要研发存储芯片（DRAM专利）；在华为主导的内存项目中，昇维旭的对接合作厂商包括鹏芯微和鹏新旭，这是两家从事Logic生产的广东厂商。推测初代产品可能会在较高的线宽节点堆叠（同时受限于interposer和CoWoS），颗粒密度小一些，频率/位宽/带宽规格小一些，但未来可期。

内存/显存作为核心计算设备，它的自研不是由存储厂商独立完成，需要“现代计算Hierarchy的各层厂商”全部参与其中，成熟的通用主存/显存器件需要适配主板PCB和主芯片，还有控制器、协议、底层PHY的搭配设计都很重要，因此HBM基本是与主芯片厂商同步做研发和集成的。

另外，从封装工艺角度，产业化HBM的另一个阻碍在于封装，受限于interposer和CoWoS。

CoW+WoS封装的国产化

参考GPU芯片构型，倘若缺少CoWoS封装结构，HBM都无处摆放。

目前全球可选的CoWoS产能供应商有几个类别：

其一是台积电的CoWoS；

其二是由台积电完成晶圆和前道interposer的制造（即CoWoS的“CoW”部分，堆叠+互连），随后交由自家封装厂（例如空闲的InFO产能）或是合作第三方OSAT封装厂完成“on Substrate”部分，即封装在基板上；

其三是，可委托由UMC/GF生产interposer，随后再送交Amkor或日月光等OSAT产线，委托完成“WoS”部分；

其四是三星I-Cube/H-Cube和Intel Foveros，两家都可以完成全栈CoWoS交付；

其五是国内也有一部分CoWoS的能力，但几乎全部是CoW+WoS的工艺对接。

诸如UMC和GlobalFoundries等产线可以完成CoW部分的制造，即前道interposer，工艺节点基本在65nm（这两家的工艺节点微缩到14nm就停止了，没有先进制程）；因此这类厂商即不能代工前道的先进工艺logic和interposer，也不能完成一条龙的CoWoS全栈。

能够独立完成较高工艺节点、较高良率的全栈CoWoS的厂商，唯有TSMC/Samsung/INTC。

对于国产化的CoWoS封装厂商，我比较关注“盛合晶微和通富微”；其中盛合晶微是华为合作体系的厂商，完成华为昇腾和鲲鹏芯片的先进封装；盛合曾经也是长电/中芯的合作工厂，但如今是华为主导。两家都从事Chiplet封装，兼顾包括前道interposer的生产。

通富微电也在国内和海外分别设有厂区；此前传闻称AMD MI300 CoWoS的封装代工会委托给通富微电，但随后证实是误传，实际情况是：AMD曾计划将封装的bumping工序委托给通富微电（槟城工厂），但最终没有合作；通富微电主要是服务于国内。盛合晶微和通富微目前还存在一些良率缺陷，拉动良率是一个缓慢的过程。

其实相比其它制造工序而言，CoWoS并没有极度前沿的技术门槛，唯一的关节是它要保证在高微缩制程下的高良率，因为在封装层面，倘若出品有较高的不良/失效，那么上面堆叠连接的HBM等等器件就变成无可挽回的损耗了；通过兼顾较高工艺节点和良率的，目前唯有台积电。单就CoW+Wos产能而言，全球可以开出很多产能（尤其WoS厂商），但是能够适用于先进计算芯片的工艺/良率的产能则并不多。

出于微缩IC面积，CoWoS的方法就是在Substrate上面增加一层Si interposer，芯片依然通过覆晶方式正面朝下连接在这个中介层上；它就承担die-die互连以及die-substrate互连。由于interposer是按芯片工艺制造（如初代的65nm），其布线密度可以非常细密（初代<10um），die-die之间也可以堆叠更紧密。

导致上述良率门槛的原因是工艺：以WoS良率为例，难点主要在于其封装的中介层尺寸应当有严格限制，即Si interposer面积需要大于其上面2个甚至多个die的尺寸之和；然而随着这个尺寸越来越大，CoWoS-5甚至通过一种"2-way lithography stitching approach技术"使得interposer尺寸可以扩到2500nm2（接近3x reticle limit，6代CoWoS尺寸甚至接近4x reticle limit），那么随之带来的工艺风险就是，on wafer边缘的扭曲、接角的垂直凸变问题就会发生，导致封测后不良。而TSMC CoWoS工艺磨合了10几年，积累大量knowhow，才获得如今可靠的高良率。

对于OSAT专业封装厂（包括Amkor/日月光等），导致工艺良率拉升缓慢的因素还有就是与前段interposer的分开制造，虽然CoW+WoS是合理的产业链分工，但是拉升两者共同出品的良率需要两家工艺同步发展。

国内的interposer基本是由SMIC制造，再将其委托给OSAT专业封装厂完成WoS封测；而倘若不能获得SMIC interposer制造，也可以委托UMC/GF代工。如今，SMIC interposer虽然做不到3nm，但可以使用7nm代替；而且SMIC的先进封装工序也是独立出来，成立子公司运行。能够独立完成较高工艺节点、较高良率的一条龙全栈CoWoS的厂商，唯有TSMC/Samsung/Intel（Logic die+interposer+CoWoS）。

未来的趋势，可能全球大部分2.5D封装都会是前道-后道合作的模式；前道Fab提供interposer做CoW，后道有载板的做WoS。另外，CoWoS也会更多下沉适用到其它场景，非移动装置涉及AI-HPC的未来大部分产品都会依赖CoWoS封装，2.5D/3D封装目前来看还是Foundry相比OSAT更具优势。

编辑：芯智讯-浪客剑

文章部分资料来源：知乎答主@Morris.Zhang

HBM技术及产能分析

相关文章:

付费内容

HBM技术及产能分析

相关文章:

付费内容

Trending now