内存墙:DRAM 的过去、现在和未来

世界越来越多地质疑摩尔定律的死亡,但悲剧在于,它在十多年前就已经死了,没有大张旗鼓或头条新闻。重点通常放在逻辑上,但摩尔定律也始终适用于 DRAM。

△最初的缩放定律 - 来源:1965 集成电子学的未来 – Gordan Moore

DRAM 不再扩展。在辉煌时期,内存位密度每 18 个月翻一番,甚至超过了逻辑。这意味着密度每十年增加 100 倍以上。但在过去十年中,扩展速度大大放缓,以至于密度仅增加了 2 倍。

来源:SemiAnalysis

现在,随着 AI 的爆炸式增长,该行业的平衡进一步被打破。虽然随着时间的推移,逻辑芯片的密度和每个晶体管功能的成本都有了显著提高,但 DRAM 速度的提高却很缓慢。尽管存在重大 FUD,但台积电 3nm 和 2nm 节点上的每个晶体管成本继续下降。而对于内存,增加的带宽是由英勇而昂贵的封装驱动的。

来源: Nvidia, SemiAnalysis

高带宽内存 (HBM) 是加速器内存的主干,每 GB 的成本是标准 DDR5 的 3 倍或更高。客户被迫接受这一点,因为如果他们想制作有竞争力的加速器包,别无选择。这种平衡是不稳定的 – 未来的 HBM 代将继续变得更加复杂,层数更高。随着仅模型权重就接近数 TB 规模,AI 内存需求呈爆炸式增长。对于 H100,~50%+ 的制造成本归因于 HBM,而 Blackwell 则增长到 ~60%+。

换句话说,DRAM 行业已经碰壁。计算改进虽然速度缓慢,但大大超过了内存。DRAM 的创新步伐如何重新加快,以及未来可以利用哪些创新来改善带宽、容量、成本和功耗?

有许多可能的解决方案。由于存在数千亿美元的 AI 资本支出,该行业有强大的动力推动这些解决方案向前发展。

从 DRAM 的背景和历史入门开始,我们将介绍构成现代“内存墙”和可能解决方案的每个问题。我们将讨论相对简单的短期想法,例如扩展 HBM 路线图和更复杂的长期选项,例如内存计算 (CIM)、铁电 RAM (FeRAM) 或磁性 RAM (MRAM) 等新内存类型,以及即将到来的 4F2 DRAM 和 3D DRAM。

DRAM 入门:工作内存

计算机中使用了多种类型的内存。最快的是 SRAM(静态随机存取存储器),它与逻辑处理技术兼容,位于 CPU 或 GPU 上。由于 SRAM 位于逻辑芯片上,因此也是最昂贵的内存类型,每字节比动态随机存取存储器 (DRAM) 贵约 100 倍 +,因此只能少量使用。频谱的另一端包括非易失性 NAND 固态驱动器、硬盘驱动器和磁带。这些很便宜,但对于许多任务来说太慢了。DRAM 位于 SRAM 和闪存之间的“金发姑娘”区域 – 速度足够快,价格也足够便宜。

内存层次结构。资料来源:Enfabrica

DRAM 的成本是非 AI 服务器系统的一半。然而,在过去的 10 年里,它是所有主要 logic 和 memory 中扩展速度最慢的。16Gb DRAM 芯片于 8 年前首次大批量上市,但今天仍然是最常见的;推出后,它们的成本约为每 GB 3 美元,峰值接近 5 美元,然后在过去 12 个月回落到 3 美元左右。如果有的话,速度会慢一点。功率的改善很大程度上要归功于 LPDDR 的兴起,LPDDR 是一种使用更短、更高效电线的封装变化,但这里的门槛很低。DRAM 扩展缺乏进展是阻碍计算的性能和经济瓶颈。

DRAM 入门:基本架构

原则上,DRAM 很简单。它由一个网格中的存储单元数组组成,每个存储单元存储一位信息。所有现代 DRAM 都使用 1T1C 单元,表示 1 个晶体管和 1 个电容器。晶体管控制对电池的访问,电容器以小电荷的形式存储信息。

基本 DRAM 电路:一个存储单元数组,每行用字线连接,每列用位线连接。激活 1 个字行和 1 个位行允许读取或写入它们相交的单元格

字线 (WL) 连接单行中的所有单元格;它们控制每个电池的接入晶体管。位线 (BL) 连接单列中的所有单元格;它们连接到访问晶体管的源极。当一条线路通电时,该行中所有单元的接入晶体管打开,并允许电流从位线流入单元(当写入单元时)或从单元流向BL(当从单元读取时)。一次只有 1 个花边和 1 个位线处于活动状态,这意味着只有活动字和位线相交的 1 个单元格将被写入或读取。

当字线打开访问晶体管时,允许电荷从位线流向电容器,反之亦然 来源:Branch Education

DRAM 是一种易失性内存技术:存储电容器会漏电,因此需要频繁刷新(每 ~32 毫秒一次)来维护存储的数据。每次刷新都会读取 cell 的内容,将 bitline 上的电压提升到理想水平,并让刷新的值流回 capacitor。刷新完全发生在 DRAM 芯片内部,没有数据流入或流出芯片。这最大限度地减少了功耗的浪费,但刷新仍可能达到 DRAM 总功耗的 10%+。

电容器,就像晶体管一样,已经缩小到纳米级宽度,但也具有极端的纵横比 ~1,000nm 高,但直径只有 10 纳米——纵横比接近 100:1,电容约为 6-7 fF(飞法拉)。每个电容器存储极小的电荷,新写入时约为 40,000 个电子。

单元必须通过位线进出电子,但施加到位线上的电压被连接到同一位线的所有其他单元稀释。总位线电容总计可能超过 30fF – 稀释 5 倍。位线也很细,这会减慢电子的速度。最后,如果电池最近没有刷新,它可能已经大量耗尽,因此只需提供一小部分电量。

所有这些因素都意味着,对电池放电以读取其值会导致信号非常微弱,必须放大该信号。为此,在每个位线的末端连接了端感放大器 (SA),以检测从存储单元读取的极小电荷,并将信号放大到有用的强度。然后,这些更强的信号可以在系统中的其他位置读取为二进制 1 或 0。

感应放大器有一个巧妙的电路设计:它将有源位线与未使用的匹配邻居进行比较,从两条线都达到相似的电压开始。活动位线上的电压将与非活动位线上的电压进行比较,使感应放大器失去平衡并使其将差异放大回该活动位线,既放大信号,又将新的全值(高或低)驱动回对位线保持开放的单元。这是一个 2 鸟 1 石的情况:单元格同时被读取和刷新。

读取/刷新 active cell 后,该值可以从 chip 中复制出来,也可以被写入操作覆盖。写入会忽略刷新的值,并使用更强的信号强制 bitline 匹配新值。当读或写完成时,字线被禁用,关闭访问晶体管,从而将任何常驻电荷捕获在存储电容器中。

DRAM 入门:历史记录(当 DRAM 仍在扩展时)

现代 DRAM 是通过两项独立且互补的发明实现的:1T1C 存储单元和感应放大器。

1T1C 单元于 1967 年由 Robert Dennard 博士在 IBM 发明,他也以其同名的 MOS 晶体管缩放定律而闻名。DRAM 和缩放都基于 MOS 晶体管(金属氧化物硅,晶体管栅极中的层)。

Dennard 的 1T1C 存储单元架构的原始专利。来源:美国专利 3,387,286

尽管发明了 1T1C 存储单元结构,但英特尔于 1973 年推出的早期 DRAM 每个单元使用 3 个晶体管,中间晶体管上的栅极充当存储电容器。这是一个“增益单元”,其中中间和最后一个晶体管提供增益以放大中间栅极上非常小的电荷,使单元易于读取,而不会干扰存储的值。

理论上,1T1C 电池更好:设备更少,更容易连接在一起,而且更小。为什么没有立即被采用?读取单元格还不实用。

在发明时,1T1C 电池的小电容使其无法运行。需要第二项关键发明:感应放大器。

第一台现代感应放大器于 1971 年由西门子的 Karl Stein 开发,在加利福尼亚的一次会议上展示,但完全被忽视了。1T1C 架构在那时并未被广泛采用,西门子不知道该如何处理这项发明。Stein 被调到另一个任务,在那里他有一个与 DRAM 无关的成功职业生涯。

Stein 的原始感应放大器专利。来源:美国专利 3,774,176

这种设计与位线的间距非常匹配,并且能够缩小规模以跟上像元大小。感应放大器在不使用时完全断电,这使得芯片上有数百万个感应放大器而不会耗尽功率。他们是一个小奇迹。

传感放大器花了 5 年多的时间才问世。Mostek 的 Robert Proebsting 独立(重新)发现了这个概念,到 1977 年,他们采用 1T1C + SA 架构的 16kb DRAM 成为市场领导者。这个制胜法宝一直沿用至今 – DRAM 架构在近 5 年后基本相同。

DRAM 入门:当 DRAM 停止扩展时

在 20 世纪,摩尔定律和丹纳德缩放统治了半导体行业。在顶峰,DRAM 密度的增加超过了 logic。每个芯片的 DRAM 产能每 18 个月翻一番,推动了日本晶圆厂(1981 年首次超过美国市场份额,1987 年达到 80% 左右的峰值)和后来的韩国公司(1998 年市场份额超过日本)的崛起。晶圆厂在相对简单的工艺上快速代际更换为有资金的新进入者创造了建造下一代晶圆厂的机会。

在 DRAM 扩展的“黄金时代”,每比特价格在 20 年内降低了 3 个数量级。来源:Lee, K.H.,2000 年后 DRAM 行业战略分析

这种速度在很长一段时间内都不可行,到 20世纪末到 21世纪,逻辑已经大大超过了内存扩展。最近的逻辑扩展已经放缓到每 2 年提高 30-40% 密度的速度。但与 DRAM 相比,这仍然不错,DRAM 比其峰值慢大约一个数量级,现在需要 10 年才能实现 2 倍的密度增加。

“这次不同”:不,内存周期已经成为该行业的一部分 50 年了。来源:Lee, K.H.,2000 年后 DRAM 行业战略分析

这种扩展放缓对 DRAM 定价动态产生了连锁反应。虽然内存传统上是一个周期性行业,但缓慢的密度扩展意味着在供应有限时为缓冲价格上涨而降低的成本要少得多。增加 DRAM 供应的唯一方法是建造新的晶圆厂。剧烈的价格波动和高资本支出意味着只有最大的公司才能生存下来:1990 年代中期有 20 多家制造商生产 DRAM,前 10 名中 80% 的市场份额。现在,前 3 名供应商拥有超过 95% 的市场份额。

由于 DRAM 是商品化的,因此供应商本质上更容易受到价格波动的影响(与逻辑或模拟相反),并且在市场低迷时必须主要根据其商品的原始价格进行竞争。Logic 只是在成本增加的情况下维持了摩尔定律,DRAM 没有那么奢侈。DRAM 的成本很容易衡量,每 Gb 美元。相对于早期,过去 10 年的价格下降缓慢——十年内仅下降了一个数量级,而过去需要一半的时间。DRAM 的特征峰谷行为也很明显。

DRAM 密度扩展放缓至每十年 2 倍,而价格则受周期性影响。来源:DRAMExchange,SemiAnalysis

自从进入 10 纳米节点以来,DRAM 位密度一直停滞不前。即使在三星的 1z 和 SK 海力士的 1a 节点中增加 EUV,也没有显著提高密度。两个值得注意的挑战是电容器和感应放大器。

电容器在很多方面都很困难。首先,图形化要求很高,因为孔必须以非常好的临界尺寸 (CD) 和覆盖控制紧密填充,以接触下面的接入晶体管并避免桥接或其他缺陷。电容器具有非常高的纵横比,蚀刻笔直而狭窄的孔轮廓非常困难,需要更厚的硬掩模以实现更深的蚀刻,因为更厚的掩模需要更厚的光刻胶,而更难图案化。

接下来,必须在整个孔轮廓的壁上沉积多个几纳米厚的无缺陷层,以形成电容器。几乎每一步都挑战着现代加工技术的极限。

DRAM 存储电容器需要在 100:1 纵横比的孔中形成许多精美的层(不按比例缩放 - 实际电容器可能比所示高 10 倍)。来源:应用材料公司

感应放大器与逻辑互连类似。它们曾经是事后才想到的,现在与“主要”功能(逻辑晶体管和存储单元)的难度相同甚至更大。他们从多个侧面受到挤压。必须进行面积缩放以匹配 bitline shrink,因为 sense amps 变得不那么敏感,并且随着它们变得更小,更容易发生变化和泄漏。同时,较小的电容器存储的电荷较少,因此读取它们的传感要求变得更加困难。

此外,还存在其他挑战,结果是,使用传统方法以经济的方式扩展 DRAM 变得越来越困难。新想法的大门是敞开的——让我们探索其中的一些......

短期缩放:4F2 和垂直通道晶体管

短期内,DRAM 扩展将继续沿着其传统路线图进行。对架构进行更大、更根本的更改将需要数年时间来开发和实施。与此同时,该行业必须响应对更好性能的需求,即使只是边际改进。

短期路线图有 2 项创新:4F2 单元布局和垂直通道晶体管 (VCT)。

三星 DRAM 路线图。来源:三星 Memcon 2024,最初由 SemiEngineering 发布

请注意,一些公司,包括路线图中的三星,将 VCT 放在“3D”的旗帜下。虽然从技术上讲是正确的,但这有点误导,因为 VCT 与通常所说的“3D DRAM”不同。

标准 6F2 布局与采用垂直通道晶体管的 4F 2 布局。来源:CXMT IEDM 2023

4F2 根据最小特征大小 F 描述存储单元区域,类似于标准逻辑单元高度的跟踪度量,例如“6T 单元”。最小特征大小通常是行或空格宽度,在 DRAM 中,这将是字行或位行宽度。这是表示单元布局密度的一种简单方法,并且易于比较 – 4F2 单元的大小仅为 6F 2 单元的 2/3,理论上密度增加了 30%,而无需缩放最小特征大小。请注意,纯单元布局并不是密度缩放的唯一限制,因此实际好处可能小于理想的 30% 情况。

4F2 是单个 bit cell 的理论极限。回想一下,特征大小是线或间距宽度(即半间距),因此线 + 间距模式的间距为 2F,而不是 F,因此可能的最小单元格大小是 4F2,而不仅仅是 F2。因此,一旦实现了这种架构,水平扩展的唯一途径就是扩展 F 本身——这很快就变得不切实际,如果不是完全不可能的话。

DRAM 自 2007 年以来一直使用 6F2 布局,在此之前使用 8F 2(有趣的是:现代 NAND 已经使用 4F2 单元,但特征尺寸 F 明显更大,SRAM 约为 120 F2,密度降低了 20 倍!

一个值得注意的例外是 CXMT,这是一家中国供应商,在 2023 年底展示了 VCT 和 4F 布局来打击 18 纳米 DRAM。由于三星、SK 海力士和美光能够扩展单元,因此他们不必像 CXMT 那样被迫采用这些架构。CXMT 早期采用的影响也很重要——当他们选择电池和晶体管架构的更剧烈变化时,他们很可能难以扩展 F。

4F 2 单元的关键推动因素是垂直通道晶体管。这是必要的,因为晶体管必须缩小以适应单元,并且两个触点(位线和电容器)也必须适合该封装,因此,一条垂直线。在这些规模下,有必要垂直而不是水平构建晶体管,将其占用空间减少到大约 1F,大致匹配其上方的电容器,同时保持足够的通道长度以使晶体管有效运行。当前的 DRAM 使用水平通道和水平分离的源极/漏极。这些是成熟且易于理解的架构。VCTs依次堆叠一个源极(连接到其下方的BL),通道(被门和控制门的文字线包围,和漏极(连接到上面的电容器)。在制造过程中存在权衡,其中一些步骤变得更容易,而另一些步骤变得更难,但总体而言,VCT 更难制造。

三星的工艺以使用晶圆键合而著称。在类似于逻辑背面供电的过程中,单元访问晶体管在顶部形成位线制造,然后将晶圆翻转并键合到支撑晶圆上,因此位线现在是埋在地下的。有趣的是,bonded base 似乎不需要与 VCT 精确对齐,尽管该公开没有解释外设 CMOS 是位于倒装芯片上,还是在新 bonded base 中。顶部变薄,露出晶体管的另一端,以便可以在其上构建存储电容器。EVG 和 TEL 将从对晶圆键合工具的新增量需求中受益。

DRAM 入门:当前变体

DRAM 有多种类型,每种类型都针对不同的目标进行了优化。相关的最新一代版本是 DDR5、LPDDR5X、GDDR6X 和 HBM3/E,它们之间的差异几乎完全在于外围电路。存储单元本身在不同品种之间是相似的,所有类型的制造方法也大致相似。让我们简要介绍各种 DRAM 风格以及每种风格的作用。

DDR5(第 5 代双倍数据速率)封装在双列直插式内存模块 (DIMM) 中,因此可提供最高的内存容量。LPDDR5X(Low Power DDR5,X 表示增强)提供低功耗运行,但需要更短的距离和低电容的 CPU 连接,这限制了容量,因此它用于需要低功耗且布局限制可以容忍的手机和笔记本电脑。

最近,我们看到一些 AI 加速器、Apple 的专业工作站和 AI 馈线 CPU(如 Grace)使用了更高容量的 LPDDR 封装。这些新用途是由对高能效数据传输和高带宽的追求所驱动的。

在加速器中,LPDDR 已成为“第 2 层”内存的最佳选择,与昂贵的 HBM 相比,它可以在更低(更慢)的级别提供更便宜的容量。它在构建最高容量和可靠性功能方面存在不足,但胜过 DDR5 DIMM,因为它每 bit 吞吐量消耗的能量要低一个数量级。LPDDR5X Nvidia Grace 处理器的可用封装高达 480GB,这大约是 GDDR 配置容量限制的 10 倍(GDDR 配置受满足消费类游戏系统中信号所需的电路板布局和芯片封装规则的限制),与中型 DDR 服务器配置处于同一范围内。使用大小超过 128GB 的 R-DIMM 可以实现更大容量的 DDR5,尽管由于封装复杂性和 DIMM 上的额外寄存器(一种缓冲芯片)而成本高昂。

与 DDR 相比,LPDDR5X 在功耗和成本方面与 HBM 相比具有很大的优势,但每比特的能量无法挑战 HBM,并且它需要许多通道(与 CPU 的连接),这挤满了更大容量的电路板布局。它在纠错 (ECC) 方面也存在弱点,这在大容量下变得更加重要,因为出错的可能性更大。为了补偿,必须转移一些容量以支持额外的 ECC。例如,Grace CPU 每个计算托盘有 512GB 的 LPDDR5x,但似乎为可靠性功能保留了 32GB,留下 480GB 可供使用。

即将推出的 LPDDR6 标准几乎没有改进,保持了每个芯片的高通道数和相对温和的速度提升,同时对纠错的支持有限。LPDDR6 不会提供 HBM 竞争对手。

GDDR6X (G for Graphics) 专注于图形应用,以低成本提供高带宽,但具有更高的延迟和更高的功耗。虽然在游戏 GPU 中很有用,但它的设计具有板级容量限制和功率水平,限制了可以使用它的 AI 应用程序的大小。

然后是 HBM3E(第 3 代高带宽存储器,具有增强的“E”版本)。它优先考虑带宽和电源效率,但非常昂贵。HBM 的两个决定性特征是更宽的总线宽度和垂直堆叠的内存芯片。单个 HBM 芯片的每个 I/O 有 256 位,是每个芯片总线宽度仅为 16 位的 LPDDR 的 16 倍。晶粒是垂直堆叠的,通常为 8 个或更多,每 4 个晶粒对 I/O 进行分组;该软件包总共可以提供 1024 位带宽。在 HBM4 中,这将翻倍到 2048 位。为了充分利用 HBM,最好将其与计算引擎共同打包,以减少延迟和每 bit 的能耗。为了在保持与计算的短连接的同时扩展容量,必须向堆栈中添加更多 dies。

HBM 的高成本主要是由于对芯片堆叠的需求。在典型的 HBM 堆栈中,8 或 12 个 DRAM 晶粒(路线图上有 16 个及以上)彼此堆叠在一起,每个晶粒中的电源和信号通过硅通孔 (TSV) 路由。TSV 是直接穿过芯片的电线,允许在芯片之间进行连接。TSV 比用于连接堆叠芯片的旧引线键合方法更密集、性能更高、成本更高。超过 1,200 根信号线必须通过 HBM 堆栈中的 TSV 进行布线。必须为它们留出大量区域,使每个 HBM DRAM 芯片的大小是相同容量的标准 DDR 芯片的两倍。这也意味着 DRAM 芯片的电气和热性能需要更高的分档要求。

这种复杂性会降低产量。例如,三星的 DRAM 设计失误和他们使用尾随的 1α 节点是导致其 HBM 良率低得令人震惊的原因。包装是另一个主要挑战。正确对齐具有数千个连接的 8+ 芯片很困难,因此由于良率相对较低,因此成本高昂。目前,这是 HBM 供应商之间的关键区别之一,因为 SK 海力士可以成功地生产带有 MR-MUF 封装的 HBM3E,而三星则难以生产他们的产品。美光有一个可行的解决方案,但需要大幅扩大生产规模。

尽管存在高成本和良率挑战,但 HBM3E 目前是存储器行业有史以来最有价值和高利润的产品。这主要是因为对于大型模型 AI 加速器,没有其他风格的 DRAM 是可行的替代方案。虽然随着三星提高良率,美光和美光扩大生产规模,利润率可能会下降,但 AI 加速器的内存需求将继续增长,这在一定程度上抵消了这种新供应的好处。

HBM 在带宽和封装密度方面占据主导地位。来源:SemiAnalysis

简而言之,高带宽和非常高的带宽密度,以及最佳的每比特能量和真正的 ECC 能力,使 HBM3E 成为目前 AI 加速器的明显赢家。这就是 Nvidia 的 H100 和 AMD 的 MI300X 等产品使用它的原因。GDDR6/X 以相同的指标遥遥领先,尽管容量很小。LPDDR5 和 DDR5 甚至更糟,都不适合加速器需求。

当前的 HBM 解决方案成本高昂,并且越来越难以扩展。我们是怎么落到这个地步的呢?

HBM 路线图

HBM 是一种围绕传统 DRAM 理念构建的封装解决方案,但采用密度和邻接封装,以尝试解决 AI 和其他形式的高性能计算的带宽和功耗问题。

所有领先的 AI GPU 现在都使用 HBM 作为其内存。2025 年计划配备 12 Hi HBM3e 和 32 Gb 芯片,每个堆栈总计 48 GB,每根线的数据速率为 8 Gbps。在 GPU 服务器中,带有支持 CPU 的统一内存的第一个版本已经与 AMD 的 MI300A 和 Nvidia 的 Grace Hopper 一起推出。

Grace CPU 具有高容量 LPDDR5X,而 GPU 具有高带宽 HBM3。但是,CPU 和 GPU 位于单独的软件包上,通过 NVLink-C2C 以 900 GB/s 的速度连接。此模型更易于集成,但在软件方面则更加困难。连接到另一个芯片的内存延迟要高得多,可能会影响大量工作负载。因此,内存并不完全一致,并且有其自身的挑战。

来源:三星、美光

HBM4 还需要几年时间,三星和美光声称它将达到 16-Hi,每个堆栈 1.5 TB/s。这是我们今天带宽的两倍多,而功耗仅为其 1.3-1.5 倍,但这种扩展还不够,因为内存的整体功耗持续增加。HBM4 还将更改为每个堆栈的 2048 位宽度,将数据速率略微降低至 7.5 Gbps,有助于降低功耗和信号完整性。数据速率可能会增加到 HBM3E 和 HBM4E 或类似水平。

另一个重要的变化是 HBM 基础芯片。基础芯片将采用 FinFET 工艺制造,而不是现在使用的平面 CMOS 技术。对于不具备这种逻辑能力的美光和 SK 海力士,基础芯片将由代工厂制造,台积电已经宣布将成为 SK 海力士的合作伙伴。此外,还将为个人客户定制基础芯片。

我们即将发布一份关于 HBM 定制的单独报告,但这里有一个快速入门:

HBM4 公告预测,至少将使用 2 种不同形式的基础芯片,从而允许针对不同的速度和长度优化内存接口。控制 DRAM 状态机的功能可能会移动到基础芯片上,以更有效地控制 DRAM 芯片,并且仅垂直连接可能会减少每比特的能耗。

定制 HBM 可以在我们今天看到的基于 CoWoS 的传统组件之外支持多种其他封装架构。可能会有中继器 PHY 以菊花链方式连接多行 HBM - 尽管任何超过 2 列的事物都会看到收益递减。

资料来源:SK 海力士

对于 HBM4 和后续产品,已经建议转向混合键合。随着凸块间隙的消除,这将允许更薄的 HBM 堆栈,并改善散热。此外,它将允许 16-20+ 层的堆叠高度。它还可以少量降低功耗,因为信号传输的物理距离将缩短。不过,挑战是巨大的 - 产生一个 16+ 晶粒的粘合堆栈,没有一个是完全平坦的,这并不容易 - 这里没有人接近大批量的制造就绪解决方案。

所有初始 HBM4 都不会使用混合键合,我们预计这种情况的持续时间会比大多数人希望的要长得多。

CPU、GPU 或加速器与内存之间的连接位于基础芯片中。改进此连接是克服内存限制的一种可能途径。Eliyan 是一家由美光和英特尔等公司资助的初创公司,正在通过其 UMI 自定义界面率先采用这种方法。

来源: Eliyan

该 UMI 接口与 ASIC 芯片一起使用,该芯片充当 HBM 堆栈的基础芯片或其他存储器类型的模块控制器。该小芯片包含内存控制器和内存芯片的物理互连 (PHY)。UMI 从外部连接到主机 GPU,连接到主机的结构。它们采用全 CMOS 工艺制造,使用先进的“Nulink”协议连接到主机,并消除主机硅的内存控制器占用空间,从而快速高效。

Eliyan 的封装技术甚至可以与标准基材配合使用,并且比常规的先进封装具有更远的应用范围。这可能允许 HBM 不靠近 ASIC 芯片,但距离更远,这意味着可以容纳更高的容量。他们的方法还在主机上使用更少的面积和海岸线,这意味着可以增加通道宽度。标准化的 UMI 内存小芯片可以允许在不固定到特定类型的情况下使用 HBM、DDR、CXL 内存等,从而显着提高灵活性。虽然这种方法可能会提供短期的改进,但它并不能解决 HBM 的潜在成本问题。

新兴内存

只要 DRAM 和 NAND 一直存在,就一直在研究更好的替代方案。这些的总称是 “新兴记忆”。这有点用词不当,因为到目前为止,它们都没有设法“出现”到大批量产品中。不过,考虑到围绕 AI 的新挑战和激励措施,它们至少值得进行简短的讨论。

最有前途的分立应用内存是 FeRAM。他们在存储电容器中使用铁电材料(一种在电场中极化的材料),而不是使用电介质(绝缘材料)。它们具有非易失性的理想特性,即它们可以在关闭时存储数据,并且不会在刷新时浪费电力或时间。

美光在 IEDM 2023 上取得了令人鼓舞的成果,其密度与其 D1β DRAM 相当,同时具有良好的耐用性和保留性能。换句话说,如果不是因为一个问题:成本,那么它是一个很好的 AI/ML 候选者。与传统 DRAM 相比,它的制造复杂且更多地使用奇特的材料,以至于目前根本没有竞争力。

MRAM 是另一个有前途的研究领域。数据不是使用电荷,而是通过磁性方式存储。大多数设计使用磁隧道结 (MTJ) 作为位存储单元。

Magentic tunnel junction RAM,使用磁性机制而不是电气机制。来源 : SK 海力士

在 IEDM 2022 上,SK 海力士和铠侠展示了一款间距为 45 纳米、临界尺寸为 20 纳米的 1 选择器 MTJ 电池。它们共同实现了迄今为止最高的 MRAM 密度,达到 0.49 Gb/mm2,高于美光 D1β DRAM 的 0.435 Gb/mm2 密度。该单元甚至采用 4F2 设计。他们的目标是以分立封装产品化,作为 DRAM 的替代品。

目前,没有任何替代存储器能够很好地挑战 DRAM。有些细胞更大或更慢。有些有更昂贵的流程。大多数的耐力有限。有些产量低。在实践中,磁性或相变存储器发货的产品大小以 MB 为单位,而不是 GB。这可能会改变,其中涉及大量资金,并且隐身可能存在一个成功的组合,但在设备和生产规模方面都有很多工作要做。

在内存中计算

DRAM 从一开始就受到其架构的束缚。它是一个简单的状态机,没有任何控制逻辑,这有助于保持低成本,但意味着它依赖于主机 (CPU) 来控制它。

这种范式根深蒂固:现代 DRAM 制造工艺经过高度优化和专业化,以至于它们无法实际产生控制逻辑。行业组织 JEDEC (Joint Electron Devices Engineering Council) 在制定新标准时也强制要求将逻辑干扰降至最低。

“哑”DRAM:控制逻辑与内存分开,因此命令必须通过缓慢、低效的接口。来源:SemiAnalysis

DRAM 芯片完全依赖于主机:所有命令都通过一个共享接口传送到内存中的多个 bank,代表主机中的多个线程。每个命令都需要发出 4 个或更多步骤,并具有精确的时间,以保持 DRAM 正常运行。DRAM 芯片甚至没有避免冲突的逻辑。

使用古老的半双工接口会加剧这种情况:DRAM 芯片可以读取或写入数据,但不能同时读取和写入数据。主机具有 DRAM 的精确模型,并且必须预测 interface 是否应设置为每个 clock cycle的 read 或 write 。命令和数据在单独的线路上发送,这降低了时序复杂性,但会增加 GPU 或 CPU 上的线路数量和 “海滨” 拥挤。总体而言,内存接口的比特率、海滩密度和逻辑芯片使用的替代 PHY 的效率比低了一个数量级。

这些缺点的结果是 DDR5 DIMM(服务器上最常见的)在主机控制器和接口中消耗了超过 99% 的读或写能量。其他变体略好一些 – HBM 能源使用大约是 95% 的接口,5% 的内存单元读/写 – 但仍然远未达到 DRAM 的全部潜力。

功能只是在错误的地方。自然,解决方案是将其移动到正确的位置: control logic 应与 memory 一起在片上。这就是内存中计算 (CIM)。

内存中的计算:释放 Banks 的潜力

DRAM 库具有令人难以置信的性能潜力,但由于接口的原因,它几乎完全被浪费了。

存储体是 DRAM 构建的基本单位。它们由 8 个子库组成,每个子库具有 64Mb (8k 行 x 8k 位) 的内存。该库一次激活和刷新 1 行 8k 位,但在任何 I/O 操作中仅传入或传出其中的 256 位。这种限制是由于来自检测放大器的外部连接造成的:虽然 8k 检测放大器支持该行,但只有 1/32 检测放大器 (256) 连接到子存储区之外,这意味着读或写操作限制为 256 位

(a) 高电容器的密集垫子限制了对检测放大器的访问。来源:SemiAnalysis。(b) DDR4 DRAM 的 senseamp 区域的聚焦离子束 [FIB] 拆解。来源:Marazzi 等人,“HiFi-DRAM:通过通过 IC 成像发现感应放大器实现高保真 DRAM 研究”,ISCA 2024 (c) 1β DRAM 中 Mat 区域边缘的图形。来源:美光

感应放大器位于被高电容器包围的峡谷中。在上面苏黎世联邦理工学院的 FIB 拆解中,您可以看到更高级别的布线需要向下延伸的高通孔才能与感应放大器接触。

即使使用这种有限的接口(任何时候每 32 个接口中就有 1 个可访问),存储区的峰值读/写容量也约为 256Gb/s,平均接近 128 Gb/s,因为至少有 50% 的时间用于切换到新的活动行。每个 16Gb 芯片有 32 个存储体,因此一个芯片的全部潜力为 4TB/s。

在层次结构的更上层,bank 组以 bank 组的形式连接,而 bank 组又连接到 DRAM 芯片外部的接口。在 HBM 中,每个晶粒有 256 条数据线,每个晶粒的峰值吞吐量为 256 GB/s。这个瓶颈只能利用银行 1/16 的潜在潜力。

来源:SemiAnalysis

雪上加霜的是,将一个比特从芯片中转移出去需要 2pJ 的能量,比将其移入或移出单元所需的能量多 20 倍。其中大部分发生在 DQ (Data Question-mark,用于读取和写入的数据线) 两端的两个接口上,以及主机上的控制器逻辑中。

在这样一个浪费的架构中,不可避免地会努力获得更多的潜在性能。

内存计算:DRAM 的全部潜力

即使是简单的理论例子也表明这里存在巨大的潜力。实施 UCIe(通用小芯片互连)标准将允许每毫米边缘的吞吐量达到 11 Tbps,几乎是 HBM3E 的 12 倍。每比特的能量将从 2pJ 下降一个数量级到 0.25pJ。而且 UCIe 甚至不是最新的解决方案......仅举一个例子,Eliyan 专有的 Nulink 标准声称有更大的改进。

来源:Tom's Hardware

此处需要注意的是,如果主机结构跨接口扩展,则必须在 DRAM 端处理结构命令集的子集。每个 bank 都需要在本地实现状态机(预充电、地址选择、激活、读/写、关闭等)。这需要使用 DRAM 在片上制造(相对)复杂的逻辑。

计算内存:前进的道路和可能的赢家

当然,向 DRAM 芯片添加逻辑并非易事。好消息是 HBM 包括一个 CMOS 基础芯片,当 3D DRAM 到来时,几乎可以肯定的是,良好的 CMOS 逻辑被粘合在内存堆栈的顶部或下方。换句话说,该架构适合在内存中包含一些计算,芯片制造商将有动力这样做。

这里有唾手可得的成果:考虑一下如果 HBM 采用每根数据线 32Gbps 的 GDDR7 速率,可以做什么。GDDR7 表明,可以在 DRAM 芯片上制造足够快的晶体管,并且通过 TSV 到基堆栈的垂直距离小于 1 毫米,这应该将每比特的能量保持在 0.25pJ/比特范围内。这就引出了一个问题:为什么 JEDEC 不在这里倾向于改进的标准呢?

基础芯片上的外部接口可以大幅升级为现代设计,提供每毫米边缘超过 1 TB/秒,而每比特的能量仅为 pJ 几分之一。有人会在 IP 战争中大获全胜。虽然 JEDEC 可能会采用一种选择作为标准,但更有可能由移动速度更快的内存/GPU 供应商对来完成,因为 JEDEC 通常需要数年时间。

来源:SemiAnalysis

我们已经看到 HBM4 的真正变化,接受了 3rd 方基础芯片,这必然会引发实验。我们可能会看到卸载通道控制、互连上的纯结构扩展、在几厘米距离内每比特的能量降低,以及菊花链到离主机更远的其他 HBM 行,或者到第二层内存,如 LPDDR 组。

通过这种方式,设计可以避开尝试在内存堆栈内进行计算的功率限制,而是在基础芯片上使用现代化接口,为相邻芯片提供带宽和低每比特能量,以便在内存中进行计算。

下面我们将介绍即将到来的 DRAM 革命:3D。这将意味着内存制造商和晶圆厂设备的结构性转变 - 我们将讨论基础知识、制造方式以及可能的赢家(和输家)。

来源:SemiAnalysis

0

付费内容

查看我的付费内容