干货满满,详细解读下一代HBM架构!
转:
本文将详细介绍下一代HBM标准,包括HBM4、HBM5、HBM6、HBM7和HBM8,每一代都将提供巨大的进步,以满足不断增长的数据中心和AI需求。
在韩国科学技术院(KAIST)和Tera (TB互连和封装实验室)最近的一份报告中,两家公司概述了HBM的路线图,并详细介绍了对下一代标准的期望。该报告概述了几个新的和即将推出的HBM标准,如HBM4、HBM5、HBM6、HBM7和HBM8。

首先是HBM4。这将是2026年推出的下一代数据中心和AI GPU的首选标准。AMD和NVIDIA都已经确认在他们的MI400和Rubin产品中使用HBM。


这里也分享了些NVIDIA的路线图,考虑到TeraByte负责处理HBM内存的互连和封装方法,这可能会有一些分量。

HBM4内存用于NVIDIA的Rubin和AMD的MI500 GPU
首先,我们看看NVIDIA的Rubin和Rubin Ultra,它们将分别利用HBM4和HBM4e内存。在官方路线图中,NVIDIA显示Rubin有8个HBM4插槽,Rubin Ultra有16个HBM4插槽。每个都有两个GPU芯片,但Ultra更大,提供标准Rubin的两倍计算密度。

据该研究公司称,Rubin的GPU芯片尺寸为728平方毫米,每个芯片将消耗800W的功率。这只是标准的Rubin产品。中间层的尺寸为2194 mm2 (46.2mm x 48.5mm),将承载288至384 Gb的VRAM容量,总带宽为16-32 TB/s。芯片总功耗为2200W,几乎是Blackwell B200 GPU的两倍。
HBM4内存标准的主要特性包括:


有趣的是,AMD的Instinct MI400也将于明年发布,与Rubin相比,它的性能更上一层,目标是提供432Gb的HBM4容量,内存带宽高达19.6 TB/s。

看看HBM4的细节,目标是提供8Gbps的数据速率,2048位IO,每堆栈的内存带宽为2.0 TB/s,每个die的容量为24Gb,内存容量高达36- 48Gb,每堆栈功率封装为75W。HBM4采用标准的D2C液体冷却,并采用定制的基于HBM的芯片(HBM-LPDDR)。

HBM4e更进一步,数据速率为10Gbps,每堆栈带宽为2.5 TB/s,基于12-Hi和16-Hi堆栈,每个芯片容量高达32 Gb,内存容量高达48/64 Gb,每个HBM封装功率高达80W。
HBM5瞄准NVIDIA Feynman,计划于2029年上市
HBM5数据速率为8Gbps,驱动IO通道高达4096位。带宽也增加到每个堆栈4TB /s,并将以16-Hi堆栈作为基准。使用40 Gb DRAM芯片,HBM5将扩展到每堆栈80 Gb的容量,每堆栈功率预计将达到100W。

HBM5内存标准的主要特性包括:

NVIDIA的Feynman预计将成为第一款使用HBM5内存标准的GPU,虽然NVIDIA列出了2028年的发布时间表,但看起来这家研究公司将基于生产和供应周期的下一代解决方案定为2029年发布更为现实。
Feynman是一个750mm2的芯片GPU,每个芯片功率为900W,旗舰芯片将被称为F400。英伟达没有展示任何芯片本身的具体说明,但研究公司认为它是一个带有8个HBM5插槽的四GPU芯片封装。据说这个封装的尺寸为4788 mm2 (85.22mm x 56.2mm)。整个GPU应该包含400- 500 Gb的HBM5,并将提供4400W的TDP。
HBM6 Post-Feynman GPU架构——巨大的功率、容量及带宽
英伟达可能会推出更大的Feynman Ultra,但尚未上市。下面列出的是Post-Feynman时代的HBM6设计。在HBM6中,我们期望在使用4096位IO通道时看到16 Gbps数据速率。

HBM6内存标准的主要特性包括:

HBM6的一个重大变化是,第一次看到HBM堆叠超过16-Hi到20-Hi,将每堆栈的内存容量增加到96- 120GB,每堆栈功率为120W。
据该研究公司透露,每个GPU芯片尺寸为700平方毫米,每个芯片功率为1000W。该封装将在6014 mm2 (102.8mm x 58.5mm)的封装面积内容纳16个HBM6插槽,并将提供128-256 TB/s的带宽,每个芯片的内存容量为1536-1920 GB,总功率为5920W。这项技术预计将在2032年问世。
HBM7 & HBM8 ——为未来十年最大化内存
随着HBM6成为下一个十年开始的亮点,HBM7和HBM8将成为将标准提升到全新水平的大炮。HBM7将提供每堆栈24 Gbps的引脚速度和8192个IO通道,是HBM6的两倍。增加的数据速率和IO能力将把带宽提高到24 TB/s,是HBM6的3倍,并且每个DRAM芯片的容量为64 Gb,由于20-24-Hi的内存堆栈,将看到每个堆栈的容量高达160-192 GB。每个堆叠的封装功率为160W。

HBM7内存标准的主要特性包括:

HBM6,HBM7和HBM8的die堆叠将使用无碰撞Cu-Cu直接键合实现,HBM7/HBM8将采用嵌入式冷却解决方案。HBM7还将推出全新的HBM-HBF和HBM-3D LPDDR架构。
基于HBM7内存的下一代解决方案预计将变得超大和多chiplet,一个封装提供8个GPU插槽,每个GPU的尺寸为600 mm2,功耗高达1200W,而32个HBM7插槽提供1024 TB/s的带宽,使其成为第一个PB级带宽解决方案。该芯片还应该包含高达5120- 6144 GB的巨大内存容量,预计总功率为15,360W,几乎是基于HBM6解决方案的3倍。

HBM8内存标准的主要特性包括:




对于HBM8来说,内存标准要到2038年才会到来,所以还有很长的路要走,但预期的规格包括32Gbps的数据速率和加倍的IO通道,达到16384。内存解决方案将提供每个堆栈64 TB/s的带宽,每个DRAM的容量为80 Gb,高达200/240 GB的内存容量和每个HBM插槽的封装功率高达180W。
用于内存密集型LLM推理的HBF架构,创新的冷却方法
还有一件事是HBF架构,它的设计是为了满足内存密集型LLM推理的需求。对于HBF,制造商不再使用标准的内存DRAM,而是使用NAND,最高可达128层,在16-Hi堆栈中提供更高的容量,并使用HBF TSV解决方案进行互连。
每个HBF堆栈与HBM堆栈并行连接,并且能够提供高达1TB的额外容量,并使用快速的2TB /s HBM-HBF互连,该互连使用通过内存网络交换机运行的128 GB/s双向互连与主板上的其他组件通信。








在HBM7中,这种基于NAND的堆栈进一步升级,并使用提供4096 GB/s传输速度的互连连接到玻璃中间层。容量高达384 GB的LPDDR解决方案与容量为192 GB的HBM堆栈一起运行。
HBM堆栈也将扩展到24-Hi设计,在双塔高带宽封装中使用HBM7和HBM8。



随着基于玻璃的硅中间层的到来,该研究公司强调使用嵌入式冷却作为标准方法,它将通过中间层并为HBM, HBF和GPU IP提供直接冷却。