欢迎访问
HBM3来了!HBM未来潜力与演进方向在哪?
2023-01-09 来源:网络整理
1254

关键词: 人工智能 存储器 芯片

由于处理器与存储器的工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。有数据显示,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“内存墙”。

随着数据的爆炸势增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。

长期以来,内存行业的价值主张在很大程度上始终以系统级需求为导向,已经突破了系统性能的当前极限。很明显的一点是,内存性能的提升将出现拐点,因为越来越多人开始质疑是否能一直通过内存级的取舍(如功耗、散热、占板空间等)来提高系统性能。

基于对先进技术和解决方案开展的研究,内存行业在新领域进行了更深入的探索。作为存储器市场的重要组成部分,DRAM技术不断地升级衍生。DRAM从2D向3D技术发展,其中HBM是主要代表产品。

HBM(High Bandwidth Memory,高带宽内存)是一款新型的CPU/GPU 内存芯片,其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。

通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。

从技术角度看,HBM使DRAM从传统2D转变为立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。HBM突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,业界认为这是DRAM通过存储器层次结构的多样化开辟一条新的道路,革命性提升DRAM的性能。

在内存领域,一场关于HBM的竞赛已悄然打响。




为什么HBM很重要

自HBM首次宣布以来的十年里,已有2.5代标准进入市场。在此期间,创建、捕获、复制和消耗的数据量从2010年的2 ZB增加到2020年的64.2 ZB,据Statista预测,这一数字将在2025年增长近三倍,达到181 ZB。

Synopsys的高级产品营销经理Anika Malhotra表示:“2016年,HBM2将信令速率提高了一倍,达到2 Gbps,带宽达到256 GB/s。两年后,HBM2E出现了,实现了3.6 Gbps和460 GB/s的数据速率。性能需求在增加,高级工作负载对带宽的需求也在增加,因为更高的内存带宽是实现计算性能的关键因素。”

“除此之外,为了更快地处理所有这些数据,芯片设计也变得越来越复杂,通常需要专门的加速器、片内或封装内存储器及接口。HBM被视为将异构分布式处理推到一个完全不同水平的一种方式。”

“最初,高带宽内存只是被图形公司视为进化方向上的一步;但是后来网络和数据中心意识到HBM可以为内存结构带来更多的带宽。所有推动数据中心采用HBM的动力在于更低延迟、更快访问和更低功耗。”Malhotra说。“通常情况下,CPU为内存容量进行优化,而加速器和GPU为内存带宽进行优化。但是随着模型尺寸的指数增长,系统对容量和带宽的需求同时在增长(即不会因为增加容量后,对带宽需求降低)。我们看到更多的内存分层,包括支持对软件可见的HBM + DDR,以及使用HBM作为DDR的软件透明缓存。除了CPU和GPU, HBM也很受数据中心FPGA的欢迎。”

HBM最初的目的是替代GDDR等其他内存,由一些领先的半导体公司(特别是英伟达和AMD)推动。这些公司仍然在JEDEC工作组中大力推动其发展,英伟达是该工作组的主席,AMD是主要贡献者之一。

Synopsys产品营销经理Brett Murdock表示:“GPU目前有两种选择。一种是继续使用GDDR,这种在SoC周围会有大量的外设;另一种是使用HBM,可以让用户获得更多的带宽和更少的物理接口,但是整体成本相对更高。还有一点需要强调的是物理接口越少,功耗越低。所以使用GDDR非常耗电,而HBM非常节能。所以说到底,客户真正想问的是花钱的首要任务是什么?对于HBM3,已经开始让答案朝‘可能应该把钱花在HBM上’倾斜。”

尽管在最初推出时,HBM 2/2e仅面向AMD和Nvidia这两家公司,但现在它已经拥有了庞大的用户基础。当HBM3最终被JEDEC批准时,这种增长有望大幅扩大。


HBM3性能未来可期

HBM3带来的性能提升大家应该都比较清楚了,传输速率是HBM2的两倍,达到了6.4Gb/s,使得每个堆栈最高可达819GB/s的带宽。可用的独立通道也从HBM2的8个扩充至16个,加上每个通道两个伪通道的设计,HBM3可以说支持到32通道了,提供更优秀的时序来提升系统性能。

HBM3的TSV堆叠层数支持4-high、8-high和12-high,这倒是和HBM2e没有什么差别。从SK海力士提供的机械结构图来看,无论是8Hi还是12Hi,其封装大小和高度都是一样的,只不过是减小了中间堆叠的裸片高度。这仅仅是第一代HBM3,未来HBM3会扩展至16-high的TSV堆栈,单设备的内存密度范围也将达到4GB至64GB,不过第一代HBM3设备的话,目前用到的依然是16GB的内存层。

此外,在散热上,通过增加dummy bump、增加HBM3裸片大小并降低间隙高度,HBM3成功将温度降低了25%,实现了更好的散热性能。在7位ADC的支持下,HBM3的温度传感器也能以1℃的分辨率输出0到127℃的温度信息。




HBM未来潜力与演进方向

对于接下来的规划策略和技术进步,业界旨在突破目前HBM在速度、密度、功耗、占板空间等方面的极限。

首先,为了打破速度极限,SK海力士正在评估提高引脚数据速率的传统方法的利弊,以及超过1024个数据的I/O总线位宽,以实现更好的数据并行性和向后设计兼容性。简单来讲,即用最少的取舍获得更高的带宽性能。

针对更大数据集、训练工作负载所需的更高内存密度要求,存储厂商开始着手研究扩展Die堆叠层数和物理堆叠高度,以及增加核心Die密度以优化堆叠密度。

另一方面也在致力于提高功耗效率,通过评估从最低微结构级别到最高Die堆叠概念的内存结构和操作方案,最大限度地降低每带宽扩展的绝对功耗。由于现有中介层光罩尺寸的物理限制以及支持处理单元和HBM Cube的其他相关技术,实现总内存Die尺寸最小化尤为重要。因此,行业厂商需要在不扩大现有物理尺寸的情况下增加存储单元数量和功能,从而实现整体性能的飞跃。

但从产业发展历程来看,完成上述任务的前提是:存储厂商要与上下游生态系统合作伙伴携手合作和开放协同,将HBM的使用范围从现有系统扩展到潜在的下一代应用。

此外,新型HBM-PIM(存内计算)芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM。

在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,数据的搬运耗费的功耗远大于计算,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。新型的内存旨在减轻在内存和处理器之间搬运数据的负担。


写在最后

过去几年来,HBM产品带宽增加了数倍,目前已接近或达到1TB/秒的里程碑节点。相较于同期内其他产品仅增加两三倍的带宽增速,HBM的快速发展归功于存储器制造商之间的竞争和比拼。

存储器带宽指单位时间内可以传输的数据量,要想增加带宽,最简单的方法是增加数据传输线路的数量。事实上,每个HBM由多达1024个数据引脚组成,HBM内部的数据传输路径随着每一代产品的发展而显著增长。

回顾HBM的演进历程,第一代HBM数据传输速率大概可达1Gbps;2016年推出的第二代产品HBM2,最高数据传输速率可达2Gbps;2018年,第三代产品HBM2E的最高数据传输速率已经可达3.6Gbps。如今,SK海力士和三星已研发出第四代产品HBM3,此后HBM3预计仍将持续发力,在数据传输速率上有更大的提升。

从性能来看,HBM无疑是出色的,其在数据传输的速率、带宽以及密度上都有着巨大的优势。不过,目前HBM仍主要应用于服务器、数据中心等应用领域,其最大的限制条件在于成本,对成本比较敏感的消费领域而言,HBM的使用门槛仍较高。

尽管HBM已更迭到了第四代,但HBM现在依旧处于相对早期的阶段,其未来还有很长的一段路要走。

而可预见的是,随着人工智能、机器学习、高性能计算、数据中心等应用市场的兴起,内存产品设计的复杂性正在快速上升,并对带宽提出了更高的要求,不断上升的宽带需求持续驱动HBM发展。市场调研机构Omdia预测,2025年HBM市场的总收入将达到25亿美元。

在这个过程中,存储巨头持续发力、上下游厂商相继入局,HBM将受到越来越多的关注与青睐。



Baidu
map