欢迎访问
AI迸发高数据存储需求,这些存储技术大放光彩
2024-06-20 来源:贤集网
1958

关键词: 人工智能 芯片 云计算

人工智能AI吹起新一轮科技革命浪潮,衍生出诸多新兴应用,庞大的需求驱动存储技术更迭。随着AI模型和数据集不断扩大,高效、高性能的存储显得愈发关键,符合AI模型需求的DDR、GDDR、HBM技术从幕后走向台前,并随着AI发展而不断推陈出新。


DRAM,走向3D

1966年的秋天,IBM研究中心的Robert H. Dennard发明了动态随机存取存储器(DRAM),几十年后,这份伟大的成就为半导体行业缔造了一个影响巨大且市场规模超千亿美元的产业帝国。

也是在这数十年间,摩尔定律一直是业界崇尚的黄金法则,也一直是半导体性能和成本的驱动因素。



早前的DRAM可以满足业界需求,但随着摩尔定律推进速度放缓,DRAM技术工艺也逐渐步入了瓶颈期。

从技术角度上看,随着晶体管尺寸越来越小,芯片上集成的晶体管就越多,这意味着一片芯片能实现更高的内存容量。目前DRAM芯片工艺已经突破到了10nm级别。

虽然10nm还不是DRAM的最后极限,但多年来随着DRAM制程节点不断缩小,工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显,要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。

据Tech Insights分析,通过增高电容器减小面积以提高位密度(即进一步减小单位存储单元面积)的方法即将变得不可行。

上图显示,半导体行业预计能够在单位存储单元面积达到约10.4E-4µm2前(也就是大约2025年)维持2D DRAM架构。之后,空间不足将成为问题,这将提升对垂直架构,也就是3D DRAM的需求。

另一方面,随着数据量爆炸性增长,尤其是云计算、人工智能、大数据分析等领域对高速、大容量、低延迟内存的需求持续攀升,市场对更高密度、更低功耗、更大带宽的DRAM产品有着强烈需求。

在市场需求和技术创新的驱动下,3D DRAM成为了业界迫切想突破DRAM工艺更高极限的新路径。


探索GDDR过往,GDDR7已来

GDDR英文全称Graphics Double Data Rate DRAM,是专为图形处理而设计的高性能DDR存储器规格,简称为显存。显存最关键的应用领域便是显卡,后者应用于新媒体和电脑游戏、炒卖加密货币、AI强化学习(如ChatGPT、Sora)等领域。而用于显卡的DRAM,需要具备两个关键的特性,高密度寻址能力和配备的高性能,早期因主要考虑兼容CPU,显卡大多采用DDR内存,不过近年随着图像处理需求的增加,显卡逐渐转向专为GPU设计的GDDR。

业界指出,GDDR有专属的工作频率、时钟频率、电压,因此与市面上标准的DDR存储器有所差异,与普通DDR内存不同,且不能共用。一般它比主内存中使用的普通DDR存储器时钟频率更高,发热量更小,具有更高的频率和带宽,所以更适用于中高端显卡。



目前,GDDR已成为人工智能、大数据应用领域中最热门的内存芯片之一。从类型上看,GDDR包括GDDR2、GDDR3、GDDR4、GDDR5、GDDR5X、GDDR6和GDDR6X等,GDDR5和GDDR6是高端显卡上常见的显存类型。其实,前两代的GDDR和GDDR2并没有得到GPU厂商的大规模应用,但随着性能的提升,第三代GDDR3数据传输速率最高达到2.5GHz,第四代GDDR4虽然性能有了进一步变化,但由于下游厂商对GDDR4标准意见不一,市场度接受度不高。为此GDDR3成为当时市场主流技术,包括英伟达和AMD等头部GPU厂商都使用的GDDR3。

从2008年后,产品更新至GDDR5,因具备更高的时钟频率和数据传输速率成为高性能显卡的标配,GDDR5与GDDR4、GDDR3一样,皆是基于DDR3技术开发而来。据悉,GDDR5之后,英伟达与美光共同合作推出GDDR5X半代产品,应用于前者的高端显卡。

据悉,英伟达是首家在其RTX 30 系列GPU中选择GDDR6X内存的供应商,至少是高端GPU。GDDR6X将每引脚带宽以14Gbps增加到21Gbps,将总带宽增加到1008GB/s,甚至超过3072位宽的HBM2堆栈。值得一提是,GDDR6X还引入了PAM4(Pulse Amplitude Modulation 4)信号技术,显著提高了数据传输速率。

目前,今年来,美光、三星和SK海力士均表示已开始提供GDDR7内存样品。具体来看,三星GDDR7芯片通过首次应用PAM3信号,能够在仅1.1 V的DRAM电压下实现32 Gbps的速度,这超过了JEDEC的GDDR7规范中的1.2 V;SK海力士与其前身GDDR6相比,最新的GDDR7产品提供的最大带宽达到160GB/s,是其上一代产品(GDDR6位80GB/s)的两倍,功耗效率提升了40%,内存密度提升1.5倍;美光GDDR7具有28GB/s和32Gb/s两种速度,采用其1β (1-beta) DRAM 技术制造,其效率比GDDR6 提高了50%。


HBM3成为主力

作为存储领域三大巨头——三星、海力士和美光是HBM3e技术的引领者,HBM3e的高热需求推动三大存储巨头的技术迭代。其中,美光利用1β(1-beta)技术、先进的硅通孔(TSV)技术和优化的封装设计,推出了其HBM3产品。这些技术的结合使得美光的HBM3产品在性能、功耗和散热方面都展现出卓越的表现。1β技术可以提升存储器的能效比,降低功耗;而先进的硅通孔(TSV)技术能提高封装密度,降低信号传输延迟,从而提高产品的性能。此外,优化的封装设计也有助于提高产品的散热性能,保证其长期稳定运行。

三星采用先进的热压非导电薄膜技术,使得HBM3e 12层和HBM3 8层堆叠产品的高度保持一致,以满足当前HBM封装的要求。不仅保持了产品高度的一致性,还提高了产品的垂直密度。具体来说,HBM3e产品的垂直密度比上一代的产品提高了20%以上。此外,三星的热压非导电薄膜技术还可以通过允许在芯片之间使用不同尺寸的凸块(bump)来改善HBM的热性能,从而提高产品的整体性能。

简而言之,HBM高带宽存储的爆火需求,对于整个行业来说既是机遇也是挑战。随着人工智能、大数据、云计算等技术的不断发展,HBM高带宽存储的需求也在不断增加。对于存储厂商来说,这是一个巨大的市场机遇。然而,这也意味着厂商需要不断提升技术水平,以满足市场需求。同时,激烈的市场竞争也给厂商带来了挑战。因此,存储厂商需要不断创新,提高产品质量和性能,以获得更多的市场份额。


近存方案,更大的SRAM和HBM

对于我们说的存储墙而言,其实在SRAM上并不那么明显,这种最接近处理单元的存储,常被用作高速缓存,不仅读写速度极快,能效比更是远超DRAM。但SRAM相对其他存储而言,存储密度最低,成本却不低。所以尽管现如今虽然更大的SRAM设计越来越普遍,但容量离DRAM还差得很远。

但这并不代表这样的设计没有人尝试,对于愿意花大成本的厂商而言,还是很高效的一条技术路线。以特斯拉为例,其Tesla Dojo超算系统的自研芯片D1就采用了超大SRAM的技术路线。Dojo在其网格设计中采用了超快且平均分布的SRAM。

单个D1核心拥有1.25MB的SRAM,加载速度达到400GB/s,存储速度达到270GB/s。单个D1芯片的SRAM缓存达到440MB。简单来说,Dojo可以用远超L2缓存级别的SRAM容量,实现L1缓存级别的带宽和延迟。

当然了,这样的设计注定代表了大量的成本投入。在特斯拉2023财年Q4的财报会议上,马斯克强调他们做了英伟达和Dojo的两手准备。Dojo作为长远计划,因为最终的回报可能会值回现在的投入,但他也强调这确实不是什么高收益的项目。

所以对于已有的计算架构来说,走近存路线,提高DRAM的性能是最为适合的,比如HBM。HBM作为主流的近存高带宽方案,已经被广泛应用在新一代的AI芯片、GPU上。以HBM3e为例,1.2TB/s的超大带宽足以满足现如今绝大多数AI芯片的数据传输,未来的HBM4更是承诺1.5TB/s到2TB/s的带宽。

HBM的方案象征了目前DRAM堆叠的集大成技术,但目前还是存在不少问题,比如更高的成本以及对产能的要求。在现如今的AI需求驱动下,新发布的芯片很难再采用HBM设计的同时,保证大批量量产,无论是HBM产能还是CoWoS产能都处于满载的阶段,而且与制造厂商强绑定。可恰恰存储带宽决定了AI应用的速度,所以在HBM方案量产困难成本高昂的前提下,即便是英特尔和AMD这样的厂商也经不起这样挥霍,不少其他厂商更是选择了看向存内计算。


存内计算与处理,需要解决算力与存储双瓶颈

为了解决AI计算中数据存取的效率问题,把数据处理和筛选的工作放在存储端,就能极大地降低数据移动的能耗。以三星的PIM技术为例,其将关键的算法内核放在内存中的PCU模块中执行,相比已有的HBM方案,PIM-HBM可以将能耗降低70%以上。而且不仅是HBM,PIM也可以集成到LPDDR、GDDR等存储方案中。

不过存内处理的方案只解决了功耗和效率的问题,并没有对计算性能和存储性能带来任何大幅提升。至于将主要计算工作交给存内的计算单元,就是存内计算的目标了,比如不少厂商尝试的模拟存内计算(AIMC)。但这类方案实现大规模并行化运算的同时,还是需要昂贵的数模转换器,以及逃不开的错误检测。至于数字存内计算方案,一定程度上规避了模拟存内计算的缺陷,但还是牺牲了一些面积效率。对于一些大模型AI应用而言,单芯片的存储容量扩展性堪忧。



所以数模混合成了新的研究方向,比如中科院微电子研究所就在今年的ISSCC大会上发表了数模混合存算一体芯片的论文,其采用模拟方案来进行阵列内位乘法计算,利用数字方案来进行阵列外多位移位累加计算,从而达到整体的高能量效率和面积效率,INT8精度下的计算峰值能效可达111.17TFLOPS/W。

除此之外,还有存间计算的厂商,将计算单元放在不同的SRAM之间。以存间计算初创公司Untether AI为例,他们以打造存内推理加速器AI为主,通过将计算单元放在两个存储单元之间,其IC可以提供更高能效比的推理性能。比如他们在打造的第二代IC,speedAI240,集成了1400个定制RISC-V核心,可以提供至高2PetaFlops的推理性能,能耗比最高可达30 TFLOPS/W。

除了各种存算一体架构的算力瓶颈外,存储本身也需要做出突破。以三星的PIM为例,其虽然在DRAM上引入了PIM计算单元,但并未对DRAM本身的带宽的性能带来提升,这就造成了在存算一体的架构中,依然存在计算单元与存储器性能不平衡的问题,各种其他类型的存储器,包括MRAM、PCM、RRAM,除了量产问题外,写入速度和功耗的问题也还未实现突破。

西安紫光国芯为此提出了一种3D异质集成DRAM架构,逻辑晶圆通过3D混合键合工艺堆叠至SeDRAM晶圆上,进一步提升了访存带宽,降低了单位比特能耗,还能实现超大容量。从去年紫光国芯在VLSI 2023发布的论文来看,其SeDRAM已经发展至新一代多层阵列架构。结合低温混合键合技术和mini-TSV堆叠技术,可以实现135Gbps/Gbit的带宽和0.66pJ/bit的能效。


写在最后

其实无论是哪一种突破存储墙瓶颈的方式,最终都很难逃脱复杂工艺带来的挑战。行业迟迟不愿普及相关的存算技术,还是在制造工艺上没有达到适合普及的标准,无论是良率、成本还是所需的设计、制造流水线变化。已经占据主导地位的计算芯片厂商,也不会选择非得和存储绑在一条船上,但行业必然会朝这个方向发展。



Baidu
map