欢迎访问
HBM被巨头“垄断”,芯片厂商瞄向CXL,能成功吗?
2024-03-14 来源:贤集网
3142

关键词: HBM 人工智能 芯片

AI大模型发展高歌猛进,从文本生成的ChatGPT,到文生视频的Sora,多模态交互持续迭代。在大模型的演进、落地过程中,数据存储系统面临性能挑战、稳定运行和成本压力等难题。


HBM市场有多火?

根据Yole Group的最新分析报告,由于人工智能服务器的需求超过了其他应用,HBM 在整个 DRAM出货量中所占的份额预计将从 2023 年的约 2% 上升到 2029 年的 6%,由于 HBM价格远高于 DDR5,就收入而言,其份额预计将从 2024 年的 140 亿美元攀升至 2029 年的 380 亿美元——而此前该份额已从 2023 年的约 55 亿美元逐年飙升了 150% 以上。

Yole Group表示,内存供应商已经增加了 HBM 晶圆产量,预估产量从 2022 年的每月 44,000 片晶圆 (WPM) 增加到 2023 年的 74,000 WPM,并可能在 2024 年增至 151,000 WPM。



在HBM这一蓬勃发展的市场中,虽然只有三个玩家,但竞争之激烈,超出了许多人的想象。简而言之,旱的旱死涝的涝死,排行第一的海力士在技术和市场上遥遥领先,拿走了最多的利润,排名第二的三星正在积极发起进攻,又拿走了一部分,至于第三的美光,由于技术路线的判断失误,市场份额较小,目前还处于一个追赶状态,短期内恐怕很难贡献大额利润。

而最新的新闻也从侧面证明了这种差距。SK海力士在2月确认,自己在过去几个月的HBM销量创下了新纪录,同时带动第四季度实现盈利,并预测产业即将复苏,SK海力士副社长金起台(Kim Ki-tae)指出,生成式AI服务日益多样并持续发展,作为AI存储解决方案的HBM需求也出现爆炸性成长。

更重要的是,他提到今年海力士旗下HBM已经全部售罄,虽然2024年才刚开始,但公司为了保持市场领先地位,已开始为2025年预作准备。‘

2024年刚开始,SK海力士就已经在考虑2025年的HBM市场了,隔壁三星和美光所背负的压力也是巨大,在追赶技术和市场的同时,他们在思考,能否绕开HBM这项技术,从另一个方向去抢占AI市场呢?

此时,CXL(Compute Express Link)再度进入到了内存厂商的视线当中。


什么是CXL?

CXL的起源可追溯到数据中心和高性能计算领域对更快速、更高效互连技术的需求。过去,HDD磁盘和内存之间差距很多,但随着SSD、NVMe 设备的出现逐渐弥补了中间的鸿沟。然而即使采用了NVMe设备,其与内存的差异仍然有10倍以上。传统数据库对于这一差异已经不再敏感,原因是因为系统的瓶颈已经来到了CPU侧,因此这几年所有人都在关注列存、向量化等技术来降低内存使用。对于许多应用而言,尽管NVMe的延迟已经足够满足要求,但是吞吐依然是很明显的瓶颈,因此并不能完全替代内存,这其中模型训练、向量数据都是非常典型的场景。

CXL的出现很好地解决了这个问题,通过将设备挂载到PCIe总线上,CXL实现了设备到CPU之间的互联,实现了存储计算分离。CXL 还允许 CPU 以低延迟和高带宽访问连接设备上更大的内存池,从而扩展内存。这可以增加 AI/ML 应用程序的内存容量和性能。

CXL利用灵活的处理器端口,可以在 PCIe 或 CXL 模式下运行。这两种设备类别均可在 PCIe5.0 中实现 32 GT/s 的数据速率,在 PCIe6.0 中实现高达 64 GT/s 的数据速率,为 AI/ML 应用提供了额外的功能和优势。



为什么需要 CXL?

随着可用数据量的增长,数据中心必须适应更复杂、要求更高的工作负载。已有数十年历史的服务器架构正在发生变化,使高性能计算系统能够处理人工智能/机器学习应用程序产生的大量数据。

这就是 CXL 的用武之地。CXL提供有效的资源共享/池来提高性能,最大限度地减少对复杂软件的需求,并降低系统总成本。

CXL 为企业和数据中心运营商带来多种优势,包括:

实现了计算和存储资源的分离,不再局限于CPU,GPU、FPGA都可以实现CXL协议共享内存资源并实现跟CPU的数据交互。

提供了比内存插槽所能容纳的更多的容量和带宽。

通过 CXL 连接设备,计算资源的扩展会变的更加容易。

内存变得更加弹性,按需分配、动态迁移都将变成可能。

允许 CPU 结合 DRAM 内存使用额外内存 。


CXL协议具体能干啥?

从2019年发布CXL 1.0/1.1,到2020年11月发布CXL2.0,如今Intel已经发布了CXL 3.0,它的功能一直在发生着变化。

首先我们来看下CXL是什么?CXL要如何解决问题呢?

如今,CXL有CXL.io、CXL.memory和CXL.cache三个协议:

其中,CXL.io就是原来的PCIe,在CXL的建立连接、设备发现、配置等过程中发挥重要作用,连接建立后,CXL.cache协议负责做cache一致性的工作,CXL.cache和CXL.memory配合起来用来做内存扩展。

CXL.cache和CXL.memory对于latency的要求会比较高,尤其CXL.cache对延迟要求非常高,因为这关系到计算的效率。

在CXL1.0和1.1规范定义了三种Device:

Type1Device主要的应用场景是高性能计算里的网卡(PGAS NIC),它支持一些网卡的原子操作,主要利用的协议就是CXL.io和CXL.cache。

Type2Device主要指的是带有内存的加速器,包括GPU、FPGA等加速器,它使用的协议包括用来做链接的CXL.io,做cache一致性的CXL.cache,用来做内存扩展的CXL.memory。

Type3Device主要用作内存的Buffer,做内存的扩展。它主要利用CXL.io和CXL.memory的协议。如图所示,CPU除了可以用本地的DDR内存,还可以通过CXL去扩展远端内存,远端内存可以是一个大的内存池,这里的内存可以共享给不同的CPU来用。

CXL2.0规范实现了机架级别的资源池化。

云计算强调资源可以像水和电一样按需获取,云计算的技术潮流下,追求不同资源之间的松耦合,为的是提高使用效率,为了提高使用效率,要实现的是相同资源的池化。

随着技术的发展,未来的服务器不再是传统意义上的服务器,它不再具有现实的形态,用户从云服务商那里申请云主机的时候,主机的CPU是从CPU池里拿出来的,内存是从内存池里拿出来的,CPU池和内存池通过CXL连起来的。

使用从资源池里拿出来资源组成逻辑上的服务器,这就是资源解耦和资源池化在未来能带来的变化。

CXL2.0规范在资源池化方面有所强化,同时,也还增加了CXL switch功能,它可以在一个机架内通过一套CXL交换机构建成一个网络。

2022年,新发布的CXL 3.0规范又新增很多特性。

首先,CXL 3.0 PCIe 6.0规范,它的速率从32GT提升到了64GT,在相同的链路时,带宽翻倍。并且,Latency也没有任何变化。

第二,CXL 3.0新增了对二层交换机的支持,也就是Leaf spine网络架构,如此便可以更好地对资源进行解耦和池化,做更多的资源池,比如CPU资源池、内存资源池、网卡资源池和加速器资源池等,Leaf与Spine之间通过Fabric manager软件构建各种拓扑和各种路由方式。

CXL 3.0不但可以更好地在一个机柜内实现计算资源和存储资源的池化和解耦,而且,可以在多个机柜之间建立更大的资源池,如此一来,对于云计算服务商的资源管理效率和成本优化都会带来很大帮助。



CXL的未来发展方向?

说了那么多CXL的优势和好处,那么CXL的未来发展方向如何呢?

首先,CXL可以用来扩展内存的容量和带宽,这是非常重要的一个方面。在使用服务器本地内存的同时,还可以通过CXL利用远端内存,远端内存的成本和价格相对更低,而且,它能让CPU和内存之间的配比变得更灵活。

进一步发展之后,未来完全可以取消近端本地内存,全部都使用远端内存,这有赖于摩尔定律的作用,让计算芯片和存储芯片都有更进一步的发展。

与此同时,CPU上会有比DRAM更高速的内存,比如可能会把HBM与处理器封装到一个die里,使得CPU有更多的高速内存。

另外,还有一个趋势在于远端内存的持久化。目前,英特尔就有傲腾持久内存,但因为一些原因,英特尔宣布不再继续研发了,不过,业界还有很多替代方案,比如NVDIMM,配合CXL将这些持久内存作为远端内存,还能够提供多种实用功能。

除此之外,还能利用CXL技术实现Computational Storage,通过CXL利用内存资源,在存储上做一些压缩或者解压缩的操作,类似可以在远端实现的功能还有很多。

CXL带来的改变从单节点开始,扩展到机架规模,而后是Tor级别,最终会影响到数据中心级别,CXL将要重构未来的数据中心。

数据中心利用CXL做解耦和池化,CXL技术能够让不同的资源从紧耦合变成松耦合,让相同的资源变成池化资源,会形成CPU资源池、GPU资源池以及内存资源池,各个资源池通过CXL连接。

在未来发展中,随着CXL技术的逐步落地,IPU承担的任务也会越来越多,既作为CXL的端点,又作为以太网的端点,会有很多功能和负载卸载到IPU上,架构上会有很多变化,将会有很多新的创新。


写在最后

就2024初来看,CXL标准落地仍有许多障碍需要克服。三星开发的 CXL 2.0 DRAM 与现有标准相比,可扩展性有限。开发与 GPU、CPU 和 DRAM 兼容的 CXL 交换设备、设计 CXL DRAM 模块以及快速开发支持软件等挑战都是当务之急。

而建立生态系统也同样重要。CXL领域的知名企业包括与拥有 CXL 3.0 设计资产和集成解决方案的全球半导体公司合作的韩国初创企业Panmesia,以及拥有 CXL DRAM 控制器设计技术的中国的澜起科技,业内人士指出:"要在 CXL 3.0 中实现理想的可扩展性,仅仅停顿在部分技术开发上是不够的,必须要有涵盖整个生态系统的整体技术。"

好消息是,截至目前,CXL内存扩充模组的应用环境已经较为完善,主要的内存厂商均已推出自家的CXL内存扩充模组产品,虽然现在的服务器只能支持CXL 1.1标准,但基本上已经可以连接与运行,等到下一代也就是支持CXL 2.0服务器上线后,就能更好地利用它的优势,从而实现这一标准的普及。

在2024年年初,我们可以用一句话来形容,就是万事俱备,CXL只欠应用这场东风了。

当然,关于CXL竞争依旧不可避免,有韩国业内人士表示,“虽然公众不知道,但三星电子和 SK 海力士都‘全力以赴’确保在 CXL 技术方面取得领先地位,就像他们对 HBM 所做的那样。”

卷完了HBM,内存厂商又瞄上了CXL,一场新的内存战争,即将展开。



Baidu
map