Intel下一代旗舰级CPU Sapphire Rapids将会是Intel在CPU领域的一次重要新产品。该CPU将会使用Intel 7工艺,并且大规模使用了chiplet(芯片粒)技术,从而让单个CPU中可以包含高达60个核心,从而让Intel不至于在高级封装驱动的下一代CPU竞争中落后AMD。
Sapphire Rapids早在几年前就已经宣布要开发,而其正式出货在多次推迟后,终于在最近几个月有了更确定的消息。根据最近Intel发布的消息,Sapphire Rapids将在2023年正式出货。而在9月底,Intel也在自家举办的活动Innovation Event上发布了基于Sapphire Rapids样片的demo,这也让Sapphire Rapids的一些重要特性让外界有了更加详细的认知。
在Sapphire Rapids的这些新特性中,除了chiplet这一个广为人知的技术之外,最值得关注的就是使用了异构计算的架构,集成了许多为专门计算领域优化的加速器(domain specific accelerator,DSA)。在过去的几十年中,由于CPU性能借着摩尔定律的高速发展而飞速提升,大多数时候用户会考虑只使用CPU来处理所有的算法,即使用一个通用架构来解决所有问题。然而,随着摩尔定律的发展接近瓶颈,使用一个通用架构解决所有问题已经不再现实,因为CPU性能的发展速度已经跟不上应用的需求,因此异构计算的思路得到了越来越多的重视,即为了重要的应用专门设计相关的计算加速模块,从而加速计算性能,同时也改善效率。
我们认为Intel在下一代CPU Sapphire Rapids中引入大量异构计算是一个里程碑式的事件,这是因为传统上来说通用型CPU和异构计算是两个芯片设计阵营,通用CPU设计的时候会尝试改善性能从而说服用户无需使用异构计算;而Intel这次在Sapphire Rapids中主动引入大量异构计算加速器,这也说明了异构计算确实已经成为极其重要的主流设计方案,与其单独设计CPU然后让其他公司去设计相关的异构计算芯片抢走市场,还不如在自己的CPU中主动拥抱异构计算,集成相关的加速器,来确保满足用户的需求。
具体来看,这次Intel在Sapphire Rapids中集成的独立加速器主要包括动态负载平衡模块(DLB),数据流加速器(DSA),内存内分析加速器(IAA),以及快速协助模块(QAT)。这些独立的加速器是作为一个单独模块集成在CPU之外的。除了这些单独加速模块之外,Intel还在每个CPU核心中集成了用于矩阵计算加速的AMX模块(Advanced Matrix Extensions)。
我们不妨来看一下这些加速模块的具体功能。DLB的主要功能是加速不同服务器之间的负载均衡,从而保证服务器的大规模部署分布式计算。DSA主要用于加速CPU和存储(NVMe以及TCP)之间的数据交换和数据转换。IAA主要用于数据库应用,可以加速数据库相关应用中的数据压缩和解压。QAT主要用于网络相关应用中的数据压缩和加密运算。最后,AMX主要是用于人工智能相关的矩阵运算。
我们可以看到,这些加速器几乎都是针对目前最火热的大数据应用,主要目的都是改善这些大数据应用中的痛点。DSA,IAA和QAT针对的应用目前基本都是CPU是主要计算单元,但是由于在数据传输等领域传统CPU的效率不高,目前有不少公司试着在用专门的ASIC来取代CPU,因此Intel这次在Sapphire Rapids中引入这些加速器正是一个希望能保住这些市场中公司份额的举动。AMX主要针对矩阵运算,目前虽然GPU是人工智能相关计算的主流计算单元,但是也有一些模型因为需要使用的一些算子GPU支持不够好,仍然是在CPU上计算,而Intel的AMX正是针对这些模型的部署做加速。
异构计算:解决算力瓶颈的新希望
「异构计算」这个概念可以追溯到上世纪 80 年代年。而在 2006 年左右,芯片厂商就开始尝试把不同的计算单元整合到一颗芯片上。AMD 把高性能 CPU、GPU 做到一颗芯片上的项目命名为「Fusion」(融聚);英伟达则推出了统一计算框架 CUDA 进入主流市场,让 GPU 也能够进行原来 CPU 擅长的通用计算。
CPU 作为通用计算芯片,擅长处理不同类型的数据,做逻辑判断;而 GPU 擅长做并行同类型计算,吞吐量大。AI 算法发展起来后,既需要密集的矢量运算,又需要复杂的逻辑计算,人们自热会想到让不同的计算模块发挥所长,让硬件为软件的需求服务。除了 GPU+CPU 的计算平台之外,FPGA(现场可编程逻辑门阵列)也随之诞生。FPGA 的特点是能够根据计算任务,自定义配置芯片硬件功能。
从发展过程可以看出,「异构计算」的特点是硬件作为算力资源,主动适配软件需求。简单而言,就是算力资源优化。
异构计算瓶颈待突破
异构的优势显而易见,与此同时暴露出的技术难题也越来越多。一是异构计算产品需要面对不同的系统架构、指令集和编程模型,需要降低多样计算带给软件开发者的难度;二是异构计算芯片产品除了要在芯片设计层面实现突破之外,还需要解决在芯片制造和封装过程中不同结构之间的适配和升级问题;三是异构计算要实现性能的多样性合一,使其同时满足人工智能训练、推理、图像视频处理等各种不同的需求。
燧原科技创始人兼CEO赵立东在接受《中国电子报》记者采访时表示,从产业规范与标准层面看,异构计算是指在完成一个计算任务时,采用一种以上的硬件计算单元、互联协议、差异化架构、软件接口等。由于不同的硬件设备、协议、应用二进制接口、软件应用层接口等都存在着巨大的差异,如何构建一个高效、系统化的协调统一的异构计算系统,成为最关键的技术问题。
宋继强同样表示,异构计算在技术方面、互连方面和软件方面都面临瓶颈。一是技术设计流程的协同问题。要保证与其他不同厂商的芯粒一起互联互通、协同工作时不出现问题。二是需要统一各厂商芯粒之间的互连标准。目前各厂商之间的互连标准并不统一,英特尔携手业界部分企业,推出了UCIe标准,未来有望把不同厂商的芯粒连到一起,形成一个符合要求的、大的、封装级的集成芯片。三是软件层面要过关。不同厂商的计算芯片之间要做出适配的I/O、内存通道。
“东数西算”带来新风口
当下正值我国“东数西算”工程建设稳步推进之际。宋继强指出,异构计算是“东数西算”的底层支撑。“东数西算”所需的大型计算中心内部,CPU、GPU、FPGA、DPU、专用加速器等对处理不同种类的工作数据各有优势与劣势,也有运营成本高低之分,所以未来一定要综合部署,多种架构可能都需要涵盖,而且要有机联合起来。
赵立东认为,异构计算对于“东数西算”来说是刚需。从半导体集成电路“赢家通吃”的发展特性来说,不管是从内部的产品业务布局,还是外部的生态与商业布局出发,单个数据中心或智算中心项目在落地时,会考虑异构计算的复杂性及发展不完备性所带来的巨大的额外部署成本,在一定程度上会偏好选择以单一厂商为核心的现成产品组合,尽量避免技术适配的投入。而置身于“东数西算”背景下,最终要实现的是全国算力中心的大一统,从而尽可能地优化利用资源,在多个数据中心或智算中心互联互通的场景下,异构计算的复杂性会是前所未有的。因此,在异构算力溯源、调度与管理平台的建设上,需要尽早布局与投入。
算力网络的构建不只依赖于异构计算,通用计算也将为“东数西算”提供更多助力。近两年,国内涌现出一批通用计算芯片初创企业,以FPGA和ASIC类型芯片作为切入点,部分企业购买国外公司的IP授权开发通用GPU芯片,少数企业自主研发通用GPU核心IP,实现了国内通用计算的突破。
天数智芯副总裁郭为表示,通用计算所构建的算力平台通常并行处理能力特别强,计算能效比高,并且有很大的存储带宽,能够释放非常可观的算力。
郭为建议,强化顶层谋划,将算力网络上升为国家战略,从全局层面整体谋划战略定位、发展目标,加快构建新型算力网络格局。此外,应成立国家重点实验室,打造重大原创技术策源地。优化异构计算产业布局,发挥龙头领军企业的“链长”作用,协同上下游企业,制定产业链供应链图谱及协同发展计划,推动异构计算产业链本土化、供应链多元化,确保异构计算产业安全稳定。