随着高性能计算(HPC)系统,特别是AI服务器的市场规模不断扩大,其核心处理器,包括CPU、GPU、NPU、ASIC、FPGA等,以及内存、网络通信等芯片元器件的性能和功耗水平都在提升。随着性能提升,功率管理水平的提升显得更加重要,因为HPC系统,特别是AI服务器的耗电量越来越大,对整个系统,以及主要芯片的功率管理能力提出了更高要求。
在AI服务器中,CPU需要供电,GPU板卡需要供电,内存(DDR4、DDR5、HBM)需要供电,各种接口也需要供电。此时,电源管理系统就显得非常重要了,除了AC/DC电源、DC/DC转换器等,电源管理系统当中用到的无源器件(以电感和电容为主)也发挥着关键作用,随着系统性能和功耗的提升,对这些无源器件的性能和数量提出了更高、更多的要求。
性能优异的无源器件可以提供更加稳定的电压和电流,以确保AI服务器等HPC系统正常运行,保证快速的瞬态响应和较低的纹波。低损耗的无源器件可以提高AI服务器的能效,提升关键零部件的效率,节能环保。要保证AI服务器的可靠性和稳定性,对电感提出了更高的需求。
01、AI系统的供电挑战
与普通服务器相比,AI服务器所需的配置和耗能更高。由于AI服务器的功率较普通服务器高6~8倍,对电源的要求也同步提升,目前,市面上的通用服务器一般需要2个800W电源,AI服务器最多需要4个1800W电源。
随着服务器性能的提升,配套的电感变压器数量必定会随之增加。以芯片电感为例,有机构报告指出,由于GPU数量的增加,AI服务器一共需要24~48个电感,以每个1美元计算,与普通服务器相比,AI服务器中的芯片电感价值量多出60%-220%。
另外,在AI服务器中,多相或耦合电感等多合一形式逐步替代单电感应用;为了解决散热、损耗问题,超薄应用和电源模块类供电将更加广泛。
数据中心需要越来越多的AI加速卡,要配置大量处理器(xPU),多采用大规模并行计算方案,与普通CPU相比,xPU拥有大量小内核,有助于神经网络训练和AI推理。然而,xPU进行AI计算、传输数据时会产生较大功耗。也就是说,xPU是非常耗电的芯片,其严格的功耗要求对AI加速卡提出了新的挑战,这也会影响系统性能。
AI系统工作时,尤其是处理深度学习和推理等工作负载时,需要极高的计算功率。在系统层面,AI加速器对提供近乎实时的结果发挥着关键作用。所有xPU都有多个高端内核,这些内核由数十亿个晶体管构成,消耗数百安培电流。这些xPU的内核电压已降至1V的水平。
AI加速卡所需的峰值电流密度对任何主板来说都是非常沉重的负担,难以处理。工作负载的高度动态特性和极高的电流瞬变会导致非常高的di/dt和持续数微秒的尖峰电压瞬变,这些瞬变非常具有破坏性,可能会对xPU造成损害。AI的平均工作负载会持续很长时间,解耦电容将无法始终提供满足即时需求的能量,此时,需要消除AI加速器的瞬变,避免对整个配电网络造成损害。
目前,xPU稳压器(VR)的要求与标准PoL稳压器有很大不同。某些应用要求在小于1V的电压下为xPU提供超过1000A的电流。此时,必须控制好功耗,不然,系统很难稳定工作。
如何降低AI系统能耗,成为了产业难题。目前,降低AI系统能耗的思路主要有两种:一、降低AI系统核心处理器的能耗;二、优化电源管理系统,提高AI核心处理器电源管理的效率。然而,随着AI等新兴应用的普及,传统计算系统用到的AC/DC、DC/DC、多相电源控制器和DrMOS功率级组合等方案,效率已经达到天花板,需要更先进的电源管理方案。
02、服务器电源系统在演进
处理器的微型化导致了电源电压降低,但消耗的电流不降反升,使得功耗持续增加。低电压、大电流的发展趋势带来的问题之一是如何提升对负载波动的快速响应能力。
随着电压降低,电压的容许公差变得非常小。比如,为了避免处理器的误操作,若以±3%的精度提供磁芯电压,则电压为1V时的公差必须控制在±30mV。对于服务器专用电源,即使在超过1000A的大电流负载骤变的驱动条件下,输出电压也必须尽可能保持稳定。
在实际应用中,低电压、大电流发展趋势一直在持续,通常采用高频化和多相位化来应对。以更高的频率进行开关操作允许采用体积更小的组件(如电容器和电感器)来管理和平滑输入和输出电路中的能量流动。对于基于普通硅功率半导体器件的转换器,其典型开关频率为30~80kHz,在这样的频率下,可以采用被广泛认可的电容器,具有成本效益。然而,在这个频率范围之上,寄生效应就会导致过多的电阻损耗和自生热。
虽然提高频率对改善负载响应有很大作用,但也会极大地增加开关元件的损耗。此外,通过使用大容量外部电容器,可以在一定程度上抑制大电流应用的电压波动,但这会增加安装面积和电容器成本。
考虑到上述诸多情况,TLVR(Trans-Inductor Voltage Regulators)是目前应对低电压、大电流应用中快速负载波动的主流电路配置方案。该方案是让每个相位开关连接到一个带额外绕组的电感器上,然后将每个相位的绕组和补偿电感器串联成回路,以便同时为每个相位提供电流。TLVR能使处理器获得较高的瞬态响应性能,满足负载要求,而且电源电压几乎不会降低,同时降低电源损耗,可保持较小的输出电容值,从而减少安装面积和系统成本。
03、更多电感方案
在高性能计算系统,特别是AI服务器的电源管理系统中,电感方案越来越多,除了上述的TLVR,还有一体成型电感、芯片电感、超薄一体成型电感等产品。
芯片电感起到为芯片前端供电的作用,主要用于电压、电流转换,常见于电源管理芯片(PMIC)、FPGA供电电路中。在高性能计算系统中,芯片电感、电容、MOS管与驱动芯片共同构成供电电路,满足GPU和CPU的供电需求。
目前,主流的芯片电感采用铁氧体材质,但铁氧体饱和特性较差,随着电源模块的小型化和电流的增加,铁氧体电感体积和饱和特性已经难以满足高性能GPU的要求,近些年,出现了一种金属软磁材料电感,它具有更高的效率、更小的体积,能够更好地响应大电流变化。采用金属软磁材料的芯片电感,适用开关频率可达500kHz~10MHz。
还有一种芯片电感,它基于半导体薄膜工艺,采用光刻加工工艺,不同于传统的绕线电感和一体成型电感工艺,半导体薄膜工艺的最大特色是可以实现芯片电感产品整版生产,提高了生产效率。传统电源模块基于SIP工艺,将芯片与电感合封在一个封装基座上,将功率电感与封装基座一体加工,实现功率电感与封装基座的二合一。相比传统的SIP需要“芯片+电感+基座”,基于半导体薄膜工艺的方案只需将芯片与集成电感及其它器件合封,即可实现完整的电源模块和周边电路功能,进一步减小了电源模块的体积,同时提升了功率密度,降低了成本。
这种芯片电感采用了新的磁性材料,磁导率和饱和电流都很好,在6MHz频率下,电感的材料损耗占电感总损耗比例很低。
04、电容也很重要
在高性能计算的电源管理系统中,除了电感,电容和热敏电阻的更新换代也在进行中。
目前,AI服务器在整体高性能计算市场的占比仍较低,因此,还没有市调机构统计AI服务器对MLCC(片式多层陶瓷电容器)的消耗量,但是,就发展形势来看,无源器件分销商普遍看好电容,特别是MLCC在AI服务器中的应用前景,2024下半年将出现明显增长态势,MLCC规格、单价都将大幅提升。
在技术层面,计算系统处理器都需要电容配合工作,传统上,这些电容都采用钽或聚合物电容器。以减少对去耦电容的依赖,可以将一小部分II类 MLCC(例如X5R、X6S或X7R器件)直接放置在处理器附近。目前,有些厂商正在努力将铝聚合物去耦电容器嵌入到封装内的芯片载体中,与片上硅电容器一起工作,这样可以克服高性能处理器所面临的去耦挑战,并支持更高的转换器频率,未来可能高达10MHz。
05、无源器件厂商的机遇
前些天,在英伟达举办的GTC大会上,服务器代工大厂台达电表示,在AI服务器电源转换系统中,如何在电流快速飙升下,让电压保持在GPU工作的0.8V,电感扮演着关键角色,它要能在高电流、低电压状态下保持稳定工作才行。
搭载英伟达新款Blackwell架构加速芯片的AI服务器功耗高达1000W~1200W,电感用量较一般服务器增加2~3倍,同时,由于功耗明显增加,需要的电感规格更高,使得平均单价(ASP)与一般服务器相比,高出5~8倍。.另外,由于DDR5渗透率逐步提升,必须搭配更多、更好的电感。
AI服务器的功耗显著提升,为了改善瞬时响应性能,需要新增TLVR电感,每台AI服务器需新增5~10个,而TLVR电感的单价是一般电感的3~5倍。
不止最新的AI服务器,越来越多的高性能计算系统都需要更多、更好的电感。一般服务器仅升级CPU,电感用量就会显著增加,以Eagle Stream升级到Birch Stream为例,因为CPU功耗提升约50%,电感用量要增加50%~70%。
可见,对于各大无源器件厂商,特别是高品质电感企业来说,新商机就在眼前。目前,业界排名靠前的相关厂商包括TDK、国巨、顺络电子、台庆科、ITG和EATON等。
如前文所述,在高性能计算的电源管理系统当中,芯片电感的用量正在增加,这不仅对国际大厂是好消息,对中国本土相关企业来说,也将迎来提升产品品质和市占率的机遇期。中国芯片电感业起步较晚,在发展初期,技术研发和生产管理水平都落后于国际大厂,特别是TDK、村田、奇力新和太阳诱电这几家知名企业。最近几年,中国本土的顺络电子一直在发力,排进了全球前五位,此外,值得关注的本土芯片电感企业还包括铂科新材、麦捷科技、屹通新材、天通股份、东睦股份、横店东磁等。
06、结语
在高性能计算系统,特别是AI服务器的市场规模不断扩大的当下,对关键芯片元器件的要求越来越高,不止GPU和CPU这些高性能处理器,对电源管理系统,及其相关芯片和元器件的用量和品质要求也有显著提升。
作为电源管理系统当中不太显眼,但又不能缺少,且用量较大的电感和电容来说,越来越高的计算系统功耗,正是它们充分发挥效能和作用的舞台,相关新技术和新材料也有望不断涌现出来。
对于无源器件厂商来说,具有高品质产品的国家大厂依然会获得更好的商机,而对于中国本土相关企业来说,国内的巨大市场,给了它们足够的施展空间,有更多机会抢夺国际大厂的市场份额。