欢迎访问
信息爆炸时代,CPU已经不够用了,更多“PU”正在路上
2023-10-09 来源:贤集网
786

关键词: 英特尔 AMD 芯片

随着技术的发展,数据量的爆炸性增长,到2025年,全球生成和消耗的数据总量预计将超过180ZB。而计算机的核心部件——中央处理器(CPU)分析数据的能力却有点力不从心,导致数据处理缓慢且低效。传统的CPU为了满足多任务处理、高效能和节能要求,变得越来越复杂。在这个高速发展的时代,我们不能再依赖单一的CPU来完成所有的工作。为此,各种特定的处理单元(PU)如雨后春笋般涌现,其目标就是“瓜分”CPU的任务,人多力量大,各司其职,优化计算效率。


GPU成就英伟达霸主之路

GPU成为AI计算的标配,其中最大的赢家非英伟达莫属,在AI计算领域英伟达的GPU几乎占到市场的绝大部分,英特尔和AMD等芯片巨头也几乎都错过了这一波AI浪潮的红利。



2006年英伟达推出CUDA,带来了灵活便捷的GPU编程手段,这为使用GPU完成AI计算创造了良好的条件。2014年英伟达发布cuDNN V1.0深度神经网络加速库,并集成进了Caffe等AI框架中,进一步为基于英伟达GPU的AI计算提升性能和易用性等,使得AI开发和研究人员可以更加专注于神经网络结构的设计等。2016年英伟达推出的Pascal架构GPU产品,已经开始专门为AI计算场景,特别是推理计算场景,做了许多的定制和优化,能更好的满足AI计算的需求,此外推出NVlink单机多卡的互联技术,增加了GPU之间通信的带宽,也加速了多卡并行计算的效率。2017年英伟达在Volta架构系列GPU中引入TensorCore,使得英伟达GPU产品在AI计算的训练场景的性能继续提升。2020年英伟达又推出新一代Ampere架构的GPU产品,在算力和性能等又大幅提升。

目前在AI计算场景下,英伟达GPU已经成为最主流的选择,从整个发展过程中可以看到英伟达在软硬件方面的所做的努力也密不可分,并且从2014年开始英伟达在AI方面每一次布局都刚好恰到好处。CUDA的推出可能为2011年前后发现GPU在AI计算中10-60倍的加速效果创造有利条件;2014年推出的cuDNN,并集成进Caffe等AI框架,在软件层面进一步增加了英伟达GPU的易用性等;2016年开始直接在芯片层面全面支持AI计算场景需求,后续的产品在算力和性能等方面的提升正好又迎合了AI技术和产业发展的大趋势。

再看另外两家芯片巨头英特尔和AMD,这两家都有非常强大的实力,按理说应该也能在这一波AI浪潮取得巨大红利,但事实上却并没有。当然因为AI的发展带动CPU采购肯定也给英特尔和AMD带来了不少收益。过去10年中,英特尔并没有专门针对AI计算推出相应的产品,不论学界还是业界有AI方面新的研究成果,英特尔可能都会跟进在CPU上进行一些优化,声称在GPU上的性能只比在CPU上快2-3倍左右,并没有像其他地方所说的几十倍上百倍的效果。在AI计算效率等方面,英特尔在CPU上优化后确实能够缩小与GPU的差距,但这种优化的思路在业界并没有太多的跟随者,主要是优化工作本身的门槛相对较高。

AMD在过去十多年中CPU一直被英特尔压着,无暇顾及GPU市场的更多需求,虽然AMD的GPU在游戏市场也不错,但在AI计算方面始终没有形成气候。当然2018年前后AMD新架构的CPU产品面世之后,最近几年大有反超英特尔的架势,不久前AMD推出的Instinct MI100的GPU产品不知道是否会在AI计算领域挑战英伟达的地位,让我们拭目以待。


AI成就GPU,但GPU还不是AI的完美答案?

实际上,GPU并不是为AI所生的,它只是解决AI算力需求的一种方案,有没有更好的?答案是肯定的,只是还不知道究竟谁是颠覆GPU的下一个芯片主角。

一位国产GPU厂商的GPU产品设计负责人告诉《中国经济周刊》 ,芯片是算力的基本构成,核心的计算都运行在芯片上。整个硬件的逻辑是芯片以板卡或者其他算力卡的形态,部署在服务器中,服务器安置在机柜中,大量机柜组成数据中心。大模型的崛起,毫无疑问给芯片产业带来了一个巨大的潜在市场,也带来了很多技术要求,特别是对于芯片的单卡算力性能、互连能力等关键性能指标都提出更高的要求,因此需要市场开发更强的芯片产品。

这位负责人认为,GPU成为主流是因为AI发展的初期,能够获取的最适合的芯片架构就是GPU,因此有先发优势。但GPU的核心痛点在于芯片制造技术追不上算力需求的增加,也就是常说的摩尔定律走到了尽头。目前GPU芯片所用的最先进制程是4nm~5nm制程,已经非常逼近摩尔定律的物理极限了,未来几乎无法再通过制程的升级来提升芯片性能。

此外,该负责人表示,传统的GPU还保留了不少不需要的图形运算功能,使得整个芯片的计算效率并不是最高,这也是GPU的劣势。其他主流的AI芯片解决方案,也都还不完美,比如针对AI运算开发的专用芯片(ASIC)方案,虽然计算效率更高,但通用性较差。

“未来最有希望实现突破的还在于更新的封装技术 (比如3D封装)、更新的材料等方式,尝试突破摩尔定律。”该负责人说。

汪波从芯片架构原理的角度,做了进一步的解释。他表示,受制于其架构本身,用GPU解决AI算力并不完美,毕竟GPU最初并不是因AI而生的。此外,GPU的计算和存储是分开的,需要在计算和存储之间来来回回地调用数据,这种搬运数据消耗的能量是计算的10倍。而且GPU很多时候是在等待数据过来再进行计算,因此,GPU的计算效率并不高,而且功耗非常大,GPU的强大算力是要付出巨大成本的。



“在芯片设计中,一直在寻求PPA折中,即性能(Performance)、功耗(Power) 和面积 (Area)的平衡点,因为三者不能同时达到最优。性能和功耗一直是一对矛盾,而面积越大,芯片成本越高。”汪波说。

汪波还表示,实际上,学术界和科技公司的研究者们都在研究更适配人工智能的芯片,采用新的原理和新的材料。比如做存算一体的芯片,在存储器内部去完成计算,不用再搬运数据,这样就能实现功耗更低但算力更大。“目前,虽然还在探索阶段,但好消息是在这个领域,中国和世界同步的。”他说。

还有一个思路就是改变芯片的冯诺依曼式架构,模拟人脑数据处理方式的神经形态芯片。“神经形态芯片已经发展了几十年,虽然目前算力还没有办法跟GPU去PK,但如果其算力能达到GPU的一半,就可能凭借能耗和成本优势异军突起。”汪波说。

彭虎也分析称,GPU具有强大的并行计算能力和高效的浮点运算能力,且属于通用芯片,能够较好地满足各类AI算法要求,但也存在较高功耗和较低算力利用率的短板。除了GPU,AI芯片还包括FPGA和各类ASIC方案。FPGA属于具备可编程硬件结构的集成电路,其可编程性和灵活性可快速适应不同AI算法要求,但也存在高功耗的问题。ASIC属于专用芯片,通过算法固化实现更高的算法利用率和能耗比,但开发周期较长、灵活性较弱。

“我们认为,目前GPU仍是较好满足AI大模型、支持多模态的成熟的一站式解决方案,ASIC以其高性价比、高能耗比等优势将在未来AI市场中占据一席之地。”彭虎说。

实际上,能耗问题已经是算力发展乃至AI发展的重要瓶颈。北京智源人工智能研究院副院长兼总工程师林咏华告诉《中国经济周刊》 记者,一个百亿级别大模型仅仅训练消耗的电费每天都要在10万元以上。

“超过千亿级别的大模型,训练需要1000~2000张A100的卡,硬件成本约5000万美金,还需要投入人力、电力、网络支出等,一年至少5000万美金到1亿美金成本。”昆仑万维CEO方汉曾表示。

一家国内头部AI算力供应商的负责人告诉 《中国经济周刊》 记者,一个传统数据中心,电费要占运维总成本60%~70%。而每耗费一度电,却只有一半用在了正事 (计算)上,其他则浪费在散热上。因此,新型数据中心一般会采用液冷技术,这样可以比采用风冷节省30%以上的电费。

全球大型互联网公司都在想尽各种办法解决散热难题,为了降低能耗,他们把数据中心埋在山里(腾讯)、泡在湖里 (阿里)、扔进大海(微软)、拉到北极(Meta)……


为数据处理而生的DPU

有了专门处理图形的GPU之后,还不够。在数字化时代,需要有针对数据处理而生的处理器,于是数据处理单元(DPU)应运而生,DPU也被称为是数据中心的第三大计算支柱。DPU 与 CPU 和 GPU 配合使用,可增强计算能力并处理日益复杂的现代数据工作负载。

DPU是专门设计用来处理大量的数据和信息。它可以有效地处理和分析数据,提高数据中心和云计算平台的性能。根据英伟达的说法,DPU应该能完成以下三大项任务:

卸载:从服务器CPU接管基础设施任务,以便更多的CPU能力可用于运行应用程序。

加速:使用DPU芯片中的硬件加速,比CPU更快地运行基础设施功能。

隔离:将关键数据平面和控制平面功能移至DPU上的单独域,既可以减轻服务器CPU 的工作,又可以在CPU或其软件受到损害时保护功能。

迄今为止,许多 DPU 开发都是针对超大规模的。展望未来,DPU 在数据中心和企业网络其他地方的使用预计将会增长。一种可能实现的方式是将 DPU 技术与网络交换机相融合——AMD Pensando 将这种技术组合称为“智能交换机”。“我们认为智能交换机是企业吸收 DPU 技术的最简单方法,因为它可以让他们淘汰旧设备,并为他们的网络带来重要的技术和规模,” AMD Pensando 网络技术和解决方案小组首席商务官 Soni Jiangdani 表示。



由于人工智能、机器学习、深度学习、物联网、5G 和复杂云架构需求的增长,DPU市场稳步增长。随着对数据密集型应用程序的需求不断增加,计算架构将不断发展,从而需要更快、更高效、更安全的数据处理。DPU市场市场上涌现了不少芯片玩家,主要供应商包括国外的英伟达、Marvell、Fungible(被微软收购)、Broadcom、Intel、Resnics和AMD Pensando,国内还有中科驭数、芯启源云豹智能、云脉芯连等等。

根据Allied Market Research 的一份报告,预计到 2031 年,全球数据处理单元市场将达到 55 亿美元,2022 年至 2031 年的复合年增长率为 26.9%。因此,DPU 可能会从今天的可选组件转变为下一代计算的必要行业标准。


爆炸性增长的视频,需要VPU

随着视频内容的普及和人工智能技术的飞速发展,视频处理单元(VPU,Video Processing Unit)成为了当前科技领域的一颗新星。多年来,英特尔的CPU+软件的视频解码/编码方案一直主导着流媒体市场,但是随着视频流媒体对高质量视频的需求不断增长,CPU将不再具有经济价值,而且会消耗太多的能耗和空间。于是,VPU这种专门用来处理视频的芯片开始兴起,他们旨在释放CPU的庞大劳动力。

VPU(视频处理单元)是专门设计用来处理视频任务的,它可以高效地处理视频编码和解码、图像处理和机器视觉等任务。通过将这些任务从CPU或GPU上卸载,VPU可以提高系统的总体效率和性能,同时也减轻了CPU或GPU的负担,使它们可以专注于其他任务。而且这样的VPU通常还具有高性能、低功耗和低延时等多个优势,据SemiAnalysis对VPU芯片厂商镕铭微电子(NETINT)的分析,相比于CPU和GPU,VPU的密度和功耗是CPU和GPU无法比拟的,VPU的出现可以说是为视频行业应用带来了前所未有的加速计算能力。

当下4K、8K等高清视频技术的广泛应用,使得视频处理的计算负担持续上升,这使得高效能的VPU成为行业发展的必备工具。目前包括谷歌、Meta、字节跳动和腾讯等互联网巨头均已经瞄上这颗芯片。与此同时,AMD在今年4月,发布了一款用于数据中心的新型专用媒体加速器和视频编码卡——Alveo MA35D,英特尔则是将VPU集成到其14代酷睿Meteor lake处理器中。除了云和数据中心之外,终端也已成为视频及游戏的主要载体,手机厂商愈发追求视频或影像质量。对此,vivo/小米以视频芯片为自研切入点,如Pixelworks/逐点半导体这样的第三方视频芯片供应商也开始迎来发展契机。

未来,视频处理芯片市场预计将继续增长,特别是在边缘计算、物联网 (IoT) 和5G通信领域。高效和低功耗的视频处理芯片将成为这些应用领域的关键组件。


更多新的“PU”正在路上

一家成立于2018年的以色列的初创芯片企业NeuroBlade,开发了一种专用处理器架构,他们将之称为是SPU(SQL处理单元)。该公司的目标是成为“数据分析领域的 Nvidia”。SPU主要是用来加速SQL指令处理,该公司CEO表示,通过使用专门设计的处理器加速SQL处理,可以实现端到端SQL分析加速。在部署方面,该芯片通过主机服务器的PCIe总线插入,能够透明地接管SQL相关处理,而无需修改主机应用程序软件。

SPU支持常见的列式文件格式。当一个查询请求从查询引擎发送时(也就是从数据库管理系统中发出查询请求),SPU可以直接访问和处理存储在本地存储设备上的数据文件。在处理完数据文件后,SPU会将处理结果以原生查询引擎布局的形式发送回查询引擎。

NeuroBlade公司正在与多个大型超大规模提供商进行谈判,并已与一家公司赢得了数千张SPU卡的合同。如NeuroBlade还与戴尔公司合作,在PowerEdge服务器中分销SPU卡产品。据他们称,超大规模企业使用这一SQL处理单元 (SPU) 来卸载运行分析工作负载的x86 CPU,可以获得100倍或更多的工作加速,每年可以节省数百万美元。在NeuroBlade的客户中,还有存储类客户,铠侠已经在其CM7系列企业NVMe SSD中成功配置了其 NeuroBlade硬件增强型查询系统 (HEQS),据他们称,可以使客户能够充分发挥高性能 SSD 吞吐量的潜力,从而将查询性能提高高达100倍。



Baidu
map