大模型端侧部署正加速!AI PC等新物种热度暴增,企业对于AI加速卡的关注度也水涨船高。
但是AI PC等端侧设备中的AI加速卡如何做到可用、好用是一大难题,其需要兼顾体积小、性能强、功耗低才能使得端侧设备承载大模型能力成为现实。
近日,清华系AI芯片创企芯动力科技面向大模型推出了一款新产品——AzureBlade L系列M.2加速卡。M.2加速卡是目前国内最强的高性能体积小的加速卡,其强大的性能使其能够顺利运行大模型系统。
M.2加速卡的大小仅为80mm(长)x22mm(宽),并已经实现与Llama 2、Stable Diffusion模型的适配。具备体积小、性能强,且有通用接口的M.2加速卡成为助推大模型在PC等端侧设备上部署的加速器。
体积小、性能强、功耗低,端侧跑大模型三大关键
AI PC已经成为大模型落地端侧设备的一个重要载体。
从去年年底至今,AI PC的热潮正在涌起。前有英特尔启动AI PC加速计划、高通推出专为AI研发的PC芯片骁龙X Rlite、上周英伟达发布全新一代RTX 500和1000显卡,支持笔记本电脑等端侧设备上运行生成式AI应用……
根据市研机构IDC发布的最新报告,预估AI PC出货量2024年逼近5000万台,到2027年将增长到1.67亿台,占全球PC总出货量的60%左右。
AI PC这一新物种正在加速大模型的规模化落地。与此同时,拥有庞大参数规模的大模型也对端侧设备可承载的算力提出了更高的需求。
在端侧往往只有一个独立设备。以PC为例,作为人们日常生活、工作的常用设备,其体积并不大且足够轻便,因此需要AI加速卡足够小且不会因体积牺牲性能上的优势。以M.2加速卡的形式进入AI PC的市场就是很有优势的产品形态。
可以看到,当下大模型的发展路线不再唯参数论,越来越多参数规模小性能强大的模型出现,如开源的Llama 2模型系列参数在70亿到700亿不等,为大模型在端侧的落地提供了机会。
即便如此,大模型想要成功部署在端侧对于芯片玩家而言仍然具有挑战,需要其突破端侧设备有限的计算和存储能力,因此芯片玩家亟需找到芯片体积小与性能强大的平衡点。
李原谈道,端侧设备还有一大特点是,GPU是其最主要的元件。这背后的风险在于,企业全部围绕GPU来做设备,就会造成一旦产品的开发周期变长,其未来的开发路线会受到一定限制。由于边缘设备上接口的可选择性不多,很多设备需要针对不同的芯片进行接口定制,企业就需要承担接口受限的风险。
这些新的变化及需求为这家GPGPU创企带来了新的机遇。
GPGPU:提高模型训练效率的AI产业发展利器
算力的迅猛发展,离不开芯片、数据中心和云计算等产业链的完善,特别是GPU,作为三大算力芯片之一,已经是国家、产业高度重视的战略高地。其中,GPGPU架构凭借极强的通用计算能力,正在成为AI算力时代的最优解。
GPU的技术路线有多种,比如GPGPU、FPGA、ASIC等等,其中GPGPU 是人工智能领域最主要的协处理器解决方案,占据人工智能90%以上的市场份额。
GPGPU比其他路线具有更好的通用性,因此应用领域非常广泛,在科学计算、数据分析、机器学习、深度学习、密码学、图像处理等各种领域均起到重要作用。
通过利用GPU的并行处理能力,GPGPU可以加速这些领域中的计算任务,提高计算效率,缩短计算时间;尤其是在云端运行模型训练算法时,使用GPGPU可以缩短海量训练数据的训练时长,减少能源消耗,从而进一步降低人工智能的应用成本,这对人工智能领域的发展是非常关键的。
当下,GPGPU芯片在火热的AI市场中已经供不应求。未来几年内,中国人工智能芯片市场规模将保持年均40%至50%的增长速度,GPGPU通用性好和软件生态系统完善的优势会进一步展现出来,拥有更加广阔的市场前景。
技术着眼深度,走出自己的道路
我国芯片产业较其他国家起步较晚,在李原看来,国产替代的时代已经过去了。
“国外企业已经形成了技术壁垒,我们不应该去做一个纯国产替代的产品,尤其在芯片这个竞争激烈的行业,很多龙头企业沉淀多年,靠追赶是很难的。”李原表示,“我们要在某一个方向上进行突破,走出一条自己的路子。”
就芯动力而言,目前虽然广度不足以媲美行业龙头,但在深度方面的积累,已经超过当前技术领先的公司。李原举例,芯动力产品从效率方面来说,比当前任何一款类似的芯片效率都要高,“我们的14纳米的芯片甚至比某国际知名品牌的7纳米A100的芯片效率更高,这让我们在某些产品上具有了绝对竞争优势”。
“作为一家技术型初创公司,技术和创新是为商业服务的。”李原认为,“客户的需求我们要仔细分析,找出真正的痛点并加以解决。”当前,芯动力的产品已经在边缘计算领域、银行、通讯领域、医疗超声波方向、AI方向的高性能计算等领域实现应用。
当前,芯动力研发团队核心成员有平均年限超15年的资深半导体从业背景,且均来自英特尔、高通、德州仪器等知名半导体企业,研发人员占比超过80%,每年的研发投入超过90%。
基于深厚的技术积累和完善的人才储备,芯动力核心成员研究并提出了在并行计算的领域里的可重构并行处理器架构(Reconfigurable Parallel Processor)。该架构不去涉及通用计算领域,而是专注于并行计算领域。可以用基于CUDA的高级语言进行原代码编程,利用自有的指令集作为底层汇编,使得在高性能计算领域内最广泛使用的语言进行支持。
具体来看,RPP创新架构主要具备三大优势:一是更强的处理能力。RPP设计的计算中心用芯片可以达到目前最先进处理器10倍的处理能力。英伟达最新推出的GPGPU,GP100是目前芯片面积最大,计算能力最强的芯片。它已达到了600平方毫米芯片面积,300W功率。RPP的设计目标是10倍于GP100的计算能力,降低服务器的成本且提高服务器性能。
二是更短的处理迟延。RPP的计算方法和GPGPU的计算架构非常不同,这样的架构使得计算的处理时延低,并使得计算平台能够应用在实时的处理计算之中。这在要求低迟延的系统,比如通讯系统中可以得到良好的应用。
三是低功耗。在许多系统之中,低功耗成为了主要的性能指标,比如说手机,平板电脑等,电池的寿命往往非常有限,低功耗而高性能的计算,成为了必需。而在计算中心之中,服务器的功耗是散热的主要部分。1/10的功耗,将意味着1/10的电费。这意味着大大降低运营成本。
总的来说,这款芯片可以帮助客户加快Time to Market的步伐,降低他们的开发周期和产品成本,实现低成本及快速的迁移。
据悉,目前以RPP技术研发的第一代RPP-R8芯片已经成功流片,基于全新自研架构,RPP-R8是一款为并行计算设计的高端通用异构芯片。