欢迎访问
端侧AI即将大爆发,本地运行大模型离不开这类芯片
2024-06-20 来源:贤集网
2748

关键词: 人工智能 AMD 英特尔

自生成式AI爆火以来,我们接触和使用更多的其实是所谓的云端AI,如OpenAI的ChatGPT、百度的文心一言等,他们都是部署在提供商的服务器上,用户通过网页或应用的程序等方式进行访问并使用,最重要的一点是他们都要联网才能使用。

而为了让生成式AI更接地气,一种叫做端侧AI的概念应运而生。相对于需要联网才能使用的云端AI而言,端侧AI可以将大模型(LLM)以轻量形式部署在本地,从而使搭载端侧AI的设备即便在断网情况下也能实现AI功能,与设备对话,提高工作及生活效率。

但是,就目前来说并非所有的设备都满足端侧AI的硬件条件,尤其是当微软和苹果接连发布Colipot+PC和Apple Intelligence平台和功能后,要求设备中必须有这样一块芯片,NPU。而什么是NPU,它在端侧AI中又能起到什么作用?



什么是NPU?

NPU是Neural Processing Unit(神经网络处理器)的首字母缩写。NPU 专用于运行与神经网络/机器学习/AI 任务相关的数学函数。虽然这些可以是独立的芯片,但它们越来越多地与更熟悉的CPU和GPU组件一起直接集成到片上系统 (SoC)中。

NPU有各种形状和尺寸,通常根据芯片厂商而略有不同。现在已有不同的型号的NPU出现在智能手机领域,比如高通在其骁龙处理器中安装了Hexagon,谷歌拥有用于云和移动Tensor芯片的TPU,三星则在自己的Exynos集成NPU。

这个趋势现在也在笔记本电脑和PC领域兴起。例如,最新的Apple M4内置了神经引擎,Snapdragon X Elite平台中采用了高通的Hexagon功能,AMD和英特尔已开始将NPU集成到其最新的芯片组中。

正如我们所见,NPU是专门为处理机器学习工作负载(以及其他数学繁重的任务)而构建的。通俗地说,NPU是一个非常有用的,甚至是必不可少的组件,用于在设备上而不是在云中运行AI。毫无疑问,如今人工智能几乎无处不在,将AI直接整合到设备中是这一过程的关键一步。

今天的许多人工智能处理都是在云中完成的,但由于几个原因,这并不理想。首先是延迟和网络要求,我们无法在离线时访问工具,或者在高峰时段可能需要等待漫长的处理时间。通过互联网发送数据也不太安全,尤其是在自己的设备上运行时。

简而言之,AI最好能直接在设备上运行。然而,人工智能任务的计算量非常大,在传统硬件上运行不佳。如果你有尝试在笔记本电脑上通过Stable Diffusion生成图像,你可能已经注意到了这一点。对于更高级的任务来说,它可能会非常慢,尽管CPU可以很好地运行许多“更简单”的AI任务。

解决方案是采用专用硬件来加速这些高级任务,而NPU在这方面无疑比CPU更高效,它们的性能通常以每秒数万亿次操作 (TOPS) 表示。说到TOPS,智能手机和早期的笔记本电脑NPU的额定值为数十TOPS。从广义上讲,这意味着它们可以加速基本的AI任务,例如相机物体检测以应用散景模糊或摘要文本。如果想运行大型语言模型或使用生成式AI快速生成媒体,将需要数百或数千TOPS范围内更强大的加速器/GPU。



生成式AI革新人机交互界面,端侧大模型应用有望迎来爆发

近年来,大模型不仅在对话式文本方面取得巨大成功,也在图像处理、音视频生成等多模态领域展现出强大的潜能。随着生成式AI在人们日常工作及生活中被广泛应用,数据处理和存储需求急剧增加,使得智能计算体系结构发生根本性转变。

大模型对人机交互界面产生了深刻的影响,生成式AI已成为人与终端设备的最新交互界面。在生成式AI加持下,从写作、编程、绘画到视频创作,多种模态的内容创作门槛正被前所未有地降低,人机交互的流程也被大大简化。

在杨磊看来,端侧设备的核心交互问题关乎入口,这是争夺用户时间、持续时长、资金投入的关键所在,也是业内竞争的焦点。以典型的端侧设备——手机为例,在本地设备上运行大模型已是兵家必争之地,各家手机大厂都在想方设法占据这一入口。

在此过程中,一方面,多模态模型正成为大势所趋;另一方面,针对不同的应用场景、设备或成本考量,众多厂商都推出了不同参数规模的模型。以智能手机为例,旗舰手机芯片算力可达40~50TOPS,中档手机的算力在10~20TOPS的范围内,而入门级手机目前尚未专门配备AI能力,更多地依赖于CPU的通用计算能力。

据杨磊预测,随着半导体技术的持续演进,旗舰手机的算力水平有望达到100TOPS,入门级手机也将从当前的无算力水平提升至5~10TOPS范围。预计两年后,不论是高价位段的手机,还是性价比优良的千元机,都有望具备本地部署AI大模型的硬件计算能力。

此外,在杨磊看来,除智能手机和PC等终端设备外,如今智能化水平不断提速的新能源汽车以及目前炙手可热的人形机器人也是大模型落地的硬件载体之一。在大会现场,杨磊列举了一些数字:目前智能汽车的算力已经能达到500TOPS左右,一些机器人方案也在按照这一算力规模进行相应的技术规划。

尽管AI大模型的应用日趋普及,比如手机上安装了Kimi、豆包、文心一言等诸多应用,但这些应用尚未达到杀手级应用的水平,实际上很多端侧硬件的计算能力已经领先于相关应用的发展。很多用户更多是出于猎奇心理来试用这类应用,并没有产生持续、频繁且高度黏性的使用需求。

“我们目前仍处于硬件先行、应用后发的阶段。安谋科技则希望结合自身独特的技术优势,打造软硬一体且极具竞争力的解决方案,推动AI大模型在端侧设备加速落地。”杨磊谈道。


芯片厂商积极布局异构算力

当前,CPU+GPU+NPU协同的混合算力架构已成为AI PC的算力基础。

其中,英特尔开发的XPU混合算力是代表性解决方案,其CPU+GPU+NPU异构方案,通过嵌入独立NPU的强算力性能大幅提升终端AI能力;基于XPU混合架构,英特尔推出了Meteor Lake第一代酷睿Ultra 处理器,叠加OpenVINO等工具链,开发者能够实现XPU三种算力的混合部署和调度;高通则在2023年10月发布了集成ARM CPU与AI引擎NPU芯片X Elite,针对AI性能进行优化,单NPU模块算力达到16TOPS、总算力达到75TOPS,支持AI PC运行百亿级参数本地大模型,首发厂商覆盖联想、戴尔、惠普等头部PC厂商;

AMD推出AI PC芯片锐龙8040系处理器,主要面向客户端和消费端PC设计,CES 2024上AMD则于2023年12月发布第一款集成NPU模块的桌面级CPU——Ryzen 8000G CPU,算力达到单NPU16 TOPS、总共39 TOPS;

苹果发布的M3图形处理器则在功耗减半的情况下,即可达到与M1相当的性能,而在峰值功耗下更可实现高达65%的性能提升,同时,具备16核CPU、40核GPU的M3 Max将可以被用于研发AI软件,性能表现出色。

总的来看,AI手机、AI PC有望成为未来手机和个人电脑的重要升级方向,而NPU则是AI手机、AI PC中最重要的硬件增量方向之一,值得重视。



端侧AI产业链受益

中信建投指出,端侧AI核心在于手机和PC,AI Phone和AI PC将开启新时代。

“从今年2月份举行的世界移动通信大会,高通展示了其手机端离线运行大模型,到5月份微软开发者大会高通展示其PC运行AI大模型,再到近期英特尔、联想等发布AI PC加速计划、发布首款AI PC等,可以看出,国内外厂商持续发力AI Phone和AI PC,端侧AI将走入新的时代。”

同时,AI PC核心升级在于芯片。

AI PC不同于传统PC的主要之处在于其SoC芯片中要有AI模块,通过AI芯片中的NPU等模块为硬件终端提供算力支撑,从而运行端侧AI大模型。过去PC芯片主要是以Intel为代表的x86架构芯片,AIPC的提出要求了SOC芯片有AI算力,在端侧AI推理能力方面,过去手机上就搭载了NPU,高通经验积累深厚,Intel的笔记本芯片则是CPU+GPU。生态上,Windows也开始全力支持ARM体系,自去年开始了多轮支持Arm架构芯片的操作系统更新,高通大概率会在PC市场上拿到部分份额。除芯片外,DRAM、计算模组等有望迎来新的升级与市场机遇。

此外,大模型向智能终端(边缘端)渗透,模型压缩和边缘侧计算性能提升是两大关键。目前从这两个方向上,都可以看到不错的进展预期,大模型在边缘端渗透初见端倪。这类场景我们认为率先会在手机、PC、智能驾驶、具身智能、元宇宙、工业控制等场景落地。

产业链角度,边缘AI核心在于引入边缘侧的AI能力,进一步增强边缘侧的算力能力、连接能力。重点包括AI芯片、算力/连接模组、边缘网关/边缘服务器/边缘控制器等硬件、AI算法/边缘计算平台等软件环节。从投资角度来看,建议优先围绕这几类产业链环节、兼顾业绩弹性优选标的。

中信建投强调,“我们看好端侧AI产业进展,尤其是AI Phone和AI PC领域,其已有相关产品落地,将传统PC、Phone结合上AI能力有望带动整个PC、Phone产业链复苏;通过将大模型赋能终端硬件,AI应用浪潮将有望开启。”



Baidu
map