欢迎访问
ARM最强CPU路线图再更新,边缘AI才是未来主要收入市场
2023-09-15 来源:贤集网
626

关键词: ARM 人工智能 芯片

2022年9月,Arm正式宣布推出了全新的Neoverse V2平台(代号“Demeter”)。Arm称,该平台可满足大型互联网和 HPC 客户的需求,并在不增加功耗和面积的情况下,进一步推动云工作负载性能。

在不久前的Hot Chip 2023活动上,Arm披露了关于Neoverse V2的更多细节。目前英伟达(NVIDIA)应该是Neoverse V2平台的第一个客户。



Neoverse V2:IPC性能提升了13%,拥有4个128位SVE2矢量引擎

Arm 于 2020 年 9 月将其 Neoverse 核心和 CPU 设计分为三个系列,分别为V系列高性能核心(具有双倍向量引擎)、N系列核心(专注于整数性能)、 E系列核心(入门级,重点关注能源效率和边缘的芯片)。近几年来,该路线图已经扩展和更新了很多次,最新的路线图(带有 N2 平台添加的 CSS 子系统变体)已在 Hot Chips 上展示:



Arm 院士兼首席 CPU 架构师 Magnus Bruce 在 Hot Chips 上介绍了 V2 平台,谈论了该架构以及与 V1 平台相比的变化。下面这张图表很好地总结了这一点:



“这个管道的基础是一个预运行分支预测器,这个分支预测器充当指令预取器,它将提取与分支解耦。”Magnus Bruce 解释道:“大型分支预测结构可以覆盖非常大的实际服务器工作负载。我们使用在发布后读取的物理寄存器文件,允许非常大的发射队列,而无需存储数据。这对于解锁ILP(指令级并行性)是必要的。我们使用低延迟和专用L2缓存、具有最先进的预取算法的低延迟L1和专用L2高速缓存以及积极的存储-加载转发,以保持内核具有最小的气泡和停滞。来自系统的动态反馈机制允许核心调节攻击性并主动防止系统拥塞。这些基本概念使我们能够提高机器的宽度和深度,同时保持快速预测失误恢复所需的短管道。”

重要的是,V2是基于新的Armv9指令集的实现,旨在颠覆该架构,与十多年来定义Arm芯片的许多代Armv8架构相比,它带来了性能、安全性和可扩展性的增强。

V2芯片的架构调整是微妙的,但显然是有效的。但同样明显的是,其13%的性能改进与Arm早在2019年就设定的30%的每时钟指令性能(IPC)改进目标相去甚远。

借助 V2 内核,Arm 架构师又添加了两个单周期算术逻辑单元 (ALU),并增加了问题队列的大小,并将谓词运算符的带宽加倍,这些调整加上其他一些调整,又增加了 3.3%核心性能在 2.8 GHz 主频下归一化。

与 V1 核心一样,V2 核心有两个加载/存储管道和一个加载管道,但表后备缓冲区 (TLB) 上的条目增加了——从 40 个条目增加到 48 个条目——并且各种存储和读取队列也增加了变得更大。

这一变化和其他变化使 V2 核心性能又增加了 3%。


除了英伟达之外,还有谁会采用Neoverse V2?

近年来,随着云计算及人工智能技术的快速发展,头部的大型服务器及云服务提供商都纷纷开始针对其工作负载大量定制或者设计各类处理器,但是设计一款好的处理器确实很困难,这也使得Arm面向云端的处理器IP大受欢迎。

据介绍,Neoverse V2 平台(代号“Demeter”)配备最新的 V 系列核心和产业广泛部署的 Arm CMN-700 mesh 互连技术。Neoverse V2 将为云和 HPC 工作负载提供市场领先的整型性能,并引入若干 Armv9 架构安全增强功能,是迄今为止 Arm 为服务器设计的最好的核心。

这也是为什么英伟达(NVIDIA)选择了Arm Neoverse V2内核及其他组件打造的72核的名为“Grace”服务器CPU,它是英伟达系统架构中不可或缺的一部分,可支持传统HPC仿真和建模工作负载的全CPU计算,并提供辅助内存和计算能力。凭借四个128位 SVE2 矢量引擎等,Demeter核心可以运行经典的 HPC 工作负载以及某些 AI 推理工作负载,甚至可能是在某些情况下重新训练人工智能模型。如果设计中可能有 16 到 256 个内核,那么触发器当然可以堆叠起来。

除了英伟达之外还有谁会在他们的服务器CPU设计中使用 Neoverse V2平台?

AWS 很可能会在其未来的 Graviton4 服务器处理器中采用 Neoverse V2 ,并在其当前的 Graviton3 处理器中使用代号为“Zeus” 的Neoverse V1 内核。



目前尚不清楚谷歌在传闻中正在开发的两个定制 Arm 服务器芯片中使用了什么内核?传闻其中一个是与 Marvell 合作,另一个是自己的团队自研,很可能是使用了Neoverse V2内核。

Ampere Computing 已在其 192 核“Siryn”AmpereOne 芯片中从 Arm 的Neoverse N1 内核切换为自己的内核(我们称之为 A1)。

印度高级计算发展中心 (C-DAC) 正在为 HPC 工作负载构建自己的“Aum”处理器,它基于Arm的Neoverse V1核心。

富士通、Arm 和日本 RIKEN 实验室联合为“Fugaku”超级计算机使用的48 核 A64FX 处理器打造的定制 Arm 内核中的 512 位向量可以被视为一种Neoverse V0 核心在于 SVE 设计最初是为 A64FX 创建的。

阿里巴巴正在其自主研发的 128 核倚天710处理器中使用 代号为“Perseus”的Neoverse N2 核心,如果它认为需要在标准服务器中支持更多向量和矩阵数学,则可以在后续倚天芯片中切换到Neoverse V2 核心鉴于人工智能算法的使用越来越多,这些算法对此类数学运算的要求很高。此外,华为海思在其 64 核鲲鹏920服务器芯片中也采用了Arm的 Neoverse“Ares”N1 内核,出于同样的原因,它也对升级Neoverse V2核心有需求。


Arm发布第五代GPU架构

5月29日,Arm宣布推出了2023全面计算解决方案(TCS23)。该方案提供了一整套针对特定工作负载而设计与优化的最新IP,可作为一个完整系统无缝地协同工作,从而满足日益增长的移动用户体验需求。

Arm高级副总裁兼终端事业部总经理 Chris Bergey介绍称,TCS23包含了基于全新第五代GPU架构、可实现终极视觉体验的全新Arm Immortalis GPU,助力 Arm面向下一代人工智能(AI)保持性能领先的全新Armv9 CPU 集群,以及可为数百万Arm开发者提供更易访问软件的全新增强技术。

Arm今年推出的最新GPU产品采用了全新的第五代GPU架构,该架构是Arm迄今为止最高效的GPU架构,重新定义了部分图形管道,以优化内存带宽,从而让总体系统效率与功耗优化高达14%,使下一代游戏和实时 3D 应用成为可能,同时带来更顺畅、并与 PC 端和游戏主机媲美的游戏体验。

延迟顶点着色(Deferred Vertex Shading, DVS)是第五代 GPU 架构新引入的图形功能,可重新定义数据流,有助于合作伙伴扩展核心数量,达到更高的性能水平。DVS 的优势已经在包括《原神》和《堡垒之夜》等许多流行游戏中得到体现。

此次推出的首款基于第五代架构GPU——Immortalis-G720,则专为旗舰智能手机而设计。它与上一代产品相比,其性能和能效分别提高了15%,系统级效率更跃升了40%,从而带来更高质量的图形渲染,实现更身临其境的视觉感受。

同时,Arm 也推出新的Arm Mali-G720 和 Mali-G620,旨在将高端移动图形功能快速地推向更广大的消费终端市场。


Arm的机会在边缘?

总之,Arm在AI领域的未来业务收入,不太可能像英伟达一样,来自训练大数据模型所需的大量芯片。

与其相反,Arm更有可能成为边缘AI领域的主要参与者,也就是在智能手机等设备上执行的AI过程,而不是在ChatGPT等云端执行AI。



为了实现这一点,智能设备需要采用低功耗但高性能的芯片,能够执行AI应用所需的计算。Arm正在为用户设计这些芯片架构。

Counterpoint Eesearch研究总监Peter Richardson说:“如果在智能手机或汽车上运行AI系统,需要优化AI模型以在本地运行,这些CPU几乎肯定是基于Arm的架构。”

Arm在其IPO文件中表示,其设计的CPU可以运行AI工作负载,目前市场上的每款智能手机都能有效运行AI推理应用,例如语音识别、图像识别等。

然而,Radio Free Mobile创始人Richard Windsor认为,Arm的收入不太可能在3-5年内从AI带来的好处中受益。

他表示:“软银希望将Arm作为一家像英伟达一样的AI公司对外推销。我是在终端设备上运行AI的坚定支持者,从长远来看,这对服务提供商来说具有非常大的经济意义。但是目前,Arm还没有获得这些收入。”



Baidu
map