一个 GPU 总需要一个 CPU,但 CPU 的选择已经不再单一,GPU 的功能也不再“简单”,曾经稳固的关系,不再是单纯的合作。
四月份,英伟达发布了采用 Arm 架构的首款数据中心 CPU Grace 引发广泛关注。本月,外媒 Tomshardware 报道,像 CPU 一样总需要一个 CPU 的谷歌自研视频编解码处理单元 Argos VCU,预计可以替换 3000-4000 万个英特尔 CPU。
依赖 CPU 的 GPU 和 VCU 为什么会有替代 CPU 的势头?芯片巨头与互联网巨头间的竞合关系,是如何加深的?
CPU 市场的双重变化
回答 CPU 与其它依赖 CPU 处理器关系变化之前,不妨先了解 CPU 市场本身的变化。在很长一段时间,由于 CPU 的性能已经足够满足包括 PC 在内的各种应用需求,再加上内存和带宽成为 CPU 性能提升的瓶颈。CPU 王者英特尔在提升 CPU 性能动力不足,以及先进制程工艺进展不如预期的情况下,连续多代 CPU 性能提升幅度不大,被称作“挤牙膏”。
英特尔在领先位置缓慢前进的几年间,AMD 凭借 Zen 架构的迅速迭代以及台积电先进制造工艺的加持,性能迅速接近甚至超越英特尔酷睿和至强 CPU 的性能。“AMD Yes”表达了消费者对于 AMD 产品迅速提升的认可。
英特尔和 AMD 的 x86 CPU 是 PC 时代的标志,然而在性能提升陷入瓶颈,以及先进半导体制程提升难度越来越大的背景下,两家最具代表性的 CPU 公司表现相差甚远,并且开始在市场份额上有所体现。
依旧有领先优势的英特尔感受到了老对手带来的竞争压力,因此无论是产品性能提升还是市场策略都更加积极。然而,英特尔在服务器 CPU 市场除了要面临同为 x86 阵营 AMD 的竞争,Arm 阵营的公司也来势汹汹。
Ampere 董事长兼首席执行官 Renee James 说:“我们知道未来将与过去不同,因为软件环境变了,不再是关于 PC 和 PC 服务器的业务,而是围绕云和云边缘。现在,需要另一种不同的微处理器。”
Ampere 基于 Arm Neoverse N1 内核,推出了 80 核的 Altra CPU 和 128 核 Altra Max CPU,持续刷新服务器 CPU 核心数的纪录,突出与 x86 CPU 相比更高的核数以及在云原生市场的优势。
同样是强调差异化优势,英伟达的 Grace 主要是面向数据密集型 HPC 和 AI 应用。英伟达首席执行官黄仁勋称基于 Grace 的系统与英伟达 GPU 紧密结合,性能将比目前最先进的 NVIDIA DGX 系统(在 x86 CPU 上运行)高出 10 倍。
无论是 Ampere 还是英伟达,其差异化高性能 CPU 的基础都是 Arm。而 Arm 也在今年三月推出了面向未来十年的新一代架构 Armv9,Arm 希望将其架构在智能终端的成功扩展到高性能计算市场,包括边缘、云端及 5G 等。基于 Armv9 架构的 Neoverse N2 正是 Arm 向高性能市场拓展的关键产品。
整体看来,已经在 PC 和服务器 CPU 市场大获成功的 x86 阵营正开始一场激烈的竞争。此时,面向云计算、AI 的 Arm 架构 CPU 迅速发展,要在新兴市场分一杯羹。未来,RISC-V CPU 会以怎样的方式参与到 CPU 市场的竞争,也让人充满期待。
异构时代,定制 CPU 优势突显
CPU 市场发生双重变化的一个关键因素是市场需求,在市场的驱动下,CPU 的价值也更多体现在异构系统中。英伟达在今年四月发布 Grace CPU 的时候,也同时将其数据中心产品路线图升级为 GPU+CPU+DPU 的三类芯片,逐年飞跃,一个架构的策略。在这个新的策略中,GPU 和 DPU 性能的充分发挥依旧需要有 CPU 强大的性能,也就是说,CPU 计算和控制的基础和核心作用没有改变。
变的是新兴应用对于算力的大幅快速增长,异构系统的性能是更重要的关注点。“目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少。”黄仁勋说,“新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。”
这也是英伟达推出 DPU,并且将 DPU 归入其数据中心产品路线图的原因。“现代超大规模云技术推动数据中心从基础上走向了新的架构,利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生 AI 服务产生的巨大计算负荷。BlueField DPU 正是为此而生。”黄仁勋此前表示。
异构组合才能更好满足未来市场的需求,这也已经是业界共识,从英特尔拥有 CPU+GPU+FPGA+AI 加速器的完整芯片组合,到英伟达宣布收购 Arm,再到 AMD 宣布收购赛灵思,芯片巨头们都希望通过不同类型的芯片组合满足云计算、AI 等计算更加密集应用的需求。
在这种变化中,CPU 的选择也会更加多样。Computex 21 上,黄仁勋在回答提问时表示:“未来的世界非常多样,当然也会有不同的 CPU,包括 x86 架构和 Arm 架构,大型 CPU 和小型 CPU,面向边缘、数据中心、超算等 CPU,我们的策略是在我们服务的市场,选择最合适的 CPU,我们会继续支持 x86 CPU。”
面向特定的市场,并非所有 CPU 都合适。因此在不同的市场需要不同的 CPU,比如在笔记本电脑市场,英特尔的 x86 CPU 是不错的选择,在 DGX 系统中,AMD 的 CPU 表现非常好。在 5G 基站中,基于 Arm 的 Marvell CPU 是一个理想选择。在云计算市场,Ampere 的 CPU 性能出色。英伟达的 CPU 为的是解决 AI 推荐系统和自然语言理解这样大型 AI 模型的计算挑战。
“我相信未来既需要通用 CPU,也需要定制 CPU。支持 Arm 和 x86 对我们来说都是很好的战略。”黄仁勋表示。
CPU 与 GPU、VCU 更加微妙的竞合关系
既有自研的 Arm CPU,也支持 x86 CPU,让英伟达与 CPU 巨头间的竞合关系中竞争的成分更高。在 PC 时代,芯片巨头间的竞争,是 CPU 公司或者 GPU 公司之间的竞争,CPU 与 GPU 公司以合作为主旋律。
迈入 AI 时代,英伟达凭借其 GPU 硬件加上通用的软件,成为了 AI 芯片公司的代表,在 AI 市场成为了英特尔强大的竞争对手。面向市场空间巨大的云计算和 5G 市场,英伟达的 GPU 依旧离不开英特尔和 AMD 的 CPU,但同时英伟达会更加注重 Arm 架构 CPU 的开发,芯片巨头间的竞合关系进一步加深。
这种关系变化更明显的转变在芯片巨头与互联网巨头之间。比如文章开头提到的谷歌 Argos VCU,多年来谷歌都使用英特尔 CPU 中的视频编解码引擎,但随着视频内容越来越多,以及分辨率越来越高,谷歌需要性能更强但是功耗和成本更低的芯片。
定制的专用芯片性能往往会比通用芯片更强,通过自研核心功能加上集成第三方 IP,能在规模应用中实现优势。谷歌表示,与英特尔 Skylake 驱动的服务器系统相比,其基于 VCU 的设备在性能、TCO(总体拥有成本)、计算效率方面实现了 7 倍(H.264)和高达 33 倍(VP9)的提升。
CPU、GPU 和配备 VCU 的系统离线双通道单输出 (SOT) 吞吐量
除了 VPU,谷歌也已经通过自研的 TPU 减少了购买 CPU 和 GPU。谷歌与芯片巨头们的关系,不再单纯是紧密的合作伙伴,在特定市场也成为了竞争对手。
对于这种转变,英特尔公司副总裁兼中国区总经理王锐此前表示,“竞争对手可以在某一参数或者是在制程上缩短与我们的差距。但要打造整个架构,在计算和 AI 的各个方面都要能够赶超英特尔,不是那么容易的事情。”
这是芯片巨头应对技术、市场变化的自信和底气,当然,芯片巨头们也需要更多地考虑与自研芯片的互联网巨头们的关系。
不要忽略,无论是芯片巨头们之间的竞争,还是芯片巨头与互联网巨头们之间关系的变化,本质上除了市场和应用变化的驱动,还有成熟的芯片产业链,包括成熟的设计工具、IP、代工厂和封装,很大程度降低了 GPU 公司设计 CPU,以及互联网巨头设计定制芯片的门槛。
芯片行业的门槛还在进一步降低,这还会带来怎样的变化?