欢迎访问
最新MLPerf 3.0测试结果出炉!国产AI芯片新势力发起冲锋
2023-04-12 来源:半导体芯闻
1520

关键词: AI 人工智能 英特尔

据福布斯报道,全球机器学习工程联盟MLCommons基于权威AI基准评测MLPerf 3.0发布最新测试结果,美国人工智能训练芯片巨头英伟达又一次在性能对比中超越竞争对手。

英伟达及其合作伙伴在MLPerf 3.0中运行并提交了基准测试,包括图像分类、对象检测、推荐、语音识别、NLP(自然语言处理)和3D分割。英伟达指出,许多客户需要一个多功能的AI(人工智能)平台,该平台主要适用于数据中心环境,许多像图像分类或检测的边缘AI应用仅使用一种或两种AI模型。

这一轮MLPerf的新测试成员分别是致力于边缘图像分类和数据中心的美国机器学习初创公司SiMa.ai和美国AI解决方案提供创企Neuchips。



MLCommons每6个月发布新一轮人工智能推理处理基准测试。

在最新一期的帮当中,有 25 个组织提交了测试,高于去年秋季的 21 个和去年春季的 19 个。英特尔展示了早期基于 Sapphire Rapids 的系统,高通的 Cloud AI 100 表现出色,尤其是在功耗指标方面。新加入的参与者包括 CTuning、广达云科技、SiMa 和 xFusion。

同样值得注意的是在本周的新闻/分析师预简报会上围绕生成式 AI 的讨论——是的,更多关于 ChatGPT 的议论纷纷。MLPerf 应该如何涉足生成式 AI 领域?BERT Large 是 LLM 的良好代理吗?MLCommons执行董事 David Kanter 表示,大型语言模型 (LLM) 将很快添加到 MLPerf 基准测试套件中。

目前,BERT(来自transformers的双向编码器表示)是 MLPerf 使用的 NLP 模型。生成式人工智能应用程序的预期激增——想想ChatGPT和DALL•E 2的目标版本 ——可能会导致对推理基础设施的需求激增。

有趣的是,有一些共识认为 BERT 可以作为大型 LLM 的早期代理,即使它的规模要小得多(GPT3 有 1750 亿个参数,BERT large 有大约 3 亿个参数)。


Nvidia 仍然闪耀光芒

Nvidia 在广泛的加速器市场仍然占据主导地位,并展示了其新的 H100 GPU 以及刚刚推出的 L4(T4 的替代品)的性能。

Nvidia 人工智能、基准测试和云主管 David Salvator 提供了一个很好的顶线总结,“我们在短短六个月内看到了一些惊人的性能提升,与我们六个月前的第一次提交相比高达 54%。这证明了我们围绕软件创新正在进行的工作。通常,在我们在产品生命周期过程中构建的任何给定一代产品中,我们将从软件优化和我们的库、我们的驱动程序的持续调整中获得另外 2 倍的性能。

“我们刚刚在 GTC 上推出的 L4 产品首次出现在 MLPerf 中,与我们的上一代产品相比,其结果提高了 3 倍以上。第三个兴趣点是我们的Jetson Orin平台也有了长足的进步。这不是它第一次出现在 MLPerf 中,但通过在平台级别结合软件和一些功率调整,我们已经能够在效率方面将性能和效率提高多达 57%,”他说。

Salvator 将软件改进归功于 H100 Transformer Engine(使用混合精度格式的库)。他还引用了非最大内核在对象检测推理中的使用。如下面的幻灯片所示,边界框通常用于帮助识别对象。“为了彻底,这些边界框通常以重叠的方式完成,但是 [如图所示] 在幻灯片的右侧(下图),通过优化这些内核,我们能够在 3D U-Net 和 ResNet-50 中看到一些不错的性能提升,”他说。


英特尔Sapphire Rapids异军突起

在上一次的 MLPerf Inference 练习中,英特尔在预览类别中提交了预览类别,这是针对预计在六个月内推出的产品。这一轮,英特尔在单节点系统 (1-node-2S-SPR-PyTorch-INT8) 的封闭数据中心提交了两个 CPU(英特尔至强铂金 8480+)。在过去的几年中,围绕通用 CPU 可能足以满足某些推理工作负载的概念进行了大量讨论,通常是在推理是偶尔需要而不是专用或主要需求的情况下。

最新的英特尔提交,虽然跟不上基于加速器的系统,但能够运行工作负载并显示出比上一个 MLPerf 有所改进。

“借助第四代至强可扩展处理器,之前代号为 Sapphire Rapids,我们实际上在我们的产品中拥有一个名为AMX(高级矩阵指令)的新加速器。最后一次提交实际上是我们刚刚启用了 Amex。因此,为了建立 Nvidia 的观点(关于通过软件实现性能改进),现在我们实际上正在调整它并改进软件,”Plawner 说。

“我们看到所有型号的性能在短短几个月内全面提高了 1.2 倍到 1.4 倍。[我们] 从仅仅启用 AMX(这对我们来说也是 CPU 内核中的一种新加速器)到有机会调整软件。与之前的评论类似,我们预计在当前这一代中可能会达到 2 倍左右,仅通过软件和改进即可。在英特尔,我们都喜欢摩尔定律,但唯一比摩尔定律更好的是,随着时间的推移,软件可以在同一个芯片内为您提供什么,”他说。

在这里值得一提的是,竞争供应商遵守 MLPerf 的规定,即在其整体媒体/分析师简报会上发表评论不能直接将一种产品与竞争对手的产品进行比较。这令人耳目一新,也很有用。如前所述,确实有必要深入研究结果数据并将相似/相似的系统(硬件、软件和新网络测试没有网络)与类似系统进行比较。

许多供应商还发布博客宣传他们的结果并进行竞争比较。



高通显示稳步增长

高通对 MLPerf 练习并不陌生,其 Cloud AI 100 加速器一直表现最佳,展示了低延迟和出色的能效。该公司报告称,其 MLPerf v3.0 推理结果超过了之前所有类别的峰值离线性能、能效和更低延迟的所有记录。

“配备 18 个 Qualcomm Cloud AI 100 Pro(75W TDP)加速器的 2U 数据中心服务器平台实现了每秒 430K+ 推理的 ResNet-50 离线峰值性能,并实现了 241 推理/秒/瓦的能效。Qualcomm Cloud AI 100 RetinaNet Network 跨所有平台的离线性能优化了约 40-80%,服务器性能优化了高达 110%,”Qualcomm 表示。

“自首次提交 MLPerf 1.0 以来,Qualcomm Cloud AI 100 性能提升高达 86%,能效提升高达 52%。这些改进是通过软件优化实现的,例如 AI 编译器、DCVS 算法和内存使用方面的改进。这凸显了过去几年的持续努力和投资,”该公司表示。

VMware 展示了其与戴尔和 Nvidia 合作虚拟化 Nvidia Hopper 系统的性能。“我们实现了 205% 裸机性能的 94%。值得注意的是,在 128 个逻辑 CPU 内核中,我们只使用了 16 个 CPU 内核。所有剩余的 112 个 CPU 代码应该在您的数据中心可用于其他工作负载,而不会影响运行推理工作负载的机器的性能。这就是虚拟化的力量,”VMware 高级工程师 Uday Kurkure 说。文末VMware的补充声明中展示了几个结果图表。


英伟达江湖地位稳固,国产AI芯片新势力发起冲锋

总的来看,英伟达继续稳定发挥,霸榜MLPerf推理基准测试,是毫无争议的大赢家。虽说部分单点性能成绩被其他竞品赶超,但若论通用性,英伟达A100和H100依然是能将其他一众AI芯片“按地摩擦”的存在。

目前英伟达还没有提交H100的推理能效测试数据,以及其在训练方面的性能表现,等这些成绩出来,H100预计会风头更盛。

国产AI芯片企业也崭露锋芒。继阿里平头哥自研云端AI芯片含光800的单卡算力在2019年登顶MLPerf ResNet-50模型推理测试后,壁仞科技、墨芯也分别通过第三方权威AI基准测试平台展示出其AI芯片的实测性能实力。

从这次开放优化类榜单展示的性能成绩,我们看到稀疏性计算已经成数据中心AI推理的一个热门趋势,我们期待接下来这类具有创新力的技术能进入固定任务榜单,通过更精细、更公平地比较系统实力,进一步验证其落地价值。

随着参评机构、系统规模、系统配置的增加和走向多元化,MLPerf基准测试正变得越来越复杂。这些历届的榜单结果,也能反映出全球AI芯片的技术及产业格局之变迁。



Baidu
map