欢迎访问
AMD叫板英伟达为何吃力不讨好?国产GPU不能只看算力
2023-07-04 来源:贤集网
1312

关键词: 人工智能 芯片 英伟达

近日,芯片巨头AMD推出全新AI GPU MI300系列芯片,与英伟达在AI 算力市场展开竞争。

AMD首席执行官苏姿丰介绍称,MI300X提供的高带宽内存(HBM)密度是英伟达H100的2.4倍,HBM带宽是竞品的1.6倍。华尔街分析师也普遍认为,AMD的这款芯片将对目前掌握AI芯片市场逾八成份额的英伟达构成有力挑战,这款MI300X加速器,有望替代英伟达的同类产品。

然而,市场对本次新品的反响似乎并不热烈。截至隔夜收盘,AMD股价下跌超3.6%,被挑战的英伟达不跌反涨,股价单日大涨3.90%。



蹿红的英伟达

2022年ChatGPT横空出世,把AI 行业的发展推向了一个新的高潮,生成式 AI 需要基于海量的数据进行推理训练,高算力的 GPU 加速卡自然也成了市场的抢手货。乘着AI的东风,英伟达坐上了“算力霸主”的宝座。

据悉,微软用几亿美元,耗费上万张英伟达A100芯片打造超算平台,只为给ChatGPT和新版必应提供更好的算力。不仅如此,微软还在Azure的60多个数据中心部署了几十万张GPU,用于ChatGPT的推理。特斯拉CEO马斯克也购买了约1万个GPU,用于公司的两个数据中心之一。除此之外,像亚马逊、阿里、百度等众多科技公司都在竞相部署AI芯片。

供需的极度不平衡让英伟达的GPU一芯难求,开启涨价。据市场消息人士透露,英伟达的A100和H100 AI GPU订单还在不断增加,A800和H800的售价已上涨40%,新订单交期可能要延长到12月份。

在炙手可热的AI浪潮下,英伟达赚得盆满钵满。英伟达表示,其截至 7 月的本季度销售额预计将达 110 亿美元,较华尔街之前的估计高出 50%以上。不过,作为AI的基础设施,算力芯片环节的“一家独大”显然不是有利于行业长远发展的生态,市场迫切需要引入新的竞争者,AMD的出现或许有望“分担”AI市场的压力。


AMD叫板英伟达

MI300是AMD发布的第一款数据中心、高性能计算机群(HPC)级的APU,采用与英伟达Grace Hopper相同的CPU+GPU架构,但是硬件参数更高。

MI300在CPU部分集成了24个ZEN4内核,GPU部分集成了6块使用CDNA3架构的芯片,拥有1460亿个晶体管,比英特尔GPU Ponte Vecchio多460亿个晶体管,比英伟达H100多660亿个晶体管,而且MI300的统一内存可降低不同内存间来回复制、同步和转换数据所导致的编程复杂性。

封装工艺方面,MI300使用最近爆火的3D Chiplet封装技术,而GH200则使用CoWoS(2.5D)封装,3D对比2.5D的优势在于性能更高、延迟和功耗更低。

从硬件参数上来看,AMD MI300已经具备和英伟达叫板的能力,但显卡领域完善软件生态比堆硬件参数更难,AMD的软件生态能否贴合人工智能行业的市场需求,是MI300能否抢走英伟达既有市场的重要影响因素。

英伟达垄断人工智能训练芯片市场的主要原因是其自研的CUDA生态。所以AMD MI300想要替代英伟达,首先需要兼容英伟达的CUDA生态,AMD为此推出ROCm生态圈,并实现通过HIP完全兼容CUDA。

作为AMD的GPU软件开发框架,HIP对应的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代码转换,转码后可在AMD GPU上编译运行,基于HIP开发的应用也可用于AMD和英伟达的GPU上。



在此背景下,同一个数据中心内,理论上可以同时使用AMD和英伟达的GPU,但不同公司的GPU产品对数据精度的标准和计算方法及顺序配置不同,混合使用GPU难免会导致计算精度缺失等问题,直接影响模型训练效果。

而且从技术层面来看,兼容意味着被动、落后,因为CUDA每一次升级,ROCm都需要做出对应升级,技术团队无法将所有精力用于ROCm生态圈的迭代上,应用场景和使用体验都会落后于英伟达。

回顾二者发展历程,英伟达2007年发布CUDA,AMD2016年才发布ROCm,前者自问世起就支持Linux、Windows多平台,后者则长期只能支持Linux系统,且不支持部分Linux的更新,并于今年4月才登录Windows平台。

同样是今年4月,AMD刚解决消费级产品与ROCm的适配,此前仅支持AMD高端GPU,限制了市场份额的提升。最后就是由于切入时间更晚,AMD开发者数量远低于英伟达的400万。

对比CUDA和ROCm的开发活跃度,在全球最大的开发者社区之一StackOverflow中,“CUDA”的标签下有超过14000个问题讨论,而ROCm在“amd-rocm”的标签下只有不到100个问题讨论。在Github上,贡献CUDA软件包仓库的开发者超过32600位,而ROCm只有不到600个。

为改变这种被动局面,AMD也在积极丰富其软件生态。虽然目前仅有部分SKU支持Windows系统,但主流Radeon显卡用户可以开始试用过去仅专业显卡才能使用的AMD ROCm(5.6.0Alpha)。

今年1季度,AMD宣布ROCm系统融入PyTorch2.0框架,目前TensorFlow和Caffe深度学习框架也已加入第五代ROCm。

故此,从软件生态方面来看,现有的AMD MI300还不足以威胁英伟达的市场份额,想撼动英伟达在人工智能行业的地位,AMD还需时间。


国产GPU迎来发展黄金期

庞大的市场需求和欧美的芯片封锁,迫使得国产GPU被推到了聚光灯下,迎来了绝佳的发展期。有业内人士称:“国产GPU在信创方面已经实现逐步替代,AI&数据中心、智能汽车、游戏等应用领域的国产GPU需求量也有极大的提升,国产GPU迎来发展黄金期,我们看好国产GPU公司的发展与投资机遇。”

近日,国内多个GPU厂商,从老牌的景嘉微,到初创的沐曦,都顺应市场需求,相继推出了各自在GPU领域的最新拳头产品。

中天恒星:6月15日在北京发布国产自主GPU架构“天狼星”,拥有完全自主知识产权,自研核心架构确保产品迭代自主可控,同时拥有完备的交付能力,并已实现量产。

景嘉微:成功研发JM54 系列、JM72 系列、JM92 系列三代 GPU 产品。应用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。

天数智芯:6月10日发布天垓100加速卡的算力集群,已经具备支持百亿级参数大模型训练的能力。是国内第一款全自研、GPU 架构下的云端训练芯片,实现了我国通用GPU从0到1的重大突破。

芯动科技:芯动发布的“风华 2 号”是一款集超低功耗、强渲染、4K 高清三屏显示、4K 视频解码及智能 AI 计算于一体的桌面和笔记本 GPU,实现了多个自研技术的创新突破。

摩尔线程:基于MUSA架构打造了两颗全功能GPU芯片“苏堤”和“春晓”;面向信创市场推出了桌面级显卡MTT S10、MTT S30和MTT S50。

沐曦:6 月 14 日宣布曦云系列的最新产品MXC500成功点亮,产品直接对标英伟达 A100,采用通用 GPU 架构,兼容 CUDA。

尽管国产GPU的推出步伐不断加快,其中也不乏一些对标国际高端GPU的产品,但不得不承认,国产GPU要走向真正成熟可靠,实现完全国产替代还有很长的距离。



国产GPU整个商业生态尚未成熟

在芯片“断供”之前,国内购买海外高端GPU芯片之路畅通,很少有客户在重大项目采购时会考虑国产GPU,都普遍倾向海外最先进、最稳定的产品,以保证项目顺利完成。究其原因有二,一是毕竟国产GPU的发展才刚刚起步,在性能和稳定性方面尚未取得长时间,多项目的验证,不少国产GPU在实际应用中出现了工作负载低,芯片性能不稳定,兼容性差的情况。二是软件生态不够完善,如果一个芯片没有与之配套的软件生态,则很难真正形成大面积的应用。

在当下GPU应用最火的AI大模型训练中,腾讯云新一代HCC(High-Performance Computing Cluster)高性能计算集群使用的是英伟达最新代次H800 GPU;阿里曾在 2018-2019 年采购了上万块英伟达的V100和T4 GPU用于近年来的云计算和大模型训练,其他字节、百度、美团、B站等都清一色采购英伟达的A100、H100 GPU或是去年禁令后英伟达专门推出的减配版 A800、H800 GPU。

这使得国产GPU在国内鲜有大企业应用成功的案例,大部分还仅仅围绕在PC、图形渲染领域,或是应用在专门的军事、政府等部门。商业市场的大门,只是开了一条缝。

另外,国产GPU厂商的硬件架构,软件API接口不尽相同,客户基本只能多选一,兼容和替换都不够灵活,比较难实现技术生态的统一。


只靠算力,无法做英伟达的PlanB

英伟达的强不只是体现在硬件产品上,在软件平台中,英伟达也有自己的护城河。

CUDA就是英伟达推出的基于GPU的并行计算平台和编程模型,可以用来加速大规模数据并行计算,使得GPU可以用于更加广泛的科学计算和工程计算等领域。CUDA的良好生态系统吸引了众多学术机构和高性能计算中心的关注和使用,也为英伟达提供了强有力的市场竞争优势。现在AMD也在做同样的事情,只是英伟达已经占了先发优势,AMD搭建起来可能会更为艰难。

CUDA的重要性不言而喻,但是提供CUDA兼容层,需要厂商具备足够的研发实力,上文提到的与CUDA兼容的有沐曦、海光、壁仞、天数智芯等公司,因此是否兼容CUDA也成为衡量AI芯片公司的标的之一。

至于是否一定要兼容CUDA,业界有着不同见解。专家称,在小模型上CUDA仍然很重要,但在大模型上它的地位越来越轻了。如果未来中国市场以小模型为主,那CUDA还是有很大的影响力,而如果是以大模型为主,对于CUDA的依赖就越来越小了。

总而言之,重视软件配适开发至关重要。

对于建立国产IT系统的行动建议包括:设置合理国产系统及芯片性能要求和验证目的,从非关键应用开始尝试导入部分国产芯片;加强软件配适开发,确保软件对不同系统的兼容性、稳定性和运营性能;建立加强对国内基础IT软硬件厂商的投资,确保厂商对产品开发计划的影响力;优先考虑国内供应链和成熟平台,积极采用半导体创新技术。



Baidu
map