欢迎访问
又一国产企业立志攻克GPU难题,造一块自己的显卡到底有多难?
2023-09-07 来源:贤集网
2662

关键词: GPU ChatGPT 芯片

近日,武汉市科技局下达2023年度重点研发计划项目。攀升科技“基于国产GPU的显卡研制及产业化”项目位列其中。项目落地后,将解决潜在“卡脖子”产品——“显卡”的核心计算组件国产化难题。

2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》,明确要夯实数字中国建设基础,并构建自立自强的数字技术创新体系。今年以来,在ChatGPT快速迭代的浪潮下,神经网络、深度学习和预训练大模型等人工智能技术进入井喷期,全球对超大规模并行算力需求暴增,独立显卡作为AI算力核心基础设施的重要性日益突出。

在GPU领域,我国一直缺少核心技术以及生产经验,与国际水平差距较大。国产品牌急需突破和壮大,解决潜在“卡脖子”产品核心技术,实施国产品牌替代,共建“光芯屏端网”产业链。



攀升科技此次立项成功的“基于国产GPU的显卡研制及产业化”项目,将解决各类计算“终端”的核心计算组件国产化问题,极大提升计算终端组件的国产化率;基于国家数字基础建设和独立自主技术创新的导向,向各领域提供所需的国产品牌显卡产品,为武汉市和国家的数字基础建设提供硬科技产品基础,解决潜在“卡脖子”风险。

本项目将实现从显卡核心软硬件设计、研发调试、生产制造到品控检验等全流程的核心技术国产化和经验积累,在诸如显卡PCB集成电路、供电模组、散热模组和显存、供电管理等关键技术环节进行创新和突破。


GPU研发技术壁垒极高

GPU的研发是一项大型的系统工程,包含硬件架构、算法、软件生态等多个组成,缺一不可,壁垒极高。CPU巨头Intel近二十年多次尝试征服高端GPU领域,曾在前两年专门成立加速计算系统与图形事业部(AXG),试图再度杀入高端GPU市场,却始终反响平平。甚至现在的GPU绝对霸主NVIDIA,从95年首款产品NV1正式诞生发展至今,也是在显卡领域耕耘了20多年才有当前的成绩。足可见GPU产业的门槛之高。

在硬件上,国产最大的问题就是IP,任何一款高端芯片的打造都离不开IP。但是,GPU IP的自研开发需要3-5年的周期,需要数百个专业领域的工程师。因此短时间内在硬件上实现完全国产化并不容易,国内GPU厂商如芯动、摩尔线程等几乎都是外购IP加上部分的自主研发。中天恒星刚发布的“天狼星”虽然实现了国产自主GPU架构,100%IP属于自主研发,但真正要完善软件生态,稳定商用,我想还需要很长的一段时间。

在软件上,国产难题主要涉及驱动开发、算法及软件生态。业内人士指出,计算芯片最大的门槛其实不是硬件,而是软件。目前业内GPU特别是用于通用算力的GPGPU,主流的软件架构是英伟达的CUDA,此架构在2006问世以来,与下游软件、驱动厂家已经有了深度合作。而且CUDA本身涵盖了多个技术领域,其开发与后续更新都与英伟达自家GPU高度绑定,从某种角度来看,英伟达在GPU领域的垄断很大程度上是通过CUDA平台上的软件生态实现。因此国内GPU厂商如果想真正对标英伟达,CUDA生态是绕不开的一环。


国产GPU整个商业生态尚未成熟

在芯片“断供”之前,国内购买海外高端GPU芯片之路畅通,很少有客户在重大项目采购时会考虑国产GPU,都普遍倾向海外最先进、最稳定的产品,以保证项目顺利完成。究其原因有二,一是毕竟国产GPU的发展才刚刚起步,在性能和稳定性方面尚未取得长时间,多项目的验证,不少国产GPU在实际应用中出现了工作负载低,芯片性能不稳定,兼容性差的情况。二是软件生态不够完善,如果一个芯片没有与之配套的软件生态,则很难真正形成大面积的应用。

在当下GPU应用最火的AI大模型训练中,腾讯云新一代HCC(High-Performance Computing Cluster)高性能计算集群使用的是英伟达最新代次H800 GPU;阿里曾在 2018-2019 年采购了上万块英伟达的V100和T4 GPU用于近年来的云计算和大模型训练,其他字节、百度、美团、B站等都清一色采购英伟达的A100、H100 GPU或是去年禁令后英伟达专门推出的减配版 A800、H800 GPU。

这使得国产GPU在国内鲜有大企业应用成功的案例,大部分还仅仅围绕在PC、图形渲染领域,或是应用在专门的军事、政府等部门。商业市场的大门,只是开了一条缝。

另外,国产GPU厂商的硬件架构,软件API接口不尽相同,客户基本只能多选一,兼容和替换都不够灵活,比较难实现技术生态的统一。




短期难盈利

对于GPU创企而言,巨大的研发费用和资本开支是必需,但长期、持续的利润支撑才是GPU跨代发展的强劲驱动力。

尽管近几年因为AI人工智能的火爆,使得GPU创企的融资环境变得相对宽松,但由于国内近几年批量的GPU创企涌入,使得竞争激烈,加上研发投入巨大,在规模市场打开之前,GPU厂商在短期内难以实现量产盈利,令一众大VC和PE机构望而却步。

芯片市场上,OPPO上个月关停了手机芯片自研公司哲库,便是因为短期难盈利,倒在了黎明前。同样,对于部分GPU创企来说,也面临着资本市场洗牌的风险。


种子选手的秘密

在目前国内一票GPU的“种子选手”中,一家名叫壁仞科技的企业引起了人们的注意。原因很简单,那就是其产品BR100不仅创下了全球算力纪录,并且宣称其峰值算力达到了英伟达A100的3倍,甚至还能对标没发售的H100。



然而,稍微了解过国内芯片行业的人都知道,在芯片领域,国内的炒作太多了,徒有其表的例子也太多了。

那么,做出这个“媲美英伟达”GPU的企业,究竟是什么来头?其自主研发的BR100,是否真的像其宣传的那样出色?

要回答这个问题,我们不妨先看看壁仞科技的创始班底,技术背景究竟如何。

作为一家通用智能芯片设计研发商的壁仞科技,成立于2019年,团队由国内外芯片和云计算领域的专家和研发人员组成。其创始人张旭博士,不仅拥有清华大学和斯坦福大学的博士学位,还曾是英伟达的高级架构师,负责Volta架构的设计和开发。

除此之外, 团队其他成员的技术身份,也颇为亮眼。

李新荣,联席CEO,曾任AMD全球副总裁、中国研发中心总经理,负责AMD大中华区的研发建设和管理工作。

洪洲,CTO,曾在NVIDIA、S3、华为等工作操刀GPU工程项目,拥有超过30年的GPU领域经验。

焦国方,软件生态环境主要负责人,曾在高通领导和产品研发了5代Adreno移动GPU系统架构。

这样的团队背景,决定了壁仞科技的技术底色。

依据之前在英伟达、AMD、高通、商汤科技等知名企业的研发经验和技术积累,壁仞科技研发了自主原创的芯片架构——壁立仞。壁立仞架构基于SIMT(单指令多线程)模型,针对AI场景进行了专用的优化和定制。其最大的特点,就是可以将多个小芯片拼成一个大芯片,每个小芯片只做一部分功能,然后通过高速互连组合成一个大芯片。这样可以提高芯片的良率和可靠性,同时降低成本和功耗,实现更强大的算力和扩展性。

这就是壁仞科技所谓的Chiplet的设计理念。

这种技术的难点在于如何保证芯片之间的高速通信和协作,同时避免信号干扰和功耗过高。因此,如何设计合适的芯片分割和组合方案,使得每个芯片都能发挥最大的效能,同时减少电磁干扰和热耗散,就成了Chiplet能否成功的关键。

对此,壁仞科技使用了两种关键的技术2.5D CoWoS和BLink,来攻克这一难关。

简单地说,2.5D CoWoS技术是一种把多个芯片堆叠在一起的技术,它利用了一个硅基板作为中介层,缩短了芯片之间的距离,从而提高了信号的传输速度和质量。而BLink则在中介层上,建立了一个专用的接口,它可以让多个芯片之间直接传输数据,而不需要经过其他的电路或芯片,从而减少了延迟和功耗。然而,尽管2.5D CoWoS、BLink这些技术,让壁仞科技打造出了算力更强的BR100,但这些技术,目前在国际上并不罕见,其他GPU厂商也有过类似的设计。

例如,Nvidia的A100和H100 GPU都采用了CoWoS技术,把GPU芯片和HBM内存堆叠在一起,提高了内存带宽和计算性能。而Nvidia还开发了自己的NVLink接口,类似于BLink接口,可以让多个GPU之间高速互联。



此外,AMD也有自己的Infinity Fabric接口,可以实现类似的功能。

那既然这是一种“大家都能用”的技术,那壁仞科技怎么就做到让BR100算力达到A100三倍的呢?而英伟达真就会坐视着自己被超越了?

其实,这样的结果,是二者在不同数据格式下的表现所致。

具体来说,BR100的巨大算力,更多是在矩阵FP32数据格式下的表现。

一般来说,数据格式占用的位数越多,它的范围和精度就越高,但是也会消耗更多的空间和电力。而矩阵FP32其实就是一种特殊的FP32数据格式,它只用了19位来存储一个浮点数,这样做的目的是为了让矩阵FP32能够兼容Tensor Core这种专门用于加速矩阵乘法的硬件单元。矩阵乘法是深度学习中最常见和最重要的计算操作之一,所以使用矩阵FP32可以大幅提升深度学习的性能。但是,矩阵FP32也有一个缺点,就是它的精度比向量FP32低,也就是说它能表示的浮点数的范围和细节程度比向量FP32小。这样就会导致一些误差和损失,在某些情况下可能会影响模型的质量和效果。

因此,矩阵FP32和英伟达A100的向量FP32并不等价,因为矩阵FP32只适用于矩阵乘法这种特定的计算操作,并不能代表GPU的整体性能。


国产力量的崛起

这些国产GPU厂商的崛起,对英伟达的AI算力市场份额构成了一定的挑战和威胁。

一方面,国产GPU厂商可以提供更高性价比、更低能耗、更灵活定制的产品和服务,满足国内客户的多样化需求和预算。

另一方面,国产GPU厂商可以避免受到美国政策的影响和干扰,保障国内客户的数据安全和供应稳定。

因此,国产GPU厂商有望在国内市场占据更大的份额,甚至在国际市场上与英伟达展开竞争。

当然,英伟达也不会坐以待毙,它仍然拥有着强大的技术优势、品牌影响力、生态合作力等资源,可以继续保持其在AI算力领域的领先地位。英伟达不断推出新一代的GPU芯片和加速卡,如Ampere(安培)架构的A100、Grace(格雷斯)等,提升其在AI训练和推理方面的性能和效率。英伟达还不断拓展其在AI应用领域的布局,如收购Arm、DeepMap等公司,加强其在自动驾驶、物联网、边缘计算等领域的竞争力。英伟达还不断完善其在AI开发生态方面的支持,如推出Jetson Nano、JetPack SDK等工具,降低AI开发者的门槛和成本。

国产显卡的发展未来对英伟达显卡AI算力需求的替代前景是一个值得关注和探讨的话题。

从目前的情况来看,国产显卡已经取得了显著的进步和突破,对英伟达形成了一定的竞争压力。但是,英伟达仍然保持着其在AI算力领域的领导地位,对国产显卡也有着自己的应对策略。

未来,随着AI技术和应用的不断发展和创新,GPU市场将呈现出更加多元化和激烈化的态势,这将对各个GPU厂商提出更高的要求和挑战,也将为用户带来更多的选择和价值。



Baidu
map