欢迎访问
国产GPGPU如何赶超国外?探寻国产GPGPU破局之路
2022-11-11 来源:网络整理
6573

关键词: GPU 英伟达 芯片

在数字经济化时代,算力就是生产力。随着以算力为核心的科技竞争成为当前大国竞争的战略焦点,把握算力发展的重大战略机遇期就是抢占发展的主动权和制高点。

作为新型生产力,算力的迅猛发展离不开芯片、数据中心和云计算等产业链的日臻完善,特别是作为三大算力芯片之一的GPU,更是兵家必争之地。而由GPU衍生出来的GPGPU凭借并行计算理念打造出强大的高性能通用计算优势,在算力时代正风生水起。

有算力时代绘就的宏伟GPGPU蓝图召唤,有英伟达一飞冲天的传奇激励,叠加中国进口替代以及科创板的杠杆效应,资本对GPGPU赛道高度兴奋,一众初创公司亦相继涌现,争相登高一呼,要在融资、量产、应用层面试比高,也让这一赛道端得热闹非凡。

但要警醒的是,与GPGPU高热相伴的是圈内的浮躁风、套壳风和虚夸风不止。而在波谲云诡的国际形势面前一系列热点事件的发酵,更让业界关注国产GPGPU的真实“成色”。穿越GPGPU的重重迷雾,到底该如何解锁国产GPGPU的真功夫?




通用or专用,智能算力芯片架构该如何设计?

常用芯片中最通用的就属CPU。以英特尔、AMD为代表,几乎可以做任何事情,但是无法做到极致的性能和功耗。能做到极致能效比的是专用芯片,既所谓的ASIC。但是它的编程性差,应用的范围就比较窄。

而在这两个极端之间还有很多选择,比如GPU,这些年越来越成为行业的热点。GPU是一个相对比较通用的处理器,现在称之为GPGPU,具有良好的编程性,特别适合大规模数据并行类应用。还有一类在硬件灵活度上更大的就是FPGA(现场可编程门阵列),这类器件可以通过硬件描述语言来改变逻辑结构,性能和功耗会更好,只是编程的难度较大。

通过分析过去五年具有代表性的芯片公司的股价走势,就可以对行业的发展趋势窥见一斑:英特尔近五年股价上涨了50%;Xilinx(全球领先的FPGA公司)股价大概上涨了2.6倍;而英伟达(当红的GPGPU垄断企业)过去五年股价上涨了16倍。我们即便不去追究深层次的原因,仅凭股价的成长也可以判断行业已经作出了选择,GPGPU已经成为未来计算的主角和核心。

同时,以史为鉴,从GPU的发展历史看,它是如何一步一步成长为行业王者的?

GPU早在上世纪八十年代就已经出现了,那时对于游戏的需求催生了特殊的专用于图形渲染的硬件,这就是早期的GPU。在1990年-2000年这段时间,涌现了很多GPU厂商,每家公司规模并不大,有很多代表性的专用芯片产品。但是到了2005年左右,大家意识到在图形学这个领域算法变化很快,可能每隔几个月甚至每隔几周就会发生翻天覆地的变化。但芯片需要18个月才能完成一次更迭,如果把硬件完全固定下来就无法跟上行业发展的节奏。

所以,人们开始探索把原来不可变的执行流水线,设计成可以部分编程的架构,这种架构更加灵活,可以更加高效的适应算法的变化。真正的GPGPU行业大发展始于2006年出现的CUDA(Compute Unified Device Architecture,统一计算设备架构),它是一种精心设计的、可对GPGPU直接编程的接口和语言。从此以后,对于大量的数据并行应用就可以方便地使用CUDA编程,从而释放出GPGPU中可观的算力。

所以回看过去几十年GPU的发展之路,是一条从“专用”过渡到“比较通用”,直到现在“非常通用”的发展路径。如果我们用来类比今天的人工智能,是否也有相同的趋势?AI需要极致的算力和能效比,做成专用芯片可能是合适的。但AI算法的变化又非常快,可能以“天”计,这又要求我们不能做成非常固定的硬件,可能最后也会收敛到一个偏通用的架构。这是我们的一个推论。



补位迫切 国产GPGPU迎来新考验

经过多年的积淀,中国作为算力发展的“领跑者”,已在算力竞逐中走到世界前列。

截至2022年6月,中国数据中心机架总规模超过590万台,服务器规模约2000万台,算力总规模超过150 EFlops,位列全球第二。有机构预测到2025年,中国GPGPU市场规模将达到458亿元,相较于2019年的86亿元增长5倍多。

但在巨大的市场规模背后,折射的却是GPGPU难言的尴尬境地。英伟达、AMD双雄凭借多年构筑的护城河优势,垄断了中国GPGPU的90%市场。随着GPGPU应用在云计算、大数据、工业、安防、HPC等市场蔚然成风,无论是中国自身算力的大发展,还是国产高端大芯片的自主化率提升,国产GPU不能也不应在这一赛道上缺席太久。



加之中美科技战愈加严峻,特别是英伟达禁售A100事件发生以来,国产GPGPU“替代”之路将不断加快,如何做强成为新的考验。

特别是党的二十大报告也提出,以国家战略需求为导向,集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战。GPGPU作为国内急待突破的高端芯片之一,必然要走上自主化道路。

近几年国内GPGPU公司乘着政策、资本、人才和应用的东风相继涌现,除了一众老将之外,包括珠海芯动力、壁仞、沐曦、登临、天数智芯、红山微电子、瀚博半导体等新势力集结发力,或在自研架构层面的高算力高灵活性发力;或在生态打造上可圈可点;或在应用上开疆拓土,在某些特定应用领域也在加快落地。



从云端走向更广阔的场景

作为一种通用计算芯片,云端训练只是GPGPU典型的应用场景之一,正如NVIDIA所言,GPGPU最终的目的是将AI引入到各行各业中。邹翾也谈到:“我们做的GPGPU全称是通用图形处理器(General-Purpose Computing on Graphics Processing Units),就是让本为图形图像处理而生的GPU能够运行图形渲染之外的通用计算任务。”

邹翾表示,GPU在端到端AI部署中,属于一个已经被验证的芯片架构。AI端侧发展会驱动应用背后更多新型函数和新型算子的出现,这些需求将被融合到GPU未来的软硬件开发中。

GPGPU的设计特点在于其通用可编程性,对于层出不穷的新的算法和应用,能做到性能和开发成本间较好的平衡。同时,基于GPGPU的通用性,客户可以在类似软硬件架构间的产品间进行应用的无痛迁移。

在GPGPU领域,NVIDIA无疑是行业的标杆,不仅拥有百万开发者支持的CUDA,还在指令集的覆盖面、颗粒度、效率等维度有领先优势,再考虑到产业生态,国产GPGPU替代还有很长的路要走。在NVIDIA官网有提到,AI应用不仅需要大的内存池,也需要CPU和GPU紧密耦合。

对于这一点,邹翾认为,GPU注重的是同类型的数据按照同样的处理流程进行高效并行处理,CPU的优势是处理复杂逻辑流程。CPU和GPU在一个芯片上是可以实现的,而且以前也存在这种整合性的产品,但是对于高端的、云端的CPU加上GPU同时实现,需要非常大的尺寸规模,而且会限制芯片在各自领域的性价比。




在此,我们尝试探讨发展国产自主GPGPU的三种可能性:

第一条道路叫“农村包围城市”。策略是从专用芯片做起,把某一个小的领域做精做强,占据一个山头,然后再占第二个、第三个,形成一个个的革命根据地,逐渐实现农村包围城市。但也要防止各家企业在小的山头上恶性竞争乃至自相残杀,从而忘记了我们真正的历史使命和远大目标。经常发生的误区是:当一个企业爬上一座山顶的时候,只顾着欣赏眼前的风景而忘记了去征服更高的高山。

第二条道路来自“龟兔赛跑”的启发。在历史上小企业挑落行业巨头的案例也是屡有发生的,比如说,英特尔的指令集在桌面电脑上一家独大,但后来ARM能够成功挑战英特尔,就是抓住了移动互联网带来的历史机遇。英特尔在这个时候打盹了,并没有意识到行业发生的深刻变革(再加上幕后推手苹果公司的推波助澜)。当下人工智能时代带来的变革可能还要超越移动互联网,但令人吃惊的是在这个大变革的时代,实际上是兔子跑得比乌龟快。“兔子”就是英伟达,英伟达没有停下前进的步伐,没有犯当年英特尔的错误,至今还保持着当年初创企业的活力,很多行业突破性的技术是最先出现在英伟达的产品上。

兔子跑得快已经很棘手,而糟糕的是,我们作为后发者,国内的芯片人才本来就极为紧缺,但由于资本的驱动,短期内催生出很多芯片公司,据说今年新成立的芯片公司是去年的3倍,而培养的人才不可能一下子成长这么多。都说要集中优势兵力才能歼灭强敌,但现状是,我们把为数不多的兵力分散到多个战场,从而陷入越打越弱的怪圈。以史为鉴,只有当对手疏忽的时候,抓住战机毕其功于一役才有大的胜算,这往往需要有极大的战略定力,甚至还需要有些运气。在芯片行业,千万要防止一哄而上之后的一哄而散!

第三条道路也是目前我们认为最有机会的道路,就是开源。靠的是众人拾柴和愚公移山,要的是细水长流,拼的是“天荒地老”。通过开源战胜强大的对手,在软件生态方面已经战果累累,在硬件上也已经开始显示威力。我们有理由相信,开源硬件即便不能一统江湖,至少也可以分庭抗礼。

我们认为,现阶段国内完全有机会做一个开源开放的、免费公益的GPGPU项目,目的是打造一个全栈式的平台,提供开源硬件,编译器、算子库等,并且在指令集的设计上尽可能接近或者兼容CUDA生态圈。我们的研究团队最近攥写了一本关于GPGPU体系结构的专用教材,书名是《通用图形处理器设计—GPGPU编程模型和架构原理》,预计明年初正式出版发行。同时希望号召国内最大的程序员社区,大家携起手来,摒弃门户之见,都来支持国产自主GPGPU,尽快把这个生态做大做强。

通过这些方式,经过十年以上的努力,我们坚信在这一块的劣势会逐步得到弥补,逐渐缩小和国外巨头之间的差距。



Baidu
map