3D图像一直是芯片发展的推动力之一,从上世纪九十年代直到今天,以游戏、电影等为代表的高性能图像渲染应用的蓬勃发展直接让GPU芯片成为了一个新的芯片品类,并且快速发展至今。从这个角度,我们认为高性能3D图像渲染以及3D图像学的发展一直在驱动着GPU芯片品类的发展。
成长下的优势推动GPU市场
从单纯的图形控制功能发展而来,GPU已经成为架构复杂度最高的芯片之一。
据数据统计,2020年,GPU行业规模为200亿美元,预计2021年将增长15%。从2015年到2025年,GPU行业预计平均每年增长13%,将从80亿美元扩展到350亿美元的规模。可视化需要大量的图形、图像计算能力,无论是云端还是边缘侧都需要大量的高性能图像处理能力。因此最近这几年GPU的增长速度非常快速。
从各个调研机构的数据预测来看,GPU在AI推理市场、服务器市场、数据中心市场等都呈现出蓬勃增长的态势。随着GPU自身在并行处理和通用计算的优势,逐步拓展了其在服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。
GPU是AI训练阶段较为适合的芯片,在AI时代的云端训练芯片中占据较大的份额,达到64%,2019-2021年年复合增长率达到40%。此外,推动GPU市场增长的其他因素还包括越来越多的对汽车、制造业、房地产和医疗保健等各个行业的图形应用程序和3D应用的支持。在最近的5年里,英伟达股价飙升2268%,在今年7月8日收盘后,英伟达市值首次超过英特尔,一度成为美国市值最高的芯片企业。
AMD公司的市值也同样一路飙升,在最近其市值也逼近了千亿美元的大关。
微架构设计是GPU性能提升的关键所在
GPU微架构(Micro Architecture)是兼容特定指令集的物理电路构成,由流处理器、纹理映射单元、光栅化处理单元、 光线追踪核心、张量核心、缓存等部件共同组成。图形渲染过程中的图形函数主要用于绘制各种图形及像素、实现光影处 理、3D坐标变换等过程,期间涉及大量同类型数据(如图像矩阵)的密集、独立的数值计算,而GPU结构中众多重复的计 算单元就是为适应于此类特点的数据运算而设计的。
微架构的设计对GPU性能的提升发挥着至关重要的作用,也是GPU研发过程中最关键的技术壁垒。微架构设计影响到芯片的 最高频率、一定频率下的运算能力、一定工艺下的能耗水平,是芯片设计的灵魂所在。英伟达H100相比于A100,1.2倍的 性能提升来自于核心数目的提升,5.2倍的性能提升来自于微架构的设计。
GPU在数据中心的应用蕴藏巨大潜力
在数据中心,GPU被广泛应用于人工智能的训练、推理、高性能计算(HPC)等领域。 预训练大模型带来的算力需求驱动人工智能服务器市场快速增长。巨量化是人工智能近年来发展的重要趋势,巨量化的核 心特点是模型参数多,训练数据量大。
Transformer模型的提出开启了预训练大模型的时代,大模型的算力需求提升速度 显著高于其他AI模型,为人工智能服务器的市场增长注入了强劲的驱动力。根据Omdia数据,人工智能服务器是服务器行 业中增速最快的细分市场,CAGR为49%。 战略需求推动GPU在高性能计算领域稳定增长。
高性能计算(HPC)提供了强大的超高浮点计算能力,可满足计算密集型、 海量数据处理等业务的计算需求,如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等,极大缩短了海 量计算所用的时间,高性能计算已成为促进科技创新和经济发展的重要手段。
人工智能图像学对于GPU的需求
我们认为,人工智能图像学对于GPU提出了新的需求。
首先,在基本的NeRF或者3D GS的渲染中,传统的GPU中的多边形渲染流水线已经无法高效支持,因为NeRF和3D GS的渲染需要一些重要的新计算。对于NeRF来说,其场景建模信息都包含在训练过的神经网络中,神经网络的输入就是用户当前的视角,输出则是场景在视角下的2D图像。因此,其渲染过程其实就是根据用户的视角来完成神经网络的推理计算。而在3D GS中,具体的渲染过程则是把整个场景分成多个块(tile),每个块中根据当前视角首先排序选出对于视觉影响最大的N个GS,之后再仅仅针对这些GS做渲染,从而可以实现高效率。我们可以看到这些都和当前的多边形渲染流水线有较大不同,为了能高效支持这些3D图像学的新范式,GPU需要能高效支持这些新计算。
另外,在新的3D图像学是由人工智能驱动的这一潮流下,我们势必会看到3D图像渲染和人工智能的进一步结合,例如在NeRF和3D GS的场景建模中加入基于神经网络计算的动画或者编辑(光影变化等),这些又进一步说明目前的GPU上的多边形渲染流水线对着这类新图像渲染范式已经无法高效支持。
GPU新架构呼之欲出
我们认为,这些新的超高精度3D图像学会推动新的GPU架构发展。
从桌面和服务器GPU芯片角度,我们认为GPGPU架构会得到进一步的推广。Nvidia主导的GPGPU在人工智能浪潮的前几年(2012-2017)是Nvidia能够占据人工智能霸主地位的核心,因为GPGPU的开放接口可以让GPU去做人工智能计算。在这之后,随着人工智能应用进入主流地位,Nvidia开始给人工智能做专用优化,引入了包括Tensor Core等重要新架构,换句话说人工智能在Nvidia的GPU上已经不再主要依赖其GPGPU思路,而是更多依赖Nvidia的人工智能架构设计。然而,随着新的3D图形学的发展,GPGPU又会重新进入聚光灯下。
从芯片架构角度来说,从宏观上这意味着GPGPU的进一步进化,以及和人工智能的融合。之前,GPGPU允许用户去调用3D图形计算的单元去做其他非图形的计算;而随着新的3D图形学的发展,需要GPGPU能进一步开放图形渲染单元,让图形渲染单元更加灵活,从而能支持新的3D建模范式的高效渲染。我们认为,芯片架构层面,对于这样新3D图形学范式的支持,有三方面的需求。
第一个方面是打通渲染流水线和人工智能引擎由于神经网络的计算在新的3D图形学中起了极其重要的角色,如何把图形渲染单元和GPU中的人工智能引擎打通,将是支持这类新3D图形学渲染的核心需求。例如,在芯片架构设计中,需要能够让图形渲染单元和人工智能引擎之间实现有效通信以及互相高效调用,从而能充分支持这样的渲染需求——像NeRF这样的建模方法中,每一帧计算都需要去运行一次神经网络推理,在高分辨率的时候神经网络会非常复杂,而高帧率则需要神经网络延迟有很高的需求,在这种情况下需要图像渲染和人工智能引擎充分打通。
第二个方面是对于这些新的范式,如何实现硬件优化。对于基于多边形传统3D图形学的渲染加速,GPU已经有了数十年的积累,因此从硬件上几乎已经把优化做到了极致,然而对于NeRF或者3D GS这样的新范式,硬件优化目前仍然不存在。第一步,我们可以把目前已有的针对多边形渲染的优化应用到这类新3D图形范式上,例如分块(tile)渲染以实现并行处理,以及流水线计算以降低延迟,等等。更进一步,未来会出现针对这些新3D图形学范式的专门优化,从而可以将渲染效率进一步提高。
第三个方面是如何提供灵活的用户接口。3D新图形学方兴未艾,在可预计的未来仍然会高速发展,因此如何能给用户提供接口,从而可以让用户灵活利用和配置GPU上的计算单元,从而用户可以根据自己独特的设计来配置GPU上的渲染流水线以实现高效率。这样的可配置性对于培养新3D图形学的生态将会是至关重要,如果想要重复Nvidia在人工智能浪潮中的成功,那么就需要在新3D图形学算法尚未最终尘埃落定的时候就提供足够支持以培养用户生态;如果想要等到算法技术已经足够成熟后再开始提供支持,那么生态角度就会站在非常不利的位置。
国产GPU下阶段的发展方向
国产GPU的生产商包括两种:自主研发系以及引进系。
自主研发系包括:中船重工709所、中船重工716、景嘉微、航锦科技、龙芯、上海兆芯等机构和公司;引进系则有凯桥资本收购的Imagination。
目前,国产GPU中,较为知名的为中船重工701所的凌久GP101、中船重工716所的JARIG12、景嘉微的JM7200。
现在国内做GPU的企业,比如芯动科技、景嘉微等都开始加速发展,芯动科技所推出的“风华”系列GPU正在引起越来越多的关注。
芯动科技即将发布的两款“风华”系列智能渲染GPU图形处理器,将逐步改变国内桌面和服务器领域客户定制高性能GPU芯片长期受制于人的局面。
这两款GPU芯片针对国内新基建客户定制需求,填补国内高性能数据中心显卡空白,经芯动团队多年研发积累,已完成设计,将实现年内量产。
GPU的3个未来趋势是:大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)。
此外,由于GPU越来越广泛地应用到手机、终端、边缘计算节点等嵌入式设备,所以高效能也是一个永恒的追求。
据统计,2019年上半年中国GPU服务器市场规模为8.3亿美金,同比增长53.7%,预计到2023年中国GPU服务器市场规模将达到44.5亿美金,5年CAGR为27.8%。