欢迎访问
国内企业已开启算力布局,国产GPU跟不跟得上此次好时机?
2023-12-01 来源:贤集网
1036

关键词: 人工智能 芯片 云计算

我国对算力的需求空间广阔,算力规模正呈现高速增长态势。

近日,中国工程院院士高文在第21届《财经》年会上表示,算力网是算力发展的必然趋势,就像从电力跨越到电力网一样是必然的历史阶段。

10月初,工业和信息化部、中央网信办、教育部等六部门印发《算力基础设施高质量发展行动计划》,并提出到2025年,算力规模超过300EFLOPS(EFLOPS是指每秒百亿亿次浮点运算次数),智能算力占比达到35%,东西部算力平衡协调发展。


为什么要大力发展算力

算力是指计算机系统能够完成的计算任务量,通常用来描述计算机的处理能力。

算力是数字经济发展的重要底座。随着AI与数字经济的发展,算力规模不断扩大,需求持续攀升。



AI浪潮来袭,通用大模型的训练、行业大模型的训练、基于通用大模型的行业应用以及推理皆需要大量智能算力提供支持。AI芯片、AI服务器以及云计算算力需求将持续提升。

回顾历史,人类社会目前经历了三次重大的产业变革:蒸汽时代、电气时代、信息时代,其分别对应了18世纪60年代末期英国人詹姆斯·瓦特制造的第一代具有实用价值的蒸汽机、美国在19世纪60年代实现了电力的广泛应用以及电灯被发明、1946年美国制造出人类第一台二进制计算机。每一次的产业革命都具有几个共通点,首先均有标志性的产品面世,其次持续时间较长以及对于世界发展影响深远。

如今,人类社会或已处在人工智能时代的临门一脚。2022年11月,ChatGPT的发布让世界看到了无限的可能性,这仅仅只是“智能革命”的起点,未来或将呈现出各行业各接纳人工智能,人工智能助推世界发展的景象。

事实上,作为数字经济时代新的生产力,算力不仅为传统产业转型升级提供支撑,还能催生新的经济增长点。算力融入传统制造业,参与生产过程,可为企业智能化改造和数字化转型提供有力支撑。

据IDC和浪潮信息联合发布的《2022-2023中国人工智能计算力发展评估报告》,预计到2023年年底,中国将有50%的制造业供应链环节采用人工智能技术实现业务体验提升。在未来,随着AI技术对传统行业赋能作用日益凸显,催生出更大智算需求成为必然。

算力资源是数字经济发展的重要底座。未来,应用更广泛、更智慧的算力,必将在各类数字化要素的协同中实现更大价值。


上市公司纷纷开启算力规划

算力是指计算机或其他计算设备在一定时间内可以处理的数据量或完成的计算任务的数量。算力通常被用来描述计算机或其他计算设备的性能,它的衡量方式有计算速度、计算能耗、计算精度等。

工信部数据显示,截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197百亿亿次/秒(即197EFLOPS=197*1000P,1P=每秒1000万亿次计算速度),算力总规模近5年年均增速近30%,存力总规模超过1080EB(1EB=1024*1024PB)。

作为全球第二大经济体,我国对算力的需求空间广阔,算力规模正呈现高速增长态势,智能算力规模增速远高于通用算力规模的增速。据IDC测算,我国智能算力规模预计到2026年将达到1271.4EFLOPS,2021-2026年期间年复合增长率达52.3%;而通用算力规模方面,预计2026年将达到111.3EFLOPS,2021-2026年期间年复合增长率为18.5%。

巨大需求推动之下,国内企业纷纷开启算力规划。证券时报·数据宝根据公告或互动平台信息不完全统计,恒润股份、中贝通信、利通电子等21家上市公司对其现阶段及远期的算力进行规划。

具体来看,中贝通信官网新闻表示,年内实现算力服务10000P;锦鸡股份规划的10000P算力项目尚在建设初期,当前正在推动一期2000P算力项目建设;世纪华通远期规划算力1400P;弘信电子预计2年内达到10000P;汇纳科技与并济科技等共同出资设立四川汇算智算科技有限公司,四川汇算智算初期规划算力规模约4500P。

优刻得-W在互动平台回复称,公司目前管理的AI算力规模约为3000P+;预计新增AI算力规模约为1000P+。

统计显示,上述21家公司研发费用率(研发费用/营业收入)普遍较高,且多数呈上升趋势,2023年前三季研发费用率同比增加的公司有14家,包括亚康股份、恒润股份、众合科技等。其中汇纳科技、优刻得-W研发费用率均超过10%,前者高达22.18%,较上一年同期增加4.9个百分点。


国产GPU发展窗口期已至,生态构筑核心优势

AI发展带动算力硬件需求,我们认为未来三年可能是国产GPU发展关键窗口期。目前国产算力硬件理论性能可接近国际主流,但软件生态是限制理论性能和开发者使用的重要因素。



CUDA是GPU生态的先驱,实现了GPU从图形硬件向算力硬件的转变。2006年CUDA推出后,开发者无需再通过图形API来调用GPU,而是可以直接操控GPU。CUDA在长期发展中逐步渗透了HPC与AI生态,2023年已经迭代到第12代API,具备了巨量软件组件,塑造了用户习惯,如今要将其取代需要巨量的时间和资源投入。以CUDA为模板,我们可以发现,其他算力芯片的生态要接近CUDA的地位,应当尽可能在(并行计算相关)软件库覆盖率以及AI框架支持度方面进行投入。

CUDA为用户提供便利的同时,也带来了代价,一是需要承受英伟达硬件不低的成本,二是闭源的CUDA导致部分使用者面临供应不确定性。因此需要CUDA的低成本替代方案,目前AMD推出的ROCm软件平台未来有望替代CUDA。

ROCm作为后发者,采用开源方式,聚集开发者力量是合理选择。目前ROCm生态中,除专为AMD硬件优化的AOCC编译器外,均为开源组件。我们认为未来ROCm与CUDA可能类似Python和MATLAB的发展路线,ROCm可能在部分大型统一生态领域获得认可,而CUDA在大量细分场景的优势有望持续。

对AI芯片而言,通用并行运算库未必都能支持,对于AI框架的完善支持相对较为关键。其主要工作包括算子库与辅助软件库的适配,我们认为对于大型公司其适配耗时大致需3-5年。华为昇腾在国内AI框架适配进度较为领先,率先实现Pytorch NPU原生支持。我们认为较高的适配时间需求可能导致先发优势持续。



Baidu
map