人工智能要发展,离不开三个关键要素:算力、算法和数据。进入大模型时代,算力增速变成了每年增长上百倍,从去年算力的规模来看,到今年已经达到268EFLOPS。在大模型应用场景的广泛开拓与深入发展的背景下,智能算力规模超过通用算力,并且未来5年的增速已经达到了52%。所以过去一年,众多企业纷纷开始抢占算力资源,以赢得市场先机。
陈振宽认为,“大模型训练依靠的是整个算力集群,包含整套的服务。例如分布式训练的构建;不同节点显卡的并行作业;节点内和节点间的通信;AI存储、高速网络,异构算力调度等等。突破算力这一关,才算拿到人工智能时代的‘船票’。”
过去,十亿级、百亿级的模型训练已经逐渐成熟,包括科学研究、机器视觉等等应用场景。但对于千亿级参数大模型的训练,以及后续所需的精调和推理,对算力的需求将会方兴未艾。
数据量增长带来算力需求提升,智能算力规模有望快速增长
数据海量增加,算法模型愈加复杂,应用场景的深入和发展,带来了对算力需 求的快速提升。根据白皮书数据显示,从 2012 年开始的 6 年中, Al 计算的需求增 加了 30 万倍。
算力发展推动我国数字经济量质齐升。2022 年我国算力规模稳步扩张,智能 算力保持强劲增长。我国算力产业保持稳健发展,并且为拉动我国 GDP 增长做出 突出贡献,在 2016-2022 年期间,我国算力规模平均每年增长 46%,数字经济增 长 14.2%,GDP 增长 8.4%。 各地也将算力发展放在重要位置。从算力发展指数来看,我国京津冀、长三角、 粤港澳大湾区、成渝双城经济圈等区域算力发展保持领先水平,其中广东、北京、 江苏、浙江、山东、上海仍然位于第一梯队。中西部核心省份算力发展日益崛起,贵州、内蒙古、甘肃、宁夏等核心省份算力发展优势突出,随着“东数西存”“东 数西训”“东数西算”等链条并行发展,中西部地区技术创新、算力应用、产业基 础等制约算力发展的条件不断得到改善。
根据 IDC 测算,国内智能算力规模正在高速增长。2022 年中国智能算力规模 达 259.9 每秒百亿亿次浮点运算 (EFLOPS) ,2023 年将达到 414.1 EFLOPS,预 计到 2027 年将达到 1117.4 EFLOPS(基于 FP16 计算)。2022-2027 年期间, 中国智能算力规模年复合增长率达 33.9%。
2022 年中国通用算力规模达 54.5 EFLOP5,预计到 2027 年通用算力规模将达到 117.3 EFLOPS(基于 FP64 计算)。2022-2027 年期间,中国通用算力规模 年复合增长率为 16.6%。
上海打造全国规模最大国产单池万卡液冷算力集群
1月22日,中国电信上海公司(以下简称“上海电信”)联合徐汇区政府共同举办“算力惠模都万兆连速城”人工智能公共算力服务产品发布会,会上,中国电信在上海率先启动“大规模算力集群暨人工智能公共算力服务平台”,这也是全国首个国产单池万卡液冷算力集群,将助推上海抢占全国算力发展制高点。
据了解,该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提供低延时、高吞吐量、无损通信网络和强大的并行计算能力,是目前规模最大的全国产液冷机房,多项技术指标领跑全国:如最高可支持万亿参数大模型,便于各科研院校、大模型训练公司等机构和企业实现物理资源独享,无虚拟化损耗,满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。
同日,上海电信“双万兆接入暨一跳入算服务”正式在徐汇区“模速空间”启用,上海电信将为入驻企业提供双万兆网络和“一跳入算”服务,以及算力算网免费试用和优惠商用资费。
徐汇区“模速空间”是全国首个大模型专业孵化和加速载体、大模型创新高地和生态集聚区。
AI计算芯片的不同路线角色,GPGPU肩负算力新基建重任
工业和信息化部、中央网信办、等六部门联合印发的《算力基础设施高质量发展行动计划》的发布,有望推动我国算力基础设施快速发展,利于行业景气度提升,整个算力产业链或将迎来新的增量空间。
如同攀登珠峰的路线不止一条一样,AI计算芯片也分多种。根据应用场景不同,AI芯片分为训练芯片、推理芯片、训推一体芯片,需求最旺盛的即是训练芯片。而对训练芯片而言,又可以分为GPGPU和ASIC两类技术路线。
先说GPGPU技术路线,它从GPU发展而来,是GPU去掉图形处理能力,提升并行计算能力之后的产物,其最大的特点就是可适合绝大多数AI计算场景,通用性强,也更利于算力新基建的规模化发展。特别是在大模型计算日益复杂的今天,绝大多数AI算力都依靠GPGPU供给,使用GPGPU 在云端运行模型训练算法,能够缩短海量训练数据的训练时长,减少能源消耗,进一步降低人工智能的应用成本,其在智能工厂、无人驾驶、智慧城市等领域具有广泛的市场空间。据统计,目前GPGPU 占据人工智能90%以上的市场份额。
再说ASIC这条技术路线,它是一种为特定场景专门设计的集成电路,比如NPU。与GPGPU不同的是,ASIC芯片需要结合大模型算法做定向开发和调配,因此通用性没有GPGPU那么强,这也直接导致算力基建上的规模化应用较低。
因此,此次《行动计划》的发布,从某种程度也说明了加快发展GPGPU的作用之大,意义之深远。换言之,GPGPU需肩负起的算力新基建重任也尤为明显。