美国企图扼住我国超算“命运”，自研处理器再次打脸老美

2023-12-22 来源：贤集网

654

在2009年的时候，中国基于intel的CPU、AMD的GPU研发出了第一代天河一号超级计算机，在2009年时排名全球第四。

而在2013年的时候，中国将天河一号升级为天河二号，使用的是Intel Xeon E5-2692 12核处理器及Xeon Phi 31S1P加速卡，当年中国的天河二号排名全球第一，峰值性能是54.9PFLOPS，也就是5.49亿亿次。

并且在2013年至2016年间，中国的天河2号，连续6次排名TOP500的第一名。

超级计算机有多重要，就不用大家多说了，所以美国肯定不愿意看到中国的超级计算机这么牛，于是在2015年年的时候，美国禁止intel、AMD等公司，向中国出口高性能计算芯片。

那中国的超级计算机怎么办？

用国产芯片顶上

后来中国采用Alpha架构，再拓展SW64指令集，研究出了申威处理器26010。

基于26010这款国产CPU，中国在2016年就推出了神威.太湖之光，在2016年6月20日的TOP500榜单中，太湖之光算力全球第一，达到125PFLOPS，也就是12.5亿亿次每秒，并且是超第二名近三倍的运算速度夺得第一。

后来从2016年到2017年，神威.太湖之光，连续4次TOP500榜上排名全球第一。直到2018年才被美国的“顶点”超过。

但事实上，太湖之光的规模还可以扩大，如果扩大到120个机柜，那么其峰值性能将达到1.72 Exaflops，超过当前最强的美国“Frontier”（1.68 Exaflops），排名全球第一。而在160个机柜的条件下，可以达到性能2.3 Exaflops。

前段时间网上还曝光了申威26010芯片的加强版SW26010 Pro，性能更强，且已用于超算神威.海洋之光，性能早超过了百亿亿次，只是没对外公开。

除了神威太湖之光之外，曾经最牛的天河二号，在intel芯片被禁用后，也走出了自研之路，后来推出了国产加速器Matrix 2000，用来取代原本的Intel Xeon Phi加速器。

使用这款国产CPU后，天河二号的升级版本叫做天河2A，峰值性能从之前的54.9PFLOPS提升到了100PFLOPS左右。

而近日，天河2A的升级版本，“天河星逸”超级计算机正式发布，这台超级计算机采用的是Matrix 3000处理器，纯国产。

“天河星逸”的性能革命！

相比于前代的“天河二号”，“天河星逸”在通用CPU计算能力、网络能力、存储能力以及应用服务能力等方面实现了倍增。

据国家超算广州中心主任卢宇彤介绍，“天河星逸”支持高性能计算、AI大模型训练以及大数据分析等多种应用场景的需求，其强大的高端算力与平台支撑将为广州市、广东省乃至整个粤港澳大湾区的前沿科技突破、战略工程建设和产业升级转型注入强大动力。

然而，“天河星逸”的威力远不止于此。国家超算广州中心副主任陈志广透露，这款超算系统采用了最先进的超算技术，相比原有系统，在通用算力上提升了5倍，并且强调了应用能力的提升。这意味着，“天河星逸”的峰值算力已经达到了约600 PFlop/s（每秒50亿亿次）的惊人水平。

2017年9月份，广州超算中心宣布升级天河二号超算系统，使用国产加速器Matrix 2000取代原本的Intel Xeon Phi加速器。Matrix 2000的整数架构基于ARM，但矢量单元是我们自定义的256bit VFU矢量单元。每个Matrix 2000由128个内核组成，频率为1.2GHz，每周期能执行16个双精度运算，处理器峰值性能为2.45TFLOPS。升级后的天河二号被称为天河2A，峰值性能提升到了100PFLOPS左右。

如今，“天河星逸”的出现，无疑是这一发展历程中的又一座里程碑。它不仅在性能上实现了质的飞跃，更展示了我国在超算领域的自主创新能力和坚定决心。

下一代神威

除了天河外，中国的另一大超算系列神威也没有闲着。在今年的 SC23 上，虽然我们没有看到新的中国超算上榜，但申威终于展示了新SW26010 Pro 众核处理器以及下一代神威超算的性能。

此次SW26010 Pro 依然是采用异构众核的设计，与 SW26010 4个 Core Group 的设计相比，SW26010 Pro采用了 6 个 Core Group 的设计，每个 Core Group由 64 个CPE计算核心和一个MPE 管理核心组成，单芯片核心数达到了 390 个。根据申威提供的数据，其峰值 16bit 浮点算力可达55.296Tflop/s。

相较上一代 SW26010 DDR3-2133所提供的136.5GB/s 总内存带宽，此次 SW26010 Pro 升级支持了 DDR4-3200，理论内存带宽可达 307.2GB/s。这与其他超算芯片的内存带宽表现还是有着较大的差距，也就导致了计算和网络活动争抢内存带宽的局面，同步内存访问下，NIC 只能实现 9.87GB/s 的带宽，离理论网络带宽 56.25GB/s相差甚远。

不过在具体性能表现上，基于这一处理器的新神威超算却在 HPL-MxP榜单上排到第二的位置。从其数据来看，新的神威超算核心数达到 4114万224 个，在 HPC 与 AI 计算同等重要的 HPL-MxP 测试下可以达到 5.048Eflop/s 的性能，仅次于 Frontier。峰值半精度性能达 5.92Eflop/s，半精度浮点效率高达 85%，这样的销量也是一众异构超算系统中最高的，仅次于非异构的富岳超算。

写在最后

在推动数字经济持续发展的当下，算力并网已经成为了解决算力分布不均、供需失衡的关键方案之一，而超算恰恰是除了通算、智算之外的另一大重要应用。目前粤港澳大湾区拥有较为丰富的超算资源，打造多模式的融合应用支撑平台，加快多方并网生态构建，将成为推动算力规模突破 10Eflops 的关键路径。

登入后，方可留言>>

行业动态

2024年终盘点丨这一年，我们推动政策落地见效

全球科研向“四极”前沿发展

2025年中国工业软件市场规模及国产化情况预测分析（图）

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产