编者按:指令系统是CPU和操作系统的共同基础,是信息产业的“根技术”。龙芯中科经过二十多年的努力,推出了自研的指令系统——LoongArch(以下简称“LA架构或龙架构”),并基于该指令系统,打造出性能达到市场主流产品的CPU。龙芯中科如何继续缩小技术差距,丰富产业生态,走向更加开放的竞争市场。近日,中国电子报总编辑胡春民与龙芯中科技术股份有限公司董事长胡伟武进行了深度对话。
对话人:
龙芯中科技术股份有限公司董事长 胡伟武
《中国电子报》总编辑 胡春民
时 间:2024年7月3日
地 点:龙芯中科技术股份有限公司
加快构建自主可靠的信息技术体系
胡春民:当前各个领域都在加快培育新质生产力,我国电子信息产业如何发展新质生产力?作为电子信息产业的从业者,你如何理解这一话题?
胡伟武:我国信息产业发展新质生产力最重要的内容是构建自主的信息技术体系,其中包括指令集架构、CPU芯片、操作系统等。当前全球信息产业构建在西方主导的x86(Wintel)体系和ARM(AA)体系之上。2023年我国规上工业企业利润率为5.8%,而电子工业利润率为4.2%;2023年我国电子工业利润总额为6411亿元,而美国苹果公司这一家公司的利润总额就达到970亿美元。我国信息产业发展新质生产力的根本出路在于构建独立于x86体系和ARM体系的第三套信息技术体系和产业生态。
龙芯团队经过二十多年的努力,已经打牢了第三套信息技术体系的技术底座。我们推出了自己的指令系统——LoongArch。基于该指令系统,我们具备了自研性能达到市场主流产品的CPU和足够成熟稳定的操作系统。
首先看硬件层面,龙芯于2023年推出的桌面端CPU龙芯3A6000,实测性能相当于英特尔公司2020年上市的第十代酷睿四核处理器;龙芯今年研制成功的16核及32核版龙芯3C6000服务器CPU,性能相当于英特尔公司Xeon 4314和6338;龙芯当前正在研制的3B6600八核桌面CPU使用成熟工艺预计单核/多核性能可以达到使用先进工艺的中高端酷睿12~13代水平。以上产品数据说明,经过二十多年的积累,当前龙芯CPU性能已经能够达到主流市场产品的水平。
从软件生态来看,龙芯基于龙架构建成了与x86、ARM并列的Linux基础软件体系。这一成果可以分三个层次来谈。
第一层是,龙芯在上游开源社区的支持程度上实现了质的突破。任何操作系统都离不开上游开源社区的支持,一个桌面/服务器操作系统需要数以万计代码包的支持,这些代码包绝大多数来自国际开源社区,如浏览器、GCC编译器等。在数以万计的上游开源社区中,与指令系统相关的上游社区有上百个,全面接纳了龙架构。随着开源社区演进,这些代码包除了有x86、ARM版本之外,也有龙架构的版本。基础软件工程师可以在没有龙芯公司支持的情况下,能够完全基于国际开源社区构建完整的龙架构操作系统。这是中国人自主设计的指令系统第一次在国际上被全面认可。
第二层是,国内外诸多操作系统社区都具备了龙芯的版本。其中包括统信、麒麟、欧拉、龙蜥、开源鸿蒙、Debian等。
第三层是,许多基础应用都具备了龙架构的版本。包括WPS、微信、QQ、钉钉、腾讯会议、美图秀秀、搜狗输入法等。
胡春民:当前中国CPU与国际领先水平差距很大,主要体现在哪里?龙芯最迫切解决的问题是什么?
胡伟武:在完成通用CPU和操作系统基础软硬件“补课”后,龙芯面临的最大问题在应用软件层面。就像Windows的应用不能直接在Android上运行一样,Windows和Android的应用也不能在龙架构的CPU和操作系统平台上运行。
这个问题的解决,我们有两条道路。一是在政策性市场的带动下,大量的应用软件开展了与龙架构的适配。另一条道路是“主动兼容”国际主流,采用二进制翻译的技术,将原生于x86和ARM的应用软件在龙芯CPU上运行起来。包括在龙芯的Linux平台上兼容x86/Linux应用、x86/Windows应用以及ARM/Android应用。
目前,在龙芯的Linux平台上运行x86/Linux应用已经比较成熟,包括EDA工具、Oracle等大型x86/Linux软件都可以在龙芯的Linux平台上运行。当然,采用二进制翻译的方式运行软件会存在一定的效率损失。为弥补效率的损失,龙芯基于自研指令集架构的优势,采用了增加指令的方式,可以将翻译软件的效率提升至原软件运行效率的80%以上,甚至更高。对于应用软件的库函数调用,则直接通过库直通技术达到100%的翻译效率,如大量游戏软件会调用OpenGL图形库,这部分不用翻译,直接调用龙架构的OpenGL即可。
胡伟武和技术人员一起查看测试情况
在兼容x86/WIndows方面,龙芯主要实现了两重突破。一是与外接设备的适配,比如许多打印机没有适配Linux的驱动,只支持Windows系统,龙芯通过在Linux操作系统上实现Windows打印机框架,实现了龙芯与95%以上的打印机设备适配。二是龙芯的Linux浏览器实现了对Windows浏览器的兼容。由于Windows是一个相当复杂的系统,在不运行Windows的情况下直接运行Windows应用需要模拟整个Windows接口环境,所以将所有应用向龙芯迁移很难,我们现在能在不启动Windows的情况下,运行Windows的常见应用。
兼容x86/Windows应用的另外一个思路是直接在龙芯的Linux平台上运行Windows操作系统,这件事容易得多。预计到2024年年底,在龙芯的Linux平台上可以较流畅地运行Windows操作系统及其应用。
从实现难度来看,在龙芯上运行安卓应用比较容易,且运行效率也很高,以后将根据需要展开。
二十余年从科研项目到企业成功上市
胡春民:在龙芯发展的二十余年历程中,有哪些标志性的成绩?
胡伟武:我觉得龙芯的发展历程可以按照每五年一个节点,分成四个阶段。
第一个阶段是2001年到2005年。当时我国对于是否要自研CPU还没有形成共识。2001年,时任中国科学院计算技术研究所所长的李国杰院士支持我们成立龙芯课题组,研制了“龙芯1号”CPU的FPGA原型系统,把操作系统跑起来。2002年,龙芯得到中国科学院知识创新工程的支持,研制成功“龙芯1号”CPU。在此基础上,推动国家“863”项目支持自主CPU的研制,并研制成功“龙芯2B”“龙芯2C”“龙芯2E”系列CPU,每一款CPU性能都是上一款的3倍左右,实现了“三级跳”的跨越。2006年年初研制成功的“龙芯2E”性能达到高端Pentium III或低端Pentium IV的水平。第一个五年,我们在工程实践中得到了第一个答案:中国能做自己的CPU。
胡伟武在进行CPU主板信号测试
第二个阶段是2006年到2010年。从2006年起,我们试图将研究成果推广到产业界应用,但四处碰壁,得到的反馈是:“我们连反向设计的都不敢用,更别说正向设计的了。”所谓反向设计,就是将别人设计的芯片剖开,对照版图做一版相同的。但我们坚持自研,并持续在一些小型设备中尝试应用。2008年开始,国家在特定领域的装备上开始选用我们的产品。2010年,在特定领域开始龙芯CPU的应用推广。第二个五年,我们在工程实践中得到了第二个答案:中国能用自己的CPU。
第三个阶段是2011年到2015年。2010年左右,我们意识到当前的组织形式已经不足以支撑龙芯的发展,于是决定进行市场化运作。但这个阶段,我们走了很多弯路,甚至对CPU性能的认识都走了弯路。最初,我们认为决定性能高低的是CPU核心数量,于是我们在英特尔生产的主流产品为4核的情况下生产了一款8核CPU。但使用时发现性能不佳。打个比方,如果将英特尔的处理器比作4个大学本科生的话,那么我们当时做的产品就相当于8个小学生。此后我们将关注点放在了单核性能上。第三个五年,我们推动研制并使用自主CPU成为国家战略,引进国外x86和ARM技术的国产桌面/服务器CPU也开始发展起来。
第四个阶段是2016年至2020年,龙芯实现性能和营收的“双十倍”跨越。在研发关注点调整为单核性能后,五年时间里,我们的处理器单核性能提高了10倍,大致相当于达到了英特尔第三、第四代酷睿水平,达到了基本可用,甚至可用的水平。同时,企业营收增加了10倍,2020年实现营收达10亿元,且实现了数以亿计的净利润。
胡春民:龙芯2022年在科创板上市。从科研院所到自创企业再到成功上市,这一过程中有哪些力量发挥了关键作用?
胡伟武:我认为龙芯就是我国市场经济条件下新型举国体制的产物。龙芯的发展过程可以用一句话来概括:研发支持扶上马,市场带动送三程,各类资本全程保驾护航。
从2001年开始做龙芯CPU到2010年,我们课题组一共花掉了各类科研项目经费达4亿多元,这就是“研发支持扶上马”。
在我们的产品基本成形后,又获得了市场应用方面的扶持,这就是“市场带动送三程”。
其中,第一程是“十二五”期间,在特定领域的嵌入式系统中应用,这一阶段我们的产品只要支持比较单一的应用即可,例如控制类系统、通信类系统,这类场景的可靠性、安全性要求较高,但应用场景相对单一,甚至一个设备能支持单一软件就可以了。这一程给了我们软硬件相磨合的机会。
第二程是“十三五”期间,在以电子政务为代表的信息化系统中应用。Office、浏览器、微信、视频会议等应用都需要在龙芯上运行。这一程支持龙芯桌面、服务器产业链的初步集聚。
第三程是“十四五”期间,从电子政务向金融、教育、能源、交通等其他应用场景中拓展。但这些场景的特点是,虽然其需要支撑的应用更加复杂,但是有边界的。
我相信,经过三程的市场带动,龙芯CPU的性价比和软件生态得到不断迭代发展,到“十五五”期间,龙芯CPU可以走向开放的市场竞争。
龙芯在发展过程中得到了包括国家科研经费、地方政府资本、社会资本以及公众资本的全程“保驾护航”。其中,从2001年至2010年,有各类国家科研经费的支持,相当于我们的天使投资;在我们创办企业后,A轮融资得到了北京市政府协调北京工业投资公司的1亿元投资,带动了一家民营企业跟投了1亿元;2015年,B轮融资中,私募基金鼎辉资本进入;后来还有国新资本、国家集成电路基金、互联网基金等其他资本投资龙芯;2022年,龙芯上市,得到了公众资本的支持。所以我们是在诸多类资本的帮助下,一路走到今天,这也体现了我国体制的优势。
龙芯中科技术股份有限公司
2025年基本建成基于龙架构的自主生态
胡春民:这个五年发展期,龙芯有哪些预期完成的目标?
胡伟武:在“十四五”(2021年至2025年)期间,我们要完成三个转变:第一,从技术“补课”到生态建设的转变。龙芯过去20年算是完成了技术“补课”,这个五年,我们的重点放在完善生态建设上。第二,从政策性市场向开放市场的转变。过去我们主要围绕政策性市场,而现在我们更多地面向开放市场。第三,从跟随性发展的必然王国到自主发展的自由王国的转变。我们力图构建x86和ARM架构之外的第三套信息技术体系,走到今天,很多方面已经没有了参照物,需要走出自己的道路。
我们希望在2025年,基于龙架构的自主生态基本建成。在2030年,基于龙架构的自主生态更加完善。到2035年,形成与x86和ARM三足鼎立的态势。所谓的三足鼎立,是不能有数量级的差异。就像如果竞争对手占据整个市场份额的99%,而我们只占1%,这不算形成三足鼎立;但如果对手的份额占据90%,而我们能够占到10%,那么三足鼎立的局面就算实现了。
龙芯的生态建设分为四个部分。第一是硬件生态,我们要为CPU配置相应的接口桥片、GPGPU芯片、服务器的BMC芯片及RAID控制芯片等配套芯片,从而实现整机的成本最低。
第二是软件生态,分夯实基础、广泛兼容和自主应用“三步走”来建设。所谓“夯实基础”,就是龙架构Linux平台的成熟稳定。所谓“广泛兼容”,就是在龙架构的Linux类操作系统上兼容x86/Linux应用、x86/Windows应用以及ARM/Android应用。所谓“自主应用”就是形成自主应用生态,就像手机的APP有iOS版和安卓版,希望未来电脑的APP有Windows版和龙芯版。目前,我们已经完成了“夯实基础”的第一个步骤,建成了与x86、ARM并列的Linux基础软件体系,正处在“广泛兼容”的第二个步骤,同时通过大量应用适配开始了第三个步骤的工作。
第三是人才生态,我们要推动大学课程采用龙架构作为教学用的指令系统,推动中小学信息化教育摆脱“微软培训班”的状况,教授自主计算机平台的使用。
第四是产业生态,通过政策性市场应用带动更多整机及系统企业采用龙芯芯片,通过不断提高龙芯CPU的性价比并完善软件生态吸引广大产业链伙伴主动选用龙芯芯片。龙芯还设立了龙芯基金投资龙芯产业链“上下游、左右岸、干支流”生态伙伴。
未来以“性价比创新”挖掘红海市场
胡春民:当前的半导体行业竞争十分激烈,几乎都是红海市场,龙芯走向开放市场的机会何在?
胡伟武:2022年到2024年,龙芯开展了以面向开放市场为主要目的,以提高龙芯CPU性价比为主要手段的三年研发转型,转型的主要内容总结下来是四个字——“两点一面”。
“一面”是指在政策性市场带动下,不断提高龙芯CPU的系统性价比并完善软件生态。现在我国自主CPU主要包括x86、ARM、龙架构三条技术路线。一般认为,龙芯CPU最自主,但性能和软件生态不如引进x86和ARM技术的其他CPU。我们要把自主优势转化为性价比和软件生态的优势,做到“因为龙芯最自主,所以性能最高而且软件生态最好”。例如,已经量产的龙芯3A6000桌面CPU,不论其性能和整机成本都比引进国外技术的国产CPU展现出优势;已经研制成功的龙芯3C6000系列16核、32核、60/64核服务器CPU性价比优势很大。相信随着时间的推移,龙芯自主研发所展现出来的技术优势会更加明显。
“两点”的第一个点,就是基于通用CPU做专用解决方案。例如存储服务器只需要运行一个软件,可以避免生态壁垒的问题,只要能把该存储服务器软件迁移过来就可以了,龙芯CPU性价比高的优势就可以发挥出来。
“两点”的第二个点是专用芯片。这类芯片应用比较固定,如嵌入式芯片、打印机专用芯片等,此类芯片需要运行的功能同样相对简单,龙芯可以通过自主研发做到成本最低。
而不论做哪类产品,我们的市场策略是一致的——性价比创新。
龙芯要想在当前的半导体行业中找到自己的市场空间,其发展思路与上世纪90年代以服装、鞋帽制造为主营业务的乡镇企业是一样的,都要靠降低成本。当前龙芯的成本控制得非常好,这就使得在售价很低的情况下,我们还能做到比较高的毛利率。
我们之所以能够将成本压缩到最低,离不开龙芯长期坚持自主研发芯片中用到的各种IP,包括系列化的CPU核、系列化的GPGPU核、高速内存接口、高速片间互连接口、高速IO接口、各类工业总线接口等上百种IP。自研指令系统和IP核不仅可以节省数以亿计的授权费和版税,而且具备了针对不同应用场景灵活调整芯片架构、调整硅面积的能力。龙芯现在选择市场目标的标准很简单,我们就对标芯片的硅面积:在相同工艺下,如果能实现硅面积缩小20%以上,就开发这款芯片,否则不做。
龙芯3C6000
例如,龙芯3A6000桌面四核CPU的单核和多核性能分别比上一代产品3A5000提高60%和100%,但硅面积降低了20%。龙芯3C6000 16核服务器CPU的多核性能比上一代产品3C5000提高100%,硅面积降低了20%。3A6000和3C6000的性价比是上一代产品3A5000和3C5000的3倍。
又如,近期龙芯在做一款激光打印机主控芯片。对标芯片的硅面积约有二十几平方毫米。如果我们没有自研IP,那么就只能购买第三方设计的IP,其大小尺寸都固定了。但是我们自研IP,就可以按需改造和配置不同的接口、模块等。例如,为了降低成本,我们把该芯片的内存控制器硅面积从5平方毫米压缩到1平方毫米左右,整个芯片的硅面积不超过10平方毫米。
比亚迪的新能源汽车为什么能与特斯拉竞争,也是靠性价比优势。龙芯也得这么做。
胡春民:现在许多芯片公司都在瞄准AI设计芯片,龙芯如何应对AI带来的市场需求?
胡伟武:在去年公司内部的年终总结报告会上,我在2024年规划部分提了一句口号:向AI进军。我们正在培育、发展适合AI市场需求的技术。
如果把信息产业比作盖楼,那么到现在为止的信息产业共盖了“三层楼”,每层楼有两大核心技术。第一层楼的两大核心技术是CPU技术和操作系统技术,第二层楼的两大核心技术是网络技术和图形(含多媒体)技术,第三层楼的两大核心技术是虚拟化技术(云平台的核心技术)和智能化技术。龙芯耐着性子一层层地盖,掌握了上述“三层楼”的六大关键核心技术,现在盖到第三层了。
龙芯自研的图形处理器(GPU)已经量产,自研的包括图形加速和AI加速功能的GPGPU已经嵌入在龙芯2K3000 SOC中交付流片,并正在自研GPGPU专门芯片龙芯9A1000,它既是显卡芯片又是AI加速卡芯片。
龙芯自研了一种叫龙链(Loongson Coherent Link)的算力芯片间互连的技术。相较于PCIE,采用该技术可减少约一半的访问延迟。随着技术精进,我们还可以将延迟降得更低,大约降至PCIE的1/3左右。由于龙链具有后发优势,我们的协议比英伟达的NVLink更加简洁高效。智能不是算出来的,而是连出来的。就像大脑中的单个神经元不具有智能性,连接之后才产生了智能。
2024年起,龙芯中科开始结合龙架构及自研的GPGPU芯片,发布支持OpenCL、SYCL等编程模型的算力基础软件,围绕TensorFlow、PyTorch、PaddlePaddle等训练框架,ONNX Runtime、OpenVINO、NCNN等推理框架开展算力芯片和AI框架的生态建设工作。
龙芯目前的AI生态建设主要面向具有推理功能的“具身智能”,主要应用在各类无人终端上。在条件具备后再发展训练类AI生态。
芯片检测车间
胡春民:龙芯对市场前景持怎样的发展预期?
胡伟武:我自己还是非常乐观的。
因为,我国的信息产业不可能依靠x86和ARM,而龙芯是目前基于自主指令系统构建自主信息技术体系和产业生态的唯一选手。
当前我国半导体产业正在脱虚向实。单纯依靠资本支撑的创业企业,将面临经营挑战。而像龙芯这样的企业在立稳脚跟之后,会进入良性增长期。
通过2001年以来的二十多年积累,龙芯已经系统掌握了指令系统、CPU、操作系统的关键核心技术,龙芯CPU的性能已经达到世界先进水平,并开始显现出性价比的优势,龙架构的软件生态建设正在稳步前进。目标已经明确,道路已经找到,我们只要保持定力,咬紧牙关,长期坚持,一定能建成独立于x86和ARM的新型信息技术体系和产业生态。