指令集是计算机运行指令的集合,是一本计算机运行的“词典”,也是CPU底层的核心技术之一。
在服务器市场和PC市场,x86指令集是绝对的主流。Counterpoint Research的调研数据显示,2022年全球服务器市场上,x86指令集仍然是服务器CPU市场的主导,占到了91%左右。而根据IDC数据,2021年,国内x86服务器出货量为382.0万台,在国内服务器市场中的占比高达 97.7%。
因此,x86指令集已经完全建立起了其软硬件生态,应用广泛,有较强的兼容性,商业回报也最为丰厚,从而能够投入更多的研发资源,进一步提升CPU的性能,进而带动商业生态继续扩大。
ARM指令集是一种可以开放授权给任何一家CPU厂商的指令集。ARM公司通常将设计好的指令集和架构授权给CPU开发企业收取授权费用,但自身不直接参与CPU的开发和生产。
ARM指令集像手机的Android操作系统一样开放,获得授权的CPU厂商都可以基于ARM指令集设计自己需要的CPU。而且,ARM指令集CPU功耗低、能效比优秀,在移动端设备和消费电子类产品中广泛应用。
在中国市场,intel+AMD的X86芯片至少占了国内PC市场90%以上的份额,ARM指令集芯片也占了国内移动终端市场95%以上份额。
市场被别人占住,带来了另外一个问题,那就是被人卡住了脖子,一旦对方不授权给你了,怎么办?
前段时间,ARM公司已经宣布不再向国内厂商提供ARM v9指令集的授权。ARM v9被视作自Armv8以来的重大变革,在AI与安全性能上均有大幅度升级,这使得国内很多使用ARM指令集的厂商都将面临技术迭代断档的风险,这就是被卡住了脖子。
坚持自主研发创新,实现100%国产化
前车之鉴,后车之师。在频频被卡脖子之后,自主研发已然成为中国芯片产业发展中,一个迫切需要解决的问题,核心技术只有靠自身的研发投入,才能掌握在自己手中。而在这个领域里,龙芯中科一直是备受瞩目的存在。
龙芯中科走的“授权+自研”指令集路线,确实将底层技术牢牢地掌握在了自己手中。
目前,龙芯中科是国内唯一基于自主指令系统构建、独立于Wintel/AA的开放信息技术体系,和国内多数企业直接购买国外商业IP进行芯片设计、基于x86/Arm指令系统融入国外信息技术体系、依赖境外先进工艺提升性能的做法,是完全不同的。
龙芯在获得MIPS指令集授权后,借鉴创新出LoongArch指令集。这可以简单理解为指令集技术的“逆向工程”,先买别人的来研究仿制,再独立开发,并一步步迭代。
这条路走得艰难,在没有前人领路,只能“自学”的情况下,龙芯完成研究到独立开发迭代。在性能方面,龙芯制程工艺达到12nm节点,性能逐步达到七八年前主流水平。这表明授权+自研指令集路线的CPU,虽然还没有追上主流CPU的性能,已经取得了不小的进步。
龙芯中科处理器核心IP实现自主设计,依托于三大产品线,构建完整生态。龙芯中科通过完成自研指令系统、CPU和操作系统,龙芯中科打造独立自主信息产业技术体系,在处理器核设计、高速互连设计、内存控制器设计、物理设计等核心技术取得多项专利。
在产品方面,龙芯中科研制的芯片包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片,主要客户是板卡、整机厂商。龙芯1号系列、龙芯2号系列主要面向工控类应用;龙芯3号系列主要面向信息化应用,其中部分面向高端工控类应用;配套桥片在工控类和信息化类领域均有应用。
龙芯CPU的产品布局分为三大系列:
龙芯1号是MCU(微控制器),专门面向嵌入式应用。目前该部分产品在开放市场中的主要应用场景有跑步机、健步机、智能门锁等。
龙芯2号是SoC(片上系统),面向工控、终端应用,又可以细分为龙芯2K1000LA、龙芯2K2000、龙芯2K3000三大平台,目前分别使用40nm、28nm、12nm工艺,同时结合具体引用,还可以定制专用的SoC。
龙芯3号是CPU(通用处理器),面向桌面和服务器应用,也是多数人更熟悉的,搭配自研桥片(芯片组)形成双芯片的解决方案。
该系列已经演进了三代,第一代是龙芯3A1000、龙芯3B1500,第二代是龙芯3A2000、龙芯3A3000,第三代则是龙芯3A4000、龙芯3A5000、龙芯3C5000。
龙芯自研芯片及相关应用案例介绍:
龙芯3A5000
龙芯3A5000是面向桌面和服务器等信息化领域的通用处理器,是首款采用龙芯指令系统(LoongArch)的处理器芯片。主频为2.3GHz-2.5GHz,包含4个处理器核心。每个处理器核心采用64位超标量GS464V自主微结构,包含4个定点单元、2个256位向量运算单元和2个访存单元。其关键IP源代码均为自主编写,芯片内置安全模块。
龙芯3A5000集成了2个支持ECC校验的64位DDR4-3200控制器,4个支持多处理器数据一致性的HyperTransport 3.0控制器。龙芯3A5000支持主要模块时钟动态关闭,主要时钟域动态变频以及主要电压域动态调压等精细化功耗管理功能。可广泛适用于五轴数控机床、工业计算机、双路服务器等场景。
应用案例:五轴数控机床
该方案基于龙芯3A5000芯片,完成龙芯CPU+ Loongnix + Preempt-RT的核心底层平台,并完成了五轴数控系统核心功能基于该平台的移植与初步验证,正在开展实时系统、 PLC子系统、总线协议栈、设备及轴管理、内核重构、 IDE编程调试软件、 HMI软件移植等完善提升。
龙芯3C5000
龙芯3C5000通过封装集成了四个3A5000硅片,形成16核处理器,重点优化多核多路互联效率主频 2.2-2.5GHz,单芯片双精度浮点峰值运算速度超过 0.5TFLOPS。单芯片unixbench分值9500以上,双精度计算能力达560GFlops,16核处理器峰值性能与典型Arm 64核处理器的峰值性能相当,并支持最高16路互连,搭配新一代龙芯7A2000桥片,PCIe吞吐带宽比上一代提升400%以上。可满足通用计算、大型数据中心、云计算中心的计算需求。
应用案例:工业服务器
(3C5000边缘云可扩展服务器)
3C5000 多达16核、2.5GHz的主频为实时数据库、历史数据库、应用服务器、OPC服务器提供充沛的计算能力。可应用于工业生产现场、设备控制、实时监控、高性能高可靠运算等场景。
龙芯2K1000LA
龙芯2K1000是面向工业控制与终端等领域的低功耗通用处理器,片内集成两个 64 位的双发射超标量 LA264 处理器核,主频 1GHz,功耗低至1~5W ,并支持动态降频降压,集成 GPU。芯片外围接口包括两路PCIE2.0、一路SATA2.0、4路USB2.0、两路DVO、64位DDR3及其它多种接口。可广泛适用于行业自助终端、数据网关、工业机器人、工业网关、PLC等领域。
应用案例:AI双目识别一体机
支持适配国产Loongnix/UOS/麒麟系统;
支持龙芯3A4000/2K1000处理器;
支持本地人脸图片的采集入库
金融级别的红外活体防伪认证算法
可用于人脸认证开机等权限管理应用
支持门禁机、认证对比机、一体机产品应用
内存:512MB,1×16-bit DDR4-2400
存储:2Gb NandFlash