AI将成就RISC-V，就像当年手机成就了Arm

2024-08-20 来源：国际电子商情

1382

今年的滴水湖中国RISC-V产业论坛有一大半时间都在谈AI，现场甚至还有基于RISC-V的AI PC处理器展示。AI对RISC-V而言意味着什么？

每年的滴水湖中国RISC-V产业论坛（以下简称滴水湖论坛），都是观察RISC-V生态发展情况的窗口。今年，除了戴伟民（中国RISC-V产业联盟理事长；芯原股份创始人、董事长兼总裁）照例宣布了去年参与论坛的10款芯片产品已经有9款量产或大规模出货以外，或许有两个比较重要的依据，可作为观察RISC-V生态现状的参考。

其一是林豪（重庆物奇微电子股份有限公司CTO）提到，作为全系产品基于RISC-V架构的一家企业，物奇微电子2017年首款芯片问世，2019年达到千万级出货量，今年则预计能够让出货量上亿。这家公司的产品当前着眼于Wi-Fi、蓝牙音频、边缘计算及PLC电力载波芯片。

在我们看来物奇微电子是代表了RISC-V在嵌入式市场典型应用的一家企业，出货量表现的则是RISC-V芯片的快速上量。林豪甚至提到由于物奇当前产品线越来越广，其自研RISC-V架构已经不足以满足不同产品线的不同需求，寻求与业界更多合作伙伴的合作。

其二是今年的滴水湖论坛有一大半时间都是在探讨AI，乃至生成式AI。谢涛（北京大学讲席教授；RISC-V国际基金会人工智能与机器学习专委会主席）甚至说，“PC成就了x86生态，手机成就了Arm生态，而AI成就了RISC-V生态”。并且他还提到今年RISC-V欧洲峰会，AI也成为议程的一大组成部分。

去年的这个时候，我们在探讨“RISC-V为什么能快速入驻HPC应用”。而在AI HPC火热以来，RISC-V在很多人看来似乎已经成为AI未来发展的最佳选择——比如Sameer Wasson（MIPS CEO）就将2020年代，作为技术奇点的生成式AI，及数据驱动的资本投入，最终归结到RISC-V时代的到来。今年4月，RISC-V国际基金会理事会在基金会社区官宣，2024年RISC-V国际基金会顶级关键战略优先级为：人工智能/机器学习、安全、车载。

所以今年的RISC-V新品陈列中，就能看到包含AI SoC、AI CPU在内的RISC-V芯片。这在任何CPU指令集的发展历程中都是相当罕见的：短短四届滴水湖论坛，我们见证了RISC-V在时代洗礼过程中的一路狂飙，AI又为RISC-V这辆跑车提供了一次氮气加速的机会。借着参会企业的RISC-V新品介绍，我们来看看走进AI HPC的RISC-V芯片或技术，现在发展成了什么样。

紧耦合与松耦合的RISC-V AI芯片

谢涛将RISC-V AI芯片分成两种不同的模式。其中RISC-V + AI为紧耦合模式，也就是通过指令集扩展实现AI加速。理论上，Arm Neon, Helium都属于此类紧耦合模式。还有一类AI + RISC-V，以松耦合模式，在RISC-V CPU的基础上，再增加协处理器或加速器——Arm家族的代表应该是Ethos NPU。

恰巧本届滴水湖论坛上，有两款推介的新品代表了这两种模式。其一是可以代表松耦合、来自北京奕斯伟计算股份有限公司的EIC7702X/EIC7700X。

这两颗芯片的CPU部分采用基于RISC-V的64位乱序执行核心SiFive P550——这是个13级流水线、3发射、乱序管线的高性能RISC-V核；并且搭配奕斯伟自研的NPU——也就是专用的AI加速单元。NPU部分达成的Int8算力19.95 TOPS，Int16算力9.975 TOPS，FP16算力9.975 FLOPS。EIC7700X基础款即为上述配置。

据说这是EIC7702X的首次亮相

而EIC7702X，是将两个7700X的die封装到一起，基于die-to-die互联（8-lane 112GBps SerDes）；理论上也就实现了双倍性能，典型的AI及浮点性能数字是在前述EIC7700X的基础上翻番。“能够胜任CV类大模型，及最新大模型的推理负载。”

路向峰（北京奕斯伟计算技术股份有限公司智能计算事业部交付中心中心长）介绍说，最高64GB LPDDR4/4X/5内存的支持，集成视频编解码单元等配置，以及引入的诸多“指令优化、数据流优化”，这些“不仅提升了AI性能，计算单元利用率也得到了极大提升”。

以下是路向峰给出这两颗芯片的AI性能数据，在以往典型的CNN网络之外，这张图的右下角也给出了Llama 2-7b模型的推理成绩。“芯片支持的深度学习框架包括TensorFlow, PyTorch等；大模型也在适配中，除了Llama2以外，不久以后还会做更多的适配和支持。”路向峰在演讲中说。

当然这两颗芯片还有3D高性能图形加速、视频编解码及表现出低功耗的特性。尤其视频解码搭配CV类算法和模型应用，令EIC77系列芯片适配较为广泛的应用方向——这些并非本文要阐述的重点，此处不做赘述。奕斯伟定位EIC77系列的应用方向包括边缘计算（如机器视觉、机器人与自动系统、生产安全等）、AI PC、AI加速器。

其中EIC7700X应当是已经开售的，展区有展示其开发板及对应的AI PC产品；AI加速卡则已经在路上。而EIC7702X，作为基于chiplet或MCM的RISC-V芯片，在国产RISC-V芯片中，应该说是相当少见的；而且这还是个RISC-V AI芯片，也就显得更加难得。

另外一款可表现RISC-V AI芯片紧耦合模式的，是来自进迭时空（杭州）科技有限公司的SpacemiT Key Stone K1，标称为“全球首款8核RISC-V AI CPU”。这颗芯片采用进迭时空自研RISC-V智算核X60，8个核心，频率最高2.0GHz；规格表中给出的性能数据是CPU算力 >50KDMIPS；AI算力则标称为2TOPS。

除了自研的X60核心单核算力比Cortex-A55高30%以上，段佳惠（进迭时空（杭州）科技有限公司品牌营销与公众关系总监）也在演讲中强调了22nm的K1芯片，在功耗和效率方面相比竞品的优势；比如同工艺下，比竞品8核A55芯片性能低28%，相比16nm的NXP i.mx93，能效领先1.16倍（KDMIPS/W）。

不过更重要的在于，作为“紧耦合”RISC-V AI CPU，X60核扩展了16条AI指令。段佳惠还将其与Neon做了比较，“相同AI算法，X60指令仅为Arm Neon的～20%”。在开发生态方面，进迭时空的AI CPU自然也接入了全球主流AI推理生态，故而其展位也特别展示了本地LLM（Llama2-7b）的部署和推理；标称为几乎“支持所有AI模型”。

这颗K1芯片的应用领域涵盖NAS、AI PC笔记本、智能机器人、边缘计算、工业控制等——其官网的产品中心也列出了MUSE系列笔记本、开发板和盒子。在产品规划图中，这家公司的Key Stone系列似乎未来还有12核的K2，和更高性能的K3预备走向市场...

可见AI接下来要成就RISC-V生态还是有迹可循的。

AI为什么能推动RISC-V生态发展？

梁中书（达摩院（上海）科技有限公司研发总监）在圆桌环节说：“毫无疑问，RISC-V现在最重要的发展方向就是AI。”他说国内很多企业都推出了支持vector矢量扩展的AI加速实现，“matrix方面也有进展，达摩院就在玄铁CPU系列中加入了对matrix的支持，通过20多条扩展指令实现了单核2TOPS算力”；“紧耦合模式，需要取长补短，推进matrix指令集社区的标准化。”

“而AI大算力的芯片形态应当是松耦合的，RISC-V + AI加速器的组合。”梁中书谈到，“而开发工具链、基本软件库的适配和支持，对实现松耦合AI大算力芯片形态都很重要。”

谈AI绕不开的话题就是英伟达，即便英伟达的AI市场主要在数据中心和训练上。而抛开芯片绝对算力差距不谈，令大部分AI芯片企业感到汗颜的主要是以CUDA为基础的NVIDIA AI软件栈和解决方案。当我们开始探讨基于RISC-V的AI大算力芯片时，即便在推理场景乃至AI PC和更多端侧应用之上，这也是个重要议题。

论坛圆桌环节有个议题是相关AI平板的。彭建英（中国RISC-V产业联盟秘书长；芯来智融半导体科技（上海）有限公司CEO）就提到芯来的超标量乱序核IP具备性能方面的优势，“RISC-V CPU，加上可扩展性，性能上要（在智能数字教育领域）满足需求不是问题，关键是怎么去突破软件，包括底层软件、操作系统、上层应用。”

谢涛给出的数据是，自CUDA诞生以来，英伟达已经为CUDA生态投入了120亿美元；而且目前最新的数据是，CUDA开发者数量已经来到了450万——且基于历史数据，这个值还在快速增长。

其他绝大部分AI芯片市场参与者的软件栈各自为战，生态呈现出“小、散、弱”的局面。硬件架构的分散，指令集的不统一，以及软件生态的碎片化，也都导致开发者在不同生态间的迁移成本很高。即便兼容CUDA是某些AI生态的解决方案，但这“只能解燃眉之急”，“长期仍然受制于人”。

以英伟达CUDA生态相对封闭的特点，谢涛提出历史上能够击败闭源霸主生态的往往是一个开源的生态，就好像Android对阵iOS，Linux对阵Windows一样。而RISC-V指令集本身，恰好是开源的，而且目前已经有了相当的芯片出货量及开发生态基础。

芯原与谷歌携手合作的开源项目Open Se Cura，配备基于RISC-V的环境感知和传感系统，包括系统管理、机器学习与硬件信任根功能…

比较有趣的是，今年WAIC世界人工智能大会上，RISC-V国际基金会理事长戴路说RISC-V是最适合AI的指令集架构；去年我们采访Tenstorrent首席CPU架构师练维汉，他也说RISC-V非常适合做AI计算。这次谢涛给出基于RISC-V构建AI算力优势的解释是这样的：

RISC-V的开放与灵活性必然是第一要素。AI工作负载变化快，梁中书也提到AI负载有其“个性化”，需要优化才能达到最佳效率。而RISC-V的灵活性，决定了可以根据需求来定制AI加速器。练维汉也曾说过，Tenstorrent最早做CPU设计时考虑过Arm，但Arm“限制很多，经常需要去问Arm可不可以这样、可不可以那样”，还会得到否定的答案。

对应的，高度可扩展性也是论坛现场多位嘉宾提到RISC-V适用AI的关键。根据需要添加自定义指令集扩展，增强AI计算性能与效率。前文提到松耦合、紧耦合的RISC-V AI芯片皆可反映上述这两点。另外谢涛还提到了RISC-V的功耗、效率优势，以及作为开源指令集获得全球生态系统和社区支持。

即便当前RISC-V仍然面临着生态碎片化、商业企业对RISC-V产品的资源投入不足、缺少组织统筹，及产学研协同不紧密、未形成有效合力等问题；谢涛认为，采用自下而上的思路，以RISC-V指令集扩展+开源系统软件栈（并推成标准）为“公共开源根”，去利用国际开放/开源社区“长叶”（基于开源根的商业软件/芯片），形成“根技术开源”与“叶技术竞争”的技术生态优势；

加上先从端与边缘AI起步，推动软件生态发展和应用，带动云上软件生态，“农村包围城市”，与现有巨擘抗衡；并依托日益强大的RISC-V软硬件生态，聚焦全球开源工具创新......最终是能够达成Android→iOS或Linux→Windows的竞争格局的。

格外值得一提的是，在谢涛看来Triton（开源的GPU编程语言）和SYCL（和CUDA同层级的跨平台抽象层）是RISC-V AI生态发展的关键——这一点电子工程专辑此前也撰文提过。Triton实现了硬件无关的中间层表示，生态兼容负担小，编程难度相较CUDA更低，“仍能实现接近于CUDA极限生态的性能”；而SYCL被谢涛类比为“编程模型中的RISC-V”（相对的CUDA是编程模型中的x86）。

当然，这就是更为长远的RISC-V AI未来了。

半导体热门技术的最佳辅助

滴水湖论坛现场的产品介绍实际并不单纯集中在AI上，比如基于RISC-V的车规级MCU、工业以太网MCU，乃至FTTR光网络芯片、面向AR/VR的高性能SoC这类相对新兴的应用。

有些类型的芯片还相当颠覆我们的认知，比如说芯昇科技的超级SIM芯片，基于RISC-V的同时，还进行了指令扩展——即便规模相对较小，但也在加速特定算子、形成专用指令、解决具体应用场景的问题上大幅提升了效率。还有珠海笛思科技有限公司的Wi-Fi 6芯片，基于通信+AI融合的思路，其自定义指令集基于RISC-V VLIW和SIMD对无线通信系带领域和经典AI领域算法做了重点优化…

这些其实都能看出RISC-V的灵活性在不同应用领域的呈现，也是非开源的竞品指令集完全不具备的。

去年我们在谈Ventana的RISC-V核心时，曾提到这家公司的独特商业模式：面向AI芯片客户提供基于RISC-V CPU的chiplet。当时我们曾判断，RISC-V的灵活和扩展性，可能会一定程度颠覆IP供应商的市场定位。它让更多的IP供应商不得不开始去做更完整的chiplet方案。

Sameer Wasson在谈当下MIPS的IP业务时，于“满足生成式AI需求”，就演变为从核心、到集群、再到chiplet。而chiplet作为摩尔定律停滞时代的算力扩展解决方案之一，在未来将变得越来越不可或缺。芯原的下一代自动驾驶平台也有类似的思路。

考虑RISC-V的灵活和扩展能力，我们始终认为，在这个芯片设计需以应用为导向的时代里，几个关键要素是共同出现、相辅相成的：异构架构、chiplet、先进封装，以及RISC-V。

从RISC-V作为半导体领域其他几项关键技术的最佳辅助这个角度来看，RISC-V也是摩尔定律停滞时代，持续推进算力和系统性能向前的绝对主力。虽然这个说法有些武断，却正逐渐成为AI时代越来越多人的共识。

即便现在的RISC-V及其生态还面临各种各样的问题，比如陈康（珠海笛思科技有限公司CEO）提到的，PPA相比竞品的竞争力不足、生态碎片化问题令产品移植难度更大、类似三角函数这样的基础指令都尚未标准化——给编译器、工具链和上层应用的构建造成巨大挑战等...相信在RISC-V生态疾速发展的过程中，这些问题都会得到解决。

不单是技术层面软硬件生态的发展，还在于诸如2018年RISC-V产业联盟成立，后续RISC-V专利联盟启动，民办非企业单位“上海开放处理器产业创新中心”筹建，及包括滴水湖中国RISC-V产业论坛、“芯原杯”全国嵌入式软件开发大赛等行业活动的举办都会让RISC-V生态在保持开放的同时，走向健全和完善——而且要知道，这个过程是在短短几年内走完的。

行业动态

1337秒！法核聚变装置等离子体运行时间创纪录

深圳：将从十一个方面打造最好科技创新生态

iPhone 16e发布，自研5G基带首秀，发力下沉市场

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产