欢迎访问
提升芯片算力的最好“捷径”是存算一体?多种技术线路打破存储和功耗两堵“高墙”
2022-11-22 来源:36氪&半导体产业纵横
8079

关键词: 芯片 存储器 人工智能

摩尔定律逐渐走向消亡之际,应用端对芯片性能的要求却日渐提升。这种情况下,半导体从业人员就开始寻找另外的出路,存算一体就是其中的一个选择。

所谓存算一体,从字面上理解,就是把存储和计算融合成一体。众所周知,现行的计算领域所流行的是冯诺依曼架构。在这种架构下,存储和计算是分开的。这两部分的制程技术还能同步发展,这也推动了芯片性能在过去几十年获得了几何级增长。但进入最近这些年,芯片碰到了“存储墙”问题,叠加行业在存算一体技术研究的进展,使得这个早在上世纪七十年代就被讨论的技术,逐渐走向了台前。

知存科技创始人创始人和CEO王绍迪也表示,摩尔定律走到头了,就算强行继续往下走,代价也非常大,带来的提升又很有限。“为了在短期内实现算力的继续提升,存算一体是最好的方式。”




两堵”墙”:存算一体技术发展的必要性

存算一体的发展是时代发展的要求,现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升。

在冯·诺伊曼架构的核心设计中计算机的组成架构包括运算器、控制器、存储器、输入设备、输出设备五部分。

在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。由于工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大。数据显示,从 1980年到 2000年,处理器和存储器的速度失配以每年50%的速率增加。

存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙”。

此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。

再加上人工智能的发展,需要运算的数据量开始了极大的增长。人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据需要在计算单元和存储单元之间进行频繁的移动,这迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销。

自1945年提出的冯·诺伊曼架构,其本身仍是现代计算机的主要架构,在此架构下关于存算流程的弯路,在当时是合理的。但是在人工智能飞速发展的现在,却有必要颠覆它。

于是,业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构。




存算一体,金字塔从头建起

为了解决“存储墙”问题,当前业内主要有三种方案:

用GDDR 或HBM来解决存储墙问题的冯·诺依曼架构策略;算法和芯片高度绑定在一起的DSA方案;以及存算一体的方案。

HBM是目前业内超大算力芯片常用的方案之一,其优势在于能够暂时缓解“存储墙”的困扰,但其性能天花板明显,并且成本较高。

DSA方案以牺牲灵活性换取效率提升,算法和硬件高度耦合,适用于已经成熟的AI算法,但并不适用于正处于快速迭代的自动驾驶AI算法中。

最后是存算一体方案,这是一项诞生于实验室的新兴技术,其创新性在于打破了传统·冯诺伊曼架构局限性,实现了计算与存储模块一体化的整合创新,解决了传统芯片架构中计算与存储模块间巨大的数据传输延迟、能量损耗痛点,既增加了数据处理速度,又大大降低了数据传输的功耗,从而使芯片能效比(即每瓦能提供的算力)得到2-3个数量级(>100倍)的提升。

达摩院计算技术实验室科学家郑宏忠曾讲过:“存算一体是颠覆性的芯片技术,它天然拥有高性能、高带宽和高能效的优势,可以从底层架构上解决后摩尔定律时代芯片的性能和能耗问题。”

因此,存算一体架构可以把算力做的更大,其芯片算力天花板比传统冯·诺依曼架构更高;同时,大幅降低了数据传输的能量损耗,提升了能效比;另外,还能得到更低的延时,存储和计算单元之间数据搬运的减少,大幅缩短了系统响应时间。

更重要的是,用存算一体架构做大算力AI芯片另一大优势在于成本控制。不依赖于GDDR 或HBM,存算一体芯片的成本能够相应的降低50%~70%。

换句话说,真正创新架构的AI芯片是将上文中提到的算力、功耗、成本三角形结构从原来的位置往上挪了三个档位。不仅可以提高算力,还可以达到降低功耗、控制成本的效果。


未来何去何从

如王绍迪所说,工具链对于任何芯片的使用都是非常重要。尤其是在存算一体芯片方面,因为是一个新架构的新产品,并没有现成的工具可用,因此如何打造一套可用的工具链显得尤为重要。知存科技在过去多年中也面向端侧应用开发出了可用的工具链。

“在未来的边缘计算产品,需要的工具链会是更复杂,所以我们现在公司超过一半的人在做软件集成开发环境。”王绍迪接着说。他表示,我们甚至还需要从训练开始,将存算一体技术融入其中。


据介绍,目前大部分开发算法的人用的是纯GPU的环境,但存算一体的算子跟GPU的算子显然不一样,计算的精度、模拟精度的定义和GPU计算的定义也都是不一样的。因此如果不去了解,或者软件工具不好用的话,那么就只能在GPU上做这个事情。“因此我们要解决这个问题,我们有极强的开发环境,里面虽然会调用GPU,但是调用GPU训练的时候,已经把存内计算的特点放进去了,这样就可以在开发过程中针对存内计算的场景去开发这个算法。”王绍迪告诉记者。

在王绍迪看来,存算一体就是计算模块,并不是存储,里面存放的只是相当于算法数据,其作用是新一代的计算技术,所以他们把存算一体看成新一代计算的模块,就像从CPU到GPU一样,GPU再到存算一体,从一维到二维到三维的计算的转变。这也就是为什么他认为存算一体未来更需要的是软件、生态怎么跟现有的计算系统更好地融合,更低成本地去开发,这也是存算一体的最终极形态。

除此以外,王绍迪也对存储一体的另外发展形态方向做了分享。如是否能以IP模式与其他计算模块集成,就是业界关注的一个热点。

针对这个问题,王绍迪回应道,IP模式是存算一体很适合走的道路,但难度大。一方面因为这需要考虑IP的接口完备定义以及和现有的要兼容;另一方面,这些IP加进去之后,是否要改变原有主芯片量产的流程?带来的替城成本和时间成本也让人更加谨慎。

为此王绍迪认为,存内计算最好的解决方式是未来通过chiplet的形式去结合。

在谈到存算一体技术未来的技术演进的时候,王绍迪表示,存算一体芯片一部分会遵循摩尔定律,一部分又不遵循摩尔定律。前者的代表是存储部分,后者的代表是计算部分。

“目前的存内计算大家都没有采用最先进的工艺,因此未来几年,在逻辑数据流当中的提升,大家还是会按摩尔定律继续往下走去提升。”王绍迪说。

他同时强调,存储技术技术会是存算一体技术发展的主要限制因素。“但目前存储技术已经远远领先于采用的容量了,距离我们达到存储器制约还有十年左右的时间。因此我们目前的工作重点在于如何继续创新,发现更多的问题,解决问题。”王绍迪说。



Baidu
map