解决能源问题很关键
在传统的芯片里,数据的计算和存储通常在两个独立的单元进行。
研究发现在这样的芯片中,绝大多数的能量并非用于AI计算,而是消耗在计算和存储单元之间频繁的数据移动中。
无人机、智能可穿戴设备和工业物联网传感器等设备都配备了AI芯片,因此计算可以在数据发源地之互联网的[边缘]进行,可以实时处理并保证数据隐私。
在今天的AI芯片中,数据处理和数据存储在计算单元和内存单元中。
这些单元之间频繁的数据移动消耗了AI处理过程中的大部分能量,而微型边缘设备上的AI功能会受到电池容量的限制。
目前,边缘设备上的大多数AI应用程序都涉及将数据从设备移动到云端,AI在云端对其进行处理和分析,然后将结果移回设备。
虽然使用RRAM芯片进行计算不一定是新的,但通常,它会导致芯片上执行的计算精度降低,并且芯片架构缺乏灵活性。
因此减少数据移动是解决能源问题的关键。
研究小组发布新型AI芯片
斯坦福大学,加州大学圣地亚哥分校,以及清华大学合作研究团队提出了一个新的解决方案。
研究小组已经开发了一个新的内存中计算(CIM:compute-in-memory)芯片的原型,消除了这种分离的需要。
他们在8月17日发表在《自然》杂志上的论文中称,他们的原型展示了两倍于现有AI平台的效率。
这款芯片采用了基于阻变存储器(RRAM)的[存算一体]架构来减少数据流动。
它在支持多种AI应用的同时,大幅提升了能效,使得在边缘设备中实现复杂的AI任务成为可能。
这就好比直接在仓库中对原材料进行加工生产,而不必频繁地把原材料运往专门的加工车间,极大地减少了数据流动,从而大幅提升了芯片的能效。
NeuRRAM芯片的新颖之处
NeuRRAM芯片的能效不仅是目前最先进的内存计算芯片的两倍,而且它提供的结果也与传统数字芯片一样准确。
NeuRRAM的新颖之处在于,对于各种AI应用,极高的效率现在与极大的灵活性相结合,与标准数字通用计算平台相比,精度几乎没有损失。
研究人员通过一种称为能量延迟产物(EDP)的测量来测量芯片的能效。
NeuRRAM芯片实现了比最先进的芯片低1.6至2.3倍的EDP(越低越好)和7至13倍的计算密度。
它在手写数字识别任务中实现了99%的准确率;85.7%用于图像分类任务;和84.7%的谷歌语音命令识别任务。
此外,该芯片还实现了图像恢复任务中图像重建误差降低70%。
采用新存储技术实现多核存算一体
NeuRRAM芯片使用的阻变存储器是一种新型的非易失性存储技术。
这种技术具有高密度,非易失,易加工等优点,是低功耗,低成本的边缘计算场景的理想选择。
除了更高的能效,NeuRRAM也是首个支持多种神经网络模型的多核存算一体芯片。
因此,NeuRRAM可以被应用到多类边缘计算任务中,例如图像分类,图像去噪,关键词识别。
在这些不同应用中,NeuRRAM均可实现和传统数字芯片相当的AI推理准确度。
NeuRRAM还不是一颗产品级芯片,但是它验证了全栈式优化对于该技术产业化的重要性。
这款NeuRRAM神经形态芯片使AI离在与云断开的广泛边缘设备上运行又近了一步。
架构设计有别于传统芯片
在NeurRRAM架构中,CMOS神经元电路与RRAM权重在物理上交错。
它与传统设计不同,传统设计中的CMOS电路通常位于RRAM砝码的外围。
神经元与RRAM阵列的连接可以配置为神经元的输入或输出。
这允许神经网络在各种数据流方向上进行推理,而不会产生面积或功耗方面的开销。
这反过来又使体系结构更易于重新配置。
作为神经形态AI芯片,NeuroRRAM在48个神经突触内核上执行并行分布式处理。
为了同时实现高通用性和高效率,NeuRRAM通过将神经网络模型中的一层映射到多个内核上以对多个数据进行并行推理来支持数据并行性。
此外,NeuRRAM通过将模型的不同层映射到不同的内核并以流水线方式执行推理来提供模型并行性。
将推动未来的边缘计算
目前,NeuRRAM只是一种物理概念层面的验证,但要转化为实际的边缘设备则需要更多开发。
这种结合效率、准确性和执行不同任务的能力充分展示了芯片的潜力。
如果成功,像NeuRRAM这样的RRAM内存计算芯片具有几乎无限的潜力。它们可以嵌入农田进行实时AI计算,根据当前土壤条件调整灌溉系统。
大规模生产这些芯片会更加便宜,且适应性强、功耗低,可以用于改善我们的日常生活,如用于家庭健康监测的医疗设备。
也可用于解决从气候变化到粮食安全的各种问题。
AI计算是非常消耗能源的,但大部分的能源消耗不是由计算本身造成的。能源密集型部分是在AI芯片内的内存和计算单元之间移动数据。
结尾:
现在考虑商业化的问题还为时过早。
虽然他们认为该芯片的高效硬件实现与内存中计算是一个成功的组合,但广泛采用仍将取决于能否降低能效基准。