欢迎访问
“群模共舞”的AI芯片怨念,千呼万唤的“存算一体”能否成为新顶流?
2024-01-11 来源:贤集网
354

关键词: 人工智能 云计算 芯片

2023是“群模共舞”的元年。先是ChatGPT的横空出世给予众人致命震撼,随后国内诸多AI、互联网公司迅速加大资源投入“练模”。

在这场“模型大战”中,算力作为不可或缺的重武器,一度成为众公司争抢的关键要素。

作为人工智能的三驾马车之一,算力是训练AI模型、推理任务的关键。倘若把训练模型当作是做一道精致的菜肴,算力就好比一套称手的烹饪工具。

世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,面对鲜美的食材也只能望而兴叹。

“大模型动辄百亿级的参数,仓库里没有几百张A100、H100,都谈不上入围。”

所谓兵马未动、粮草先行。为了练模,模型厂商们对算力芯片的购买达到了前所未有的水平。大模型这波风潮下,最先受益的,既不是躬身入局的企业,也非下游场景用户,而是以Nvidia为代表的算力芯片厂商。


1、芯片发展面临“三座大山”

当前AI技术的快速更新迭代对芯片提出了多个挑战,尤其绕不过“存储墙”、“能耗墙”和“编译墙”三座大山。



首先,在传统冯·诺依曼架构下,芯片在执行计算密集型任务时面临“存储墙”问题,这导致计算芯片的功耗和性能都受限于处理器和存储器之间的数据搬运,严重限制了AI芯片在计算规模、密度、效率等方面的提升。

其次,由于“存储墙”的存在,数据需要频繁搬运,在存储、计算单元间来回转移,导致严重的功耗损失,撞到“能耗墙”上。

英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。另有统计表明,在大算力的AI应用中,数据搬运操作消耗90%的时间和功耗,数据搬运的功耗是运算的650倍。

最后,“编译墙”隐于二者之中,极短时间下的大量数据搬运使得编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化,手动优化又消耗了大量时间。

过去,凭借先进制程不断突破,这三座“大山”的弊病还能通过快速提升的算力来弥补。

但一个残酷的现实是,过去数十年间,通过工艺制程的提升改善芯片算力问题的“老办法”正在逐步失效——

摩尔定律正在走向物理极限,HBM、3D DRAM、更好的互联等传统“解法”也“治标不治本”,晶体管微缩越来越难,提升算力性能兼具降低功耗这条路越走越艰辛。

随着大模型时代来临,激增的数据计算,无疑进一步放大了“三道墙”的影响。


2、大模型呼唤“存算一体”

大模型的出现,促使AI对大规模芯片算力的需求更加强烈,按照传统技术路线简单堆砌芯片无法实现期待的算力规模增长。

同时,芯片能效问题变得更加突出。当前AI芯片能效依然低下,大模型每次训练和推断的电费成本昂贵,导致当前大模型的应用经济性较低。

虽然说现在很多大模型训练使用GPU,但GPU的架构演进并未解决大算力和大模型的挑战。

一方面,存储在GPU中所占比例越来越大。从GPU架构的演进趋势,可以看到存储在计算芯片中所占的比例越来越大。计算芯片从以计算单元为核心演变到以存储/数据流为核心的架构设计理念。

另一方面,数据传输功耗仍是提升算力和算力密度的瓶颈,本质上就是冯·诺依曼计算机体系结构计算与存储的分离设计所致。

总体而言,大模型对于算力的需求呈现指数型增长,但GPU又贵功耗又高,GPU集群的线性度也随规模增大而下降,探索非冯诺依曼架构已经非常火热。

AMD、特斯拉、三星、阿里巴巴等公司都曾在公开场合表示,下一代技术的储备和演进的方向是在“存算一体”技术架构中寻找新的发展动能。



例如,阿里达摩院就曾表示,相比传统CPU计算系统,存算一体芯片的性能可以提升10倍以上,能效提升超过300倍。

那么,“存算一体”技术到底有何优势?

存算一体与经典的冯诺依曼架构不同,它是在存储器中嵌入计算能力,将存储单元和计算单元合为一体,省去了计算过程中数据搬运环节,消除了由于数据搬运带来的功耗和延迟,从而进一步提升计算能效。

同时,由于计算编程模型被降低,编译器也可以感知每一层的数据状态,编译效率也将大幅度提升,“编译墙”的问题也得到了解决,具体而言:

首先,运算的性能更高

存算一体芯片的计算能力取决于存储器的容量规模。所有电子设备当中都会集成存储器,存储与计算相伴而行,有运算的地方就需要对数据进行存储。

如果采用存算一体芯片,随着存储容量规模的提高,其运算能力也会随之提高。

其次,功耗更低

由于数据传输路径的优化,存算一体技术在提高传输效率的同时,节省了数据传输的损耗,带来更好的能效比、低功耗。在相同算力下,AI部分能效比将有2-3个数量级的提升,更低散热成本,更高可靠性。

最后,成本更低

单位算力成本远低于传统计算芯片。同时,存算一体可以采用更成熟的制造工艺,大算力芯片往往需要采用先进工艺,这使存算一体芯片的晶圆成本低得多。

再考虑到配套的外围芯片、元器件等因素,整个系统成本将有5倍左右降低。

正是因为这些基于基础架构革新所带来的性能提升,存算一体技术有望在很大程度上解决AI大模型面临的算力挑战。

特别是针对大模型的推理,存算一体保持权重的特点与大模型中大规模的参数部署需求相匹配,可能是存算一体技术最先服务大模型应用的场景之一。


3、大模型「下半场」:边缘计算成为重点

如果说大模型「上半场」是技术的较量,那么「下半场」则是商业化的比拼。

无可置疑,大模型将解决掣肘AI落地的碎片化难题,并极大地削减研发成本,给AI带来质的飞跃,使其具备更大的想象空间。但这只能算是阶段性胜利,只有客户乖乖掏出钱包里的金币,并持续复购,产生价值,AI才算取得成功。

这个AI商业闭环中,还涉及到一个部署成本的问题。

AI不是消费电子,即买即用,尽管其常常被嵌入至各类电子设备中。但AI的消费大户,仍是以降本增效为目的的B/G客户。这类客户对于AI的最后一公里交付尤为重视,他们并不愿意为AI方案的部署花费任何多余的金币。

传统AI部署常见于云端一体,主要通过云端进行计算,感知端仅有微弱算力,数据在端侧采,算法在云上跑。这种模式存在几个问题:

云计算固然有大算力的好处,但对于一些需要快速响应、计算的场景,其存在的时滞现象非常致命;

云服务器费用高昂,许多企业并不需要大算力,盲目上云反而会造成算力浪费,性价比不高;

数据上云,存在一定安全风险;

为此,AI公司们在云端一体之间,增加了边缘计算,来解决云端算力浪费及端侧算力不足的问题。

边缘计算的灵感得益于章鱼的八只触手。作为云端计算的协同和补充,边缘计算能够在数据源头附近的网关执行数据处理、分析,这种独特的优势可以实现各单元之间执行不同的任务并实现多任务协同,既满足碎片化场景的算力调度需求,又具备低延时、安全等特点。

并且,边缘计算设备的部署成本相对较低,客户不需要部署昂贵的云服务器就能用上AI,这一核心优势使得边缘计算备受青睐,已然成为AI落地的重要途径之一。

但要真正让算法模型在边缘计算设备上跑起来,仍有两个比较重要的难点。

第一,边缘设备的算力比云端服务器弱,而大部分的算法模型,是在服务器上训练的,算法模型要实现迁移,需要做大量的优化工作。

第二,算法模型要在边缘设备上部署、执行推理任务,需要一颗强大的AI算力芯片,并针对芯片做适配,才能保证算法模型的运行效率。也就是说,AI算力芯片的生态极其重要,但现阶段比较尴尬的是,AI算力芯片厂商较为分散。

可以预见的是,在大模型时代,第一个问题较为容易解决,因为大模型自带极强的泛化能力。至于第二个点,则要比想象中难得多,其涉及到底层芯片技术的研发和攻关,以及对应的生态协同。如何让边缘设备运行大模型,对于AI芯片厂商而言,这既是机遇,也是挑战。


4、大模型时代下,AI芯片的国产替代潮

AI芯片功能上分两类,分别是训练芯片和推理芯片。

训练芯片主要用于大模型的训练、学习和优化,侧重于计算性能,而推理芯片则主要为模型的推理运算提供算力。二者之间的区别在于,训练芯片重计算,推理芯片重效率(时延、功耗)。并且,从云边端协同的角度看,训练芯片多用于服务器,推理芯片则主要部署在边端设备之上。

当前,国内大模型正处于“练模”阶段,需要极强的算力支撑,因此AI公司们将目光更多放在了训练芯片上,即购买大量的GPU算力来训练算法模型。这也直接成就了Nvidia的万亿市值神话,其H100、H800等芯片一骑绝尘,国内则有华为、寒武纪等厂商在努力追赶。

一旦大模型成熟,与之而来的便是落地应用,这时必然要用到边端设备,从而滋生出对推理芯片的庞大需求。

然而,由于不可抗力因素,现阶段的训练芯片和推理芯片皆受到贸易管制,在此背景下,AI芯片的国产替代提上了日程。

作为深圳AI第一股,云天励飞在边缘侧AI芯片的布局已经成果初显。2020年,云天励飞第一代AI推理芯片DeepEye1000实现商用,并落地到AI相机、安全PC、商业机器人等边缘计算场景。

云天励飞副总裁、芯片产品线总经理李爱军告诉雷峰网,大模型作为AI的进阶态,本质上还是要落地到具体业务场景才能产生价值,而边缘计算则是不可逆的趋势,因此做好边缘计算的推理芯片,对于未来大模型的应用至关重要。

在过去三年多的时间中,DeepEye1000广泛落地到各行各业,但同时也带来了诸多反馈:算力碎片化、算法长尾化、产品非标化、规模碎片化等痛点依旧存在,传统以追求单一场景PPA的传统芯片模式难以适应AI边缘计算场景下人工智能落地的需求。

基于此,云天励飞打造了新一代的边缘计算芯片平台DeepEdge10。

DeepEdge10属于主控级SoC,可以满足绝大部分场景的控制需要,同时基于云天励飞自研的新一代的处理器NNP400T,可以高效支持Transformer。在架构方面,DeepEdge10采用了D2D Chiplet封装结构,可以实现算力灵活扩展,并通过C2CMesh互联扩展,可以支持千亿级大模型部署。

相较于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整体算力提升了4倍以上,采用D2D Chiplet封装,实现从12T到48T的算力覆盖,总体性能比上一代芯片超过20倍。

在DeepEdge10的基础上,云天励飞还打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的内存带宽,以及512GB统一内存。目前,DeepEdge10已经支持主流开源模型超过100种,模型支持的数量还在更新,同时支持客户模型定制化的部署。

具体性能上,在Edge Device 端,DeepEdge10Max运行端侧70亿参数的大模型可以获得每秒27Token/s,最高可兼容130亿参数的大模型。而在Edge Server上,采用C2C Mesh互联,多卡协同,运行700亿参数大模型可获得42Token/s的生成速度,最高兼容千亿级别参数的大模型。

据了解,DeepEdge10芯片平台核心竞争力在于边缘计算,可以针对不同的场景提供差异化算力,从而满足碎片化、多样化需求。目前,DeepEdge10已经进入了大规模的应用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的产品合作伙伴,均可在线下载更新云天超过100多种算法。

李爱军表示,大模型未来落地到机器人、无人驾驶汽车等场景,都需要用到推理芯片,而推理芯片正处于百家争鸣的过程。而在国内,如何基于国产工艺实现推理芯片的研发、流片和商用至关重要。

现阶段,国内芯片的成熟工艺处于14nm的节点。对于千亿级、万亿级别的大模型,其推理芯片不但需要极强的计算能力,还要保持超低的功耗和超低的成本,对芯片制程的工艺达到了5nm、2nm。显然,国产芯片离最高端的芯片还有一段距离。

不过,结合当前国内的生产工艺,云天励飞与合作伙伴于2020年开始技术攻关,在ChipletD2D的技术上定制了一系列IP,实现了可以在14nm芯片上运行千亿大模型的功能。虽然成本、功耗会高一些,但这已经是国产芯片的最优水平。至于更高工艺的芯片,国内芯片厂商既需要资源,也需要时间。

“我们志在打造国产工艺自主可控的AI芯片。”李爱军告诉雷峰网,这条路道阻且长,但云天励飞会坚定地走下去。



Baidu
map