美国开放人工智能研究中心(OpenAI)首席执行官山姆·奥特曼等人认为,人工智能(AI)将从根本上改变世界经济,拥有强大的计算芯片供应能力至关重要。芯片是推动AI行业发展的重要因素,其性能和运算能力直接影响着AI技术的进步和应用前景。
英国《自然》杂志网站在近日的报道中指出,工程师正竞相开发包括图形处理单元(GPU)等在内的尖端芯片,以满足未来AI的计算需求。
GPU加快机器学习运算速度
GPU是英伟达公司标志性的计算机芯片。传统中央处理单元(CPU)按顺序处理指令,而GPU可并行处理更多指令,因此可分布式训练程序,从而大大加快机器学习的运算速度。
2022年,英伟达公司Hopper超级芯片在MLPerf上击败了包括图像分类和语音识别在内所有类别的竞争对手。MLPerf是国际上最权威、最有影响力的AI基准测试之一,被誉为“AI界奥运会”。
今年3月,英伟达正式展示了性能更优异的新一代AI芯片Blackwell。它拥有2080亿个晶体管,是英伟达首个采用多芯片封装设计的GPU。随着技术发展,GPU变得越来越大,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。Blackwell就是在同一个芯片上集成了两个GPU,新架构将通过芯片与芯片间的连接技术,一步步构建出更大型AI超算集群。
如果要训练一个拥有1.8万亿个参数的GPT模型,需要8000块Hopper芯片,耗能15兆瓦,历时3个月。如果使用Blackwell芯片,只需2000块,耗能4兆瓦,就能在同样的时间内完成任务。
AI芯片市场持续增长,英伟达目前供应了其中80%以上的产品。2023年,该公司售出55万块Hopper芯片。近日,该公司市值首次突破3万亿美元,超越苹果,仅次于微软,成为全球市值第二高的公司。
多种芯片竞相涌现
尽管GPU一直是AI革命的核心,但它们并非是唯一“主角”。随着AI应用的激增,AI芯片的种类也在激增,现场可编程门阵列(FPGA)可谓“一枝独秀”。
FPGA是一种在计算和数字电路领域广泛应用的硬件设备。它以独特的可编程性和灵活性,成为嵌入式系统、高性能计算处理等多种应用的理想选择。
这就像搭建乐高积木,工程师可将FPGA电路一个接一个地构建到他们能想象的任何设计中,无论是洗衣机传感器还是用于引导自动驾驶汽车的AI。不过,与拥有不可调节电路的AI芯片(如GPU)相比,FPGA运行速度相对更慢、效率更低。但FPGA对处理某些任务(如粒子对撞机产生的数据)很有用。英伟达加速计算集团产品营销总监戴维·萨尔瓦托指出,FPGA的易编程性也对原型设计很有帮助。
张量处理单元(TPU)则是谷歌公司专为神经网络机器学习而定制的芯片,旨在执行矩阵计算和张量操作。TPU作为谷歌深度学习框架TensorFlow的加速器于2016年首次推出,其设计目标是提供低功耗、高效能的矩阵运算,以满足大规模机器学习和神经网络训练的需求。TPU在性能与能效之间取得了良好平衡。它们的功耗相对较低,这对于大规模数据中心和在移动设备上的应用至关重要。
此外,元宇宙平台也在独立开发自己的芯片。谷歌、英特尔和高通成立了UXL基金会,用以开发一套支持多种AI加速器芯片的软件和工具,以此对抗英伟达的GPU。
当然,GPU等AI芯片的兴起并不意味着传统CPU的终结,两者互相取长补短已成大势所趋。
科技巨头们加速自研AI芯片
为了抢占AI发展先机,降低对英伟达芯片的依赖,科技巨头们如Meta、谷歌、微软、亚马逊、OpenAI等都在自主研发定制AI芯片。他们希望通过自研芯片提高性能、降低成本、减少不必要功能,从而在AI竞争中占据优势。
以Meta为例,该公司最新推出的MTIA芯片系列专为社交软件的排名和推荐系统而设计,性能较上一代有显著提升。谷歌也在研发基于ARM架构的Axion芯片,用于数据中心的数据处理和AI运算。微软和亚马逊的自研芯片计划也在紧锣密鼓推进中。
对于这些科技巨头而言,自研AI芯片不仅是为了降低采购成本,更重要的是可以根据自身需求定制个性化硬件,通过减少不必要功能实现降本增效。与通用型硬件相比,专用AI芯片在特定场景下能够发挥更大的优势。
中国如何突破AI芯片封锁
Gartner研究副总裁盛陵海日前在一场分享会上直言,在美国几度加码限制之后,中国获得先进AI芯片和技术的难度大增。不过,在吸取了过去的经验教训后,中国已经提前做了一些准备,不至于出现手足无措的情况。
“我们现在已经走到了自主研发的阶段,展望未来5到10年,我们有机会可以通过积极新的路径实现‘禁运’封锁的整体突破。”盛陵海乐观道。“在当下非常火热的大模型方面,中国与国际企业的差距并没有多大。这足以证明我们可以实现自主研发,这也是我坚信我们能够搞好自己的AI芯片的原因。”盛陵海接着说。
在具体讲如何突破AI芯片之前,盛陵海首先强调,国内AI企业必须要放弃幻想。因为美国对我们的封锁大概率会一直存在。为此,只有转向本土供应链,只有坚持使用国产芯片,才是最终的解决方案。虽然转向国产,必然会碰到不少问题和局限性。但在海外对我们持久限制的既定前提下,继续使用海外芯片厂商的“降规格”版本产品是权宜之计,我们必须做好打游击战的准备。
“唯有转向国产芯片,把碰到的问题一一破解,把国内的整个AI芯片乃至整个生态培养起来才是长久之道。”盛陵海表示。当然,可以明见的是,在这种发展方式下,中美AI芯片行业会割裂成两个生态,这从全球化的角度来看当然是不太有利。
“但也正是在这种竞争态势之下,让饱受英伟达重压的国产AI芯片找到可乘之机”。盛陵海告诉半导体行业观察。他进一步指出,对于国内的AI芯片企业来说,去训练市场跟英伟达等现有对手掰手腕,也是胜算不大的,事实证明也是如此。但企业们可以在广大的AI推理芯片市场找到突破点,这实际上也是一个庞大的市场。
Gartner预测,到2025年,云端的“推理”需求会超过“训练”。这一方面是因为过去几年厂商在训练方面投入了巨额的资源,这种投资力度不可能一直持续下去;另一方面,诸如OpenAI应用端被挤爆,无法登录的现状频发,证明我们在推理上面的投入还是不够多。
基于这两点现状,大家自然就会往推理侧投资更多芯片,这也是Gartner做出2025年会出现交叉点,之后推理需求量会比训练增加更快预测的原因。当然,这个成立的前提是会有越来越多的人使用AI应用。
Gartner同时还预测,到2026年之后,更多基于GenAI的要求应答将在端侧而非云端处理。在云端投入持续高涨,Gartner认为这是一条必经之路。
“设备端可以支持十亿到一百亿规模的模型,边缘端则能支持一百亿到一千亿的这个规模的大模型,这意味着它们都可以实际支持一定的企业或者个人的应用。换而言之,这个从技术上其实也是可行的。”盛陵海说。他进一步指出,边缘侧和端侧的生成式人工智能应用会从智能手机、电脑,不断地扩散、到消费物联网、智能家居和汽车。
对于国产AI芯片企业而言,在这股大浪潮下,针对推理方面,也可以从各个环节入手,寻找机会。不过,正如大家所见,现在市场上的很多解决方案都是各自为政,这样带来的重复造轮子和生态不兼容的副作用影响深远。