图形处理单元(GPU)可能已经成为人工智能领域令人垂涎的硬件,但它们作为最受欢迎组件的地位可能会减弱。
对 GPU 前所未有的需求使 NVIDIA 成为价值数万亿美元的公司。然而,Tenstorrent 首席运营官 Keith Witek 表示,就连 NVIDIA 也开始放弃他们最初创建的图形芯片。
“他们甚至将其架构转向异构计算,这看起来更像张量计算机。所以是的,我认为它会朝着这个方向发展。甚至人工智能图形业务领域的人士也意识到将他们的架构向这个方向发展的好处,”Witek在独家采访中告诉AIM 。
他主张采用包含张量单元、图形单元和 CPU 的片上系统 (SoC) 架构,并声称利用 CPU 和图形处理器的异构计算是处理未来工作负载的最佳方法。
最近,NVIDIA 最大的企业客户之一的微软和 AWS 等大型科技公司开发了自己的 AI 芯片,以减少对 NVIDIA GPU 的依赖,同时降低成本。
在最近举行的 Google I/O 2024 上,这家科技巨头宣布推出 Trillium TPU,这是其第六代芯片,旨在更有效地处理人工智能工作负载。
有趣的是,AWS、微软和谷歌设计的芯片也有异构架构。例如,Azure Maia AI Accelerator 和 Azure Cobalt CPU 在同一芯片上集成了不同的专用计算引擎和加速器。
同样,AWS Inferentia 和 Trainium 也在同一芯片上集成了不同的专用计算引擎和加速器。
然而,这些芯片主要供内部使用。另一方面,Tenstorrent 将其芯片出售给企业客户,使其与 NVIDIA 形成直接竞争。
NPU和异构计算更适用于生成式AI
首先来说一说NPU。NPU也叫神经网络处理器, 这是一种专门设计用于加速深度学习任务和机器学习算法的处理器。深度学习是AI的一个分支,在机器学习中占据核心地位,它在处理图像识别、语音识别、自然语言处理等神经网络模型场景时发挥着重要作用,而NPU能够显著加速深度学习模型的推理和训练过程,另外NPU有更高的能效比,更适用于边缘计算设备和移动终端。
异构计算是指在一个计算系统中使用不同类型的处理器或者计算单元来协同完成计算任务的技术,这些单元包括CPU、GPU、以及如NPU这样的专用加速器。它的目的在于通过结合不同处理器的优势,来提高系统的整体性能、效率和适应各种复杂计算场景的能力,同时解决单一架构在功耗、散热等方面的局限性。
简单地说,就是通过异构计算将生成式AI任务中不同类型的计算任务分配给最适合的计算单元。例如,面对丰富的生成式AI用例,CPU适用于需要低时延的应用场景,或者相对较小的传统模型,如卷积神经网络模型(CNN),以及一些特定的大语言模型(LLM);GPU擅长面向高精度格式的并行处理,比如对画质要求非常高的图像以及视频处理;在持续型用例中,需要以低功耗实现持续稳定的高峰值性能,NPU可以发挥其最大优势。
那么NPU和异构计算会更适用于生成式AI吗?
答案是肯定的。实际上,生成式AI涉及大量的数据处理和复杂的计算任务,尤其是深度学习模型的训练和推理。
这些任务对计算资源的要求极高,单独依靠传统的CPU或GPU可能无法满足性能要求。NPU专为神经网络计算设计,能够模拟人类神经元和突触的工作方式,对AI计算涉及的大量神经网络模型进行特殊优化,从而提高处理效率和降低能耗。
其次,异构计算的出现进一步提升了生成式AI的计算能力。异构计算通过整合不同架构的计算单元(如CPU、GPU、NPU等),使它们能够并行工作,从而充分发挥各自的优势。
此外,随着生成式AI应用的不断扩展和复杂化,对算力的需求也在持续增长。NPU和异构计算的结合能够更好地满足这种需求,以高通为例,CPU、GPU等计算单元每年都有迭代,并且每一次迭代都会带来巨大的性能升级,推动生成式AI技术的进一步发展和应用。
AI算力竞赛,巨头加码,谁主沉浮
AI芯片可是AI发展的核心动力,没了它,就别想实现真正的智能化。现在各大科技巨头都在狂砸资金研发AI芯片,可谓是不遗余力啊。
比如说英伟达,作为显卡之王,它们家的GPU可是AI训练的利器。最新的H100就集成了超过8万亿晶体管,算力爆表,专门为大规模AI模型量身定制。再比如谷歌的TPU,凭借定制化设计,在推理加速方面效率极高。
英特尔、AMD这些传统芯片巨头也在加紧部署,纷纷推出面向AI优化的CPU和GPU产品线。就连苹果、亚马逊这些公司,也在AI芯片领域布局。
这些巨头们可都不是吃素的,各自都有自家的拳头产品和技术优势。比如异构计算架构、专用AI加速器、先进制程工艺等等,都是提升AI算力的法宝。谁能在这场算力大战中脱颖而出,将主导AI的未来发展方向,实在令人期待啊。
说到这些科技巨头在AI芯片领域的布局,你可能会好奇:他们都推出了啥拳头产品啊?
咱先说说英伟达吧。作为显卡一哥,它家的GPU可是AI训练的利器。最新的H100芯片集成了超过80亿晶体管,算力爆表,就是为大规模AI模型量身定制的。
再看看谷歌的TPU吧,这可是推理加速的专业户。通过定制化设计,在推理效率上远超同类产品。
英特尔和AMD这些老牌芯片巨头也不甘示弱。英特尔的Ponte Vecchio就是专门针对AI优化的高性能GPU;AMD的InstinctMI200则融合了CPU、GPU和矩阵引擎,异构计算架构提升了AI算力。
就连苹果和亚马逊这些公司,也在AI芯片领域跃跃欲试呢。苹果的M系列芯片就内置了神经网络加速器;亚马逊的Inferentia则是推理专用芯片,在云端AI服务中大显身手。
各自都有自家的拳头产品和技术优势,比如异构架构、专用AI加速器、先进制程工艺等等,都是提升AI算力的法宝。谁能在这场算力大战中脱颖而出,将主导AI的未来发展方向,实在令人期待啊。