与任何人谈论云中的生成式人工智能,话题很快就会转到 GPU(图形处理单元)。但这可能是一个错误的目标。GPU 并不像人们想象的那么重要,几年后,话题可能会转向对于云中生成式 AI 系统的开发和部署更为重要。
目前的假设是 GPU 对于促进生成 AI 模型所需的复杂计算是不可或缺的。虽然 GPU 在推进人工智能方面发挥着关键作用,但过分强调它们可能会妨碍探索和利用同样有效且可能更可持续的替代方案。事实上,GPU 可能会像人工智能系统所需的其他资源(例如存储和处理空间)一样迅速成为单纯的一个商品。重点应该放在设计和部署这些系统上,而不仅仅是它们运行的硬件上。
GPU淘金热
GPU 的重要性在英伟达身上得到了很好的体现。在最近一个季度,英伟达公布了创纪录的数据中心收入 145 亿美元,比上一季度增长 41%,比去年同期增长 279%。它的 GPU 现在是人工智能处理的标准,甚至比游戏更重要。
GPU 最初是为了在 20 世纪 90 年代加速游戏中的 3D 图形而设计的,早期的 GPU 架构高度专门用于图形计算,主要用于渲染图像和处理与 3D 渲染相关的密集并行处理任务。这使得它们非常适合人工智能,因为它们擅长需要同时计算的任务。
GPU 真的很重要吗?
GPU 需要CPU来协调操作。尽管这简化了现代 GPU 架构的复杂性和功能,但其效率也低于应有的水平。GPU 与 CPU结合运行,将特定任务卸载给 GPU。此外,这些CPU还管理软件程序的整体操作。
除了效率问题之外,还需要完成不同部件的通信;拆卸模型、对模型进行部分处理,然后重新组装输出以进行综合分析或推理的挑战;以及使用 GPU 进行深度学习和人工智能所固有的复杂性。这种分割和重新集成过程是分配计算任务以优化性能的一部分,但它也有其自身的效率问题。
需要设计用于抽象和管理这些操作的软件库和框架。英伟达的 CUDA(统一计算设备架构)等技术提供了开发可利用 GPU 加速功能的软件所需的编程模型和工具包。
人们对英伟达高度感兴趣的一个核心原因是它提供了一个软件生态系统,使 GPU 能够更有效地与应用程序一起工作,包括游戏、深度学习和生成式人工智能。如果没有这些生态系统,CUDA 和其他生态系统就不会具有相同的潜力。因此,焦点集中在英伟达身上,它目前拥有处理器和生态系统。
ASIC——GPU面临最强竞争
去年12月,谷歌官宣了多模态大模型Gemini,包含了三个版本,其中Gemini Ultra版本甚至在大部分测试中完全击败了OpenAI的GPT-4。同时还丢出另一个重磅炸弹——TPU v5p,号称是现在最强大的AI自研芯片。
TPU,全称Tensor Processing Unit,即张量处理单元。所谓“张量(tensor)”,是一个包含多个数字(多维数组)的数学实体。目前,几乎所有的机器学习系统,都使用张量作为基本数据结构。所以,张量处理单元,我们可以简单理解为“AI处理单元”。
谷歌TPU就是基于ASIC专用芯片开发,为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但ASIC芯片的算法是固定的,一旦算法变化就可能无法使用。
随着人工智能算法不断涌现,ASIC专用芯片如何做到适应各种算法是最个大问题,如果像GPU那样,通过架构来适应各种算法,那ASIC专用芯片就变成了同CPU、GPU一样的通用芯片,在性能和功耗上就没有优势了。这意味着玩AISC芯片需要强大实力,包括雄厚的资金,强大的技术实力和丰富的应用场景。
这里请注意,谷歌去年发布TPU v5p的时候,一同发布了多模态大模型Gemini,该模型在图像、音频、视频和文本领域拥有强大的功能。与英伟达开放GPU购买策略不同,谷歌高端TPU主要供自家产品和服务运用,这才是关键。换句话说,谷歌高端TPU是基于自家多模态大模型Gemini开发的专用AI芯片,在自家的产品和服务上做到最优,性能表现丝毫不输GPU。
公开的信息显示,TPU v5p每个模块有8960颗芯片,较之上代v4的4096有所提升,且每块架构内的总浮点运算次数(FLOPs)增加至原来的四倍,吞吐能力达到惊人的4800Gbps。新型架构在内存及带宽方面更为出色,高达95GB的高带宽内存(HBM)远超TPU v4的32GB。
根据官方数据显示,谷歌的TPU v5p在训练大规模语言模型上性能表现,达到了A100 GPU四倍,比起英伟达的顶配H100显卡性能也丝毫不落下风。当然这只是谷歌基于自身的Gemini模型做的测试,肯定在研发阶段就做了优化和匹配。但足见TPU v5p性能之强,同时也可以说明,ASIC芯片在AI大模型应用方面有着丝毫不输GPU的优势。
截至目前,谷歌、英特尔、英伟达都相继发布TPU、DPU等ASIC芯片,国内ICG、寒武纪、比特大陆、地平线、阿里巴巴等也都推出了深度神经网络加速的ASIC芯片。目前GPU应用范围广,市场非常成熟,但并不意味着其他的芯片就没有机会,ASIC的发展势头依然很猛,正在成为GPU最强大的挑战者。
DPU:数据中心算力基座
随着信息技术的持续发展,数据中心网络带宽从100G迈入400G,甚至将提升至800G或1.6T。然而,作为提供算力的物理载体,受限于通用CPU的结构的冯诺依曼瓶颈、摩尔定律逐渐失效等因素的影响,以CPU为网络核心的数据处理能力难以支持大规模新型数据中心的网络和数据的算力需求。
由此,DPU已经成为继CPU、GPU之后未来数据中心的第三颗主力芯片。DPU提供的高吞吐、低时延、基础设施卸载能力,帮助数据中心完美的规避了“信息孤岛”问题。未来的技术发展趋势将会是高度集成化的片上数据中心的模式(Data Center Infrastructure on a chip),即一个GPU、CPU、DPU共存的时代。
联通研究院曹畅博士曾在2023中国计算机大会上表示,DPU是衔接计算和网络两大领域的重要枢纽,云、网、算协同,通过资源的深度感知与一体化编排,可以实现算力发现和跨域互通,打通数据与计算节点的通路。DPU作为网络和计算的衔接点,可解决数据传输的“最后一米”问题。通过DPU可以实现虚拟化层的全卸载和定制化的业务加速能力,具有更强的可编程能力。