欢迎访问
挑战英伟达,难度有多大?谁能成为下一个接棒者?
2024-04-16 来源:贤集网
2056

关键词: 人工智能 芯片 英伟达

随着围绕人工智能的押注越来越火热,一些芯片公司也被华尔街“挑选”了出来,认为它们可能从这一波热潮中受益,但分析师们普遍认为,这些公司所获得的收益不会来自于英伟达现在所拥有的份额。

英伟达GPU主导着人工智能芯片市场,这些实力玩家希望改变这一点。

如果说有哪只股票能从人工智能(AI)中获利,那一定是英伟达(Nvidia)。该公司率先开发了图形处理单元(GPU),可以在视频游戏中呈现逼真的图像。让这些芯片如此高效的是并行处理,它将计算复杂的工作分解成更小、更易于管理的块。英伟达能够调整这项技术来处理人工智能的严格要求,使其成为人工智能芯片领域最成功的公司。

然而,随着对人工智能的需求加速增长,许多技术中坚人士一直在幕后疯狂地研发可行的替代方案,以取代英伟达业界领先的处理器。


一、近期竞争对手的成果

1. 英特尔


早些时候,英特尔(Intel)发布了名为Gaudi 3的最新人工智能芯片,直接挑战了英伟达在GPU领域的主导地位。该公司声称,高迪训练人工智能模型的速度几乎是英伟达H100旗舰数据中心处理器的两倍,在推理方面快50%,即运行已经训练过的人工智能模型。该公司还表示,高迪的性能比H100高40%,“成本只是H100的一小部分”。



值得注意的是,英伟达最近推出了H100的后继产品Blackwell B200 AI GPU,将于今年晚些时候开始发货。虽然没有将高迪与B200进行比较,但英特尔公司表示,“我们确信高迪2将具有很强的竞争力”,能够与英伟达的最新处理器竞争,并称高迪是“一款强大的产品”。

英特尔可能并不打算超越英伟达最新的人工智能芯片,而是希望为企业提供一种更便宜的替代产品。同样值得注意的是,英伟达的H100和H200芯片一直供不应求,这给人工智能的应用带来了发展瓶颈。英特尔的最新产品可能有助于缓解积压。


2. Meta平台

Meta平台也不甘示弱,宣布推出Meta训练和推理加速器(MTIA) v2,这是一款在公司数据中心运行的定制人工智能芯片。Meta宣布其最新版本的MTIA“将计算和内存带宽提高了一倍以上”。初步结果显示,新处理器的性能是第一个版本的三倍。

Meta指出,它正试图通过其最新芯片提供“计算、内存带宽和内存容量的适当平衡”。该公司没有将这些芯片用于人工智能处理;至少,目前还没有。Meta正在使用这些处理器来提高其排名和推荐系统的速度和效率,这些系统用于在其社交媒体网站上显示相关内容和目标广告。

Meta是英伟达最大的客户之一,因此,如果它在人工智能芯片方面取得成功,该公司可能会减少对英伟达人工智能处理器的依赖。


3. Alphabet

在本周的Google Cloud Next发布会上,Alphabet宣布推出最新版本的以人工智能为中心的处理器——云张量处理单元(Cloud Tensor Processing Unit, TPU) v5p。该公司表示,其Cloud TPU可以训练支撑人工智能系统的大型语言模型(llm),速度比版本4快三倍。

与一般情况一样,谷歌的tpu不会出售,但将于今年晚些时候在谷歌云上提供。

然而,在一篇博客文章中,谷歌指出,它正在扩展其英伟达GPU的能力,增加了由英伟达H100 GPU驱动的A3超级计算机。谷歌云的客户还可以使用采用英伟达Blackwell B200和Grace Blackwell GB200 gpu的虚拟机。

谷歌还发布了与Arm Holdings合作设计的第一款数据中心中央处理器Axion。谷歌表示,Axion的速度比目前领先的CPU快30%,性能比英特尔和AMD的x86芯片高50%,效率比后者高62%。


二、Groq号称比英伟达的GPU更快

Groq收购了一家人工智能解决方案公司Definitive Intelligence。这是 Groq 在 2022 年收购高性能计算和人工智能基础设施解决方案公司 Maxeler Technologies 后的第二次收购。Groq来势很凶。




我们处于一个快节奏的世界中,人们习惯于快速获取信息和满足需求。研究表明,当网站页面延迟300 - 500毫秒(ms)时,用户粘性会下降20%左右。这在AI的时代下更为明显。速度是大多数人工智能应用程序的首要任务。类似ChatGPT这样的大语言模型(LLM)和其他生成式人工智能应用具有改变市场和解决重大挑战的潜力,但前提是它们足够快,还要有质量,也就是结果要准确。

如今行业不少人的共识认为,英伟达的成功不仅仅归功于其GPU硬件,还在于其CUDA软件生态系统。CUDA也被业界称为是其“护城河”。那么,其他AI芯片玩家该如何与英伟达竞争?

诚然,CUDA为GPU开发者提供了一个高效的编程框架,方便编程人员快速实现各种算子。不过,仅靠编程框架并不能实现高性能的算子处理。因此,英伟达有大量的软件开发团队和算子优化团队,通过仔细优化底层代码并提供相应的计算库,提升深度学习等应用计算效率。由于CUDA有较好的生态,这部分开源社区也有相当大的贡献。

然而,CUDA框架和GPU硬件架构的紧密耦合同时也带来了挑战,比如在GPU之间的数据交互通常需要通过全局内存(Global Memory),这可能导致大量的内存访问,从而影响性能。如果需要减少这类访存,需要利用Kernel的Fusion等技术。实际上,英伟达在H100里增加SM-SM的片上传输通路来实现SM间数据的复用、减少访存数量,但是这通常需要程序员手工完成,同样增加了性能优化的难度。另外,GPU的整个软件栈最早并不是专为深度学习设计的,它在提供通用性的同时,也引入了不小的开销,这在学术界也有不少相关的研究。

因此,这就给AI芯片的新挑战者如Groq,这提供了机会。例如Groq就是挖掘深度学习应用处理过程中的“确定性”来减少硬件开销、处理延时等。这也是Groq芯片的特色之处。

实现这么一款芯片的挑战是多方面的。其中关键之一是如何实现软硬件方面协同设计与优化,极大的挖掘“确定性”实现系统层面的Strong Scaling 。为了达到这个目标,Groq设计了基于“确定性调度”的数据流架构,硬件上为了消除“不确定性” 在计算、访存和互联架构上都进行了定制,并且把一些硬件上不好处理的问题通过特定的接口暴露给软件解决。软件上需要利用硬件的特性,结合上层应用做优化,还需要考虑易用性、兼容性和可扩展性等,这些需求都对配套工具链和系统层面提出很多新的挑战。

大模型确实给传统的芯片架构带来了极大的挑战,迫使芯片从业者发挥主观能动性,通过“另辟蹊径”的方式来寻求突破。值得关注的是,国内也已经有一批架构创新型的芯片企业,陆续推出了存算一体或近存计算的产品,例如、知存科技、后摩智能、灵汐科技等。

考虑到芯片的研发周期通常长达数年,在尝试新技术的时候需要对未来的应用(如LLM技术)的发展趋势有一个合理的预判。分析好应用的发展趋势,通过软硬件的设计预留一定的灵活性和通用性,更能够保证技术长期适用性。



Baidu
map