欢迎访问
英伟达放话没有对手!这底气来自于哪里?
2024-03-13 来源:贤集网
2980

关键词: 英伟达 人工智能 半导体

英伟达 CEO 黄仁勋最近声称英伟达的 GPU“非常好,即使竞争对手的芯片是免费的,但它也不够便宜”。

黄仁勋进一步解释说,就 AI 数据中心的总拥有成本(TCO)而言,英伟达 GPU 的定价并不重要。

根据斯坦福经济政策研究所(SIEPR)放出的一段会议视频,SIEPR 前 Trione 主任、斯坦福大学 Charles R. Schwab 经济学名誉教授 John Shoven 问道:“你们制造了完全先进的芯片,这是有可能的吗?你将面临足够好而且便宜得多的竞争,这是威胁吗?”



黄仁勋表示:“我们的竞争比地球上任何公司都激烈,在某些情况下,甚至英伟达的客户也是竞争对手。此外,英伟达还积极帮助正在设计替代 AI 处理器的客户,甚至向他们透露了即将推出的英伟达芯片路线图。”

黄仁勋称,英伟达以“完全开放的方式”运作,同时与业内几乎所有其他人合作。买卖芯片的人会考虑芯片的价格,而运营数据中心的人会考虑运营成本。当然,公司会很清楚总体拥有成本,这基本上意味着英伟达的优势,如部署时间、性能、利用率和灵活性。即使竞争对手的芯片是免费的,它也不够便宜。

黄仁勋在结束对 Shoven 的回答时强调,英伟达的目标是“以无与伦比的 TCO 保持领先地位”。


英伟达,凭什么遥遥领先?

和其它半导体企业相比,英伟达是“遥遥领先”的,起码在市值上如此。

如今,在全球前十的半导体企业中,不算台积电和阿斯麦这样的纯代工厂和光刻机厂商,英伟达的市值约等于剩下七家市值的总和,甚至还有富余。

撑起英伟达市值的,是其全球领先的AI计算芯片,包括A100、H100和即将上市的H200。根据富国银行的统计,英伟达目前在全球数据中心AI加速市场拥有98%的份额,处于绝对的统治地位。

很多时候,这些芯片花钱也都很难买到。早在2023年8月的时候,就有媒体报道,英伟达的订单排到了2024年。其芯片的交付周期,也曾一度高达8~11个月(如今已经缩短为3~4个月)。产能不足,供不应求,这些需求应该自然溢出到其他厂商。从供应链安全的角度考虑,面对如此集中的市场,企业似乎也不应该只选择英伟达这一家的产品。

但全球的企业排着队将订单送到英伟达手中,难道,除了英伟达的芯片之外,AMD、英特尔这些企业的芯片都办法训练大模型吗?

答案当然不是,但使用英伟达的芯片,目前仍然是训练和运行大模型的最优选择。这种优势体现在四个方面,包括硬件性能、软件生态、适用范围和整体性价比。

首先是硬件性能。

以英伟达在2020年5月发布的NVIDIA A100 GPU为例,这款芯片采用7nm制程和NVIDIA Ampere架构,拥有540亿个晶体管和6912个CUDA核心,最高可以提供80GB的GPU显存,以及2TB/s的全球超快显存带宽。在大模型训练和推理常用的FP16(半精度浮点运算)Tensor Core峰值性能可以达到312TF,使用稀疏计算的情况下,可以达到624TF。

很多人对这些指标没什么概念,我们来简单解释一下。

芯片的制程决定着同样大小的芯片能够放下的晶体管的数量,而晶体管的数量越多,芯片的计算能力越强,这也是5纳米的芯片一定比7纳米的芯片先进的原因。

至于CUDA核心,即CUDA线程,是英伟达CUDA平台编程模型中的基本执行单元。我们都知道,GPU最强的能力是并行计算,而CUDA核心越多,意味着芯片能同时并行计算的数量也就越多,芯片的性能更强,完成同样任务的速度更快。



需要注意的是,芯片的计算能力强和计算效率高是两个概念。制程和晶体管的数量代表着计算能力,而CUDA核心的数量,代表着计算效率。

至于显存和带宽,则决定了GPU在运行时的效率。其中显存决定GPU同时能够存储的最大数据,而显存带宽,则决定显存和显卡之间的数据传输速度。

举一个简单直白的例子,在一个流水线上,原材料需要从库房运送到车间进行装备,然后将成品再运回库房。显存决定了库房能够放多少原材料,而显存带宽,则决定每次从库房送原材料的速度。如果库房不够大,或者材料传输速度不够快,那车间的生产能力再强,也无法生产出成品。所以显存和带宽,其实决定芯片能够参与训练多大参数规模的大模型,以及训练大模型的速度。

明白了这些基本概念,我们再用最有代表性的两家企业,进行对比。

首先是AMD,目前主打的芯片是MI250X,发布于2021年年底,采用7nm工艺,拥有582亿个晶体管,显存128G,显存带宽3.2768 TB/s,FP16峰值性能为369 TF,只有60个计算单元。

其次是英特尔,目前主打芯片Ponte Vecchio,同样发布于2021年,采用7nm工艺,宣称晶体管数量达到1020亿,是全世界晶体管数量最多的芯片。这款芯片显存128GB,显存带宽3.2TB/s,FP16峰值性能184TF,计算单元102个。

我们会发现,即使从单纯的数据上看,英特尔和AMD也没有完全被英伟达甩开,甚至在某些领域,这两家的芯片还领先英伟达的A100。

但是这里有两个误区,第一个误区是,英特尔和AMD这两款芯片的发布时间比A100都要晚一年,他们真正对标的对手,其实应该是英伟达在2022年初发布的H100,而现在英伟达的芯片已经更新到H200了。

第二个误区在于,硬件指标并不完全等于芯片的整体能力,软件生态是决定芯片性能和使用的第二个关键指标。

这就像手机和操作系统一样,手机的硬件配置再好,没有一个好的操作系统,对于消费者来说仍然不是一款好的手机。而这里需要提到的,就包括英伟达的CUDA平台、NVLink和Tensor Core等软件生态。

比如CUDA平台,我们前面提到的CUDA核心就是这个平台的产物,它可以提高芯片的并行计算能力;它可以通过编程,提高GPU的能效比,让同样的工作耗费更少的能源。

此外,CUDA平台还支持广泛的应用程序,包括科学计算、深度学习、机器学习、图像处理、视频处理等等,它还允许技术人员通过C++等常用的编程语言来编写GPU代码。打一个不恰当的比方,这相当于中国人不用学习英文,直接使用中文指挥外国人做事情,帮助技术人员节省了巨大成本。

但目前市面上大多数程序员已经深度依赖CUDA平台和开发工具,就像我们使用微信许多年了,你的朋友、聊天记录、朋友圈都在这个微信上,即使现在出现一个更好用的社交软件,你也很难迁移。



CUDA带来的生态壁垒也类似这个道理,其他平台虽然也有自己的软件生态,比如AMD有自己的GCN 架构,英特尔有Xe架构,甚至为开发者提供类似“一键换机”迁移功能,但都很难与英伟达竞争。

当然,这里面也有一些曲线救国的做法,比如以AMD为首,越来越多的芯片企业采用了“打不过就加入”的策略,选择将自己的芯片兼容到CUDA平台,早在2012年的时候,AMD就与Nvidia 达成了一项协议,允许AMD在其GCN架构GPU中使用 CUDA 技术,所以现在我们在AMD的芯片中,也会看到CUDA核心。

当然,对于英伟达来说,CUDA也只是护城河的一部分,其他的技术如NVLink也至关重要。

作为大模型训练的GPU,没有哪家企业会单独使用一张GPU,每次都会使用至少几百张卡,甚至上万张卡一起建立计算集群。NVLink是一种链接技术,可以实现GPU之间的高速、低延迟的互联。如果没有这种技术,整个芯片算力的集群就无法实现1+1>3的效果,而且会增加GPU之间的通信延迟,执行任务的效率会降低,芯片的功耗会增加,最终增加整个系统的运行成本。

大模型训练实际上是一个非常消耗能源的事情,国盛证券做过一个计算,假设每天约有1300万独立访客使用ChatGPT,那每天的电费就需要5万美元。而如果没有NVLink,这笔成本还会指数级上升。

芯片某种程度上就像购车一样,购车只是第一次成本,之后的油费、保养、保险才是成本的大头。所以黄仁勋才说,“AI系统最重要的不是硬件组成的成本,而是训练和运用AI的费用。”

所以,虽然AMD、英特尔在某些芯片上把价格定得比英伟达更低,但是从长期成本来考虑,具有更优软件生态和协同、配套工具的英伟达芯片仍然是性价比最高的选择。

当然,这里面还要考虑到使用场景的问题。

比如英伟达的大客户,主要是以Meta、微软、亚马逊、Google为代表的云计算平台。有媒体报道,头部云计算厂商在英伟达H100 GPU整体市场份额中的占比达到50%。

而云厂商采购芯片的逻辑,主要是构建算力集群,然后通过云服务平台将这些算力再卖出去。但这里就会存在一个问题,就是云厂商并不知道客户会拿这些算力来做些什么,比如有的企业会用来做机器学习,有企业需要大模型训练,也有企业需要做大模型推理。

不同的需求,背后对应的算力配置也不尽相同,它需要底层的芯片能够支持多种编程模型,支持多种数据类型,有较好的可拓展性和良好的性能和功耗等等。而这些,恰恰是英伟达硬件能力加软件生态带来的优势。

综合来看,无论是从硬件性能,还是软件生态;无论是从开发工具和部署工具,到长期使用的成本和可开发应用场景。对比同类竞争对手,英伟达都属于最有性价比,且遥遥领先的存在。

这就是为什么明明需要排着长队、忍受长时间等待,大家却仍然执着于英伟达芯片的原因。


AI芯片新贵,各出奇招

最近两年的人工智能繁荣,让英伟达凭借GPU登上了芯片之巅。于是包括AMD、Intel、Graphcore、Cerebras和Tenstorrent等在内的传统和新贵芯片企业试图在这个领域将英伟达拉下马。

不过,虽然他们都非常努力,但似乎依然难动英伟达分毫。于是,市场上又冒出来了一群AI芯片新公司,他们希望用不同的架构和思路,以期将英伟达赶下神坛。


韩国AI芯片:功耗和尺寸大幅下降

来自韩国科学技术院 (KAIST) 的科学家团队在最近的 2024 年国际固态电路会议 (ISSCC) 上详细介绍了他们的“Complementary-Transformer”人工智能芯片。新型C-Transformer芯片据称是全球首款能够进行大语言模型(LLM)处理的超低功耗AI加速器芯片。

在一份新闻稿中,研究人员对疯狂叫板Nvidia ,声称 C-Transformer 的功耗比绿色团队的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它还表明,三星晶圆代工芯片的成就很大程度上源于精细的神经拟态计算技术。

尽管我们被告知 KAIST C-Transformer 芯片可以完成与 Nvidia 强大的A100 GPU之一相同的 LLM 处理任务,但我们在新闻或会议材料中都没有提供任何直接的性能比较指标。这是一个重要的统计数据,由于它的缺失而引人注目,愤世嫉俗的人可能会猜测性能比较不会给 C-Transformer 带来任何好处。



上面的图片有一张“芯片照片”和处理器规格的摘要。您可以看到,C-Transformer 目前采用三星 28nm 工艺制造,芯片面积为 20.25mm2。它的最高运行频率为 200 MHz,功耗低于 500mW。最好的情况下,它可以达到 3.41 TOPS。从表面上看,这比 Nvidia A100 PCIe 卡声称的 624 TOPS 慢 183 倍(但 KAIST 芯片据称使用的功率低 625 倍)。然而,我们更喜欢某种基准性能比较,而不是查看每个平台声称的 TOPS。

C-Transformer 芯片的架构看起来很有趣,其特点是三个主要功能块:首先,Homogeneous DNN-Transformer / Spiking-transformer Core (HDSC) 和混合乘法累加单元 (HMAU:Hybrid Multiplication-Accumulation Unit) 可以有效处理动态变化的分布能量。其次,我们有一个输出尖峰推测单元(OSSU:Output Spike Speculation Unit)来减少尖峰域处理的延迟和计算量。第三,研究人员实施了带有扩展符号压缩(ESC:Extended Sign Compression)的隐式权重生成单元(IWGU:Implicit Weight Generation Unit),以减少外部存储器访问(EMA)能耗。

据解释,C-Transformer 芯片不仅仅添加了一些现成的神经拟态处理作为其压缩 LLM 大参数的“special sauce”。韩国科学技术院的新闻稿称,此前,神经拟态计算技术对于法学硕士的使用不够准确。然而,研究团队表示,它“成功提高了该技术的准确性,以匹配[深度神经网络]DNN”。

尽管由于没有与行业标准人工智能加速器进行直接比较,第一款 C-Transformer 芯片的性能存在不确定性,但毫无疑问,它将成为移动计算的一个有吸引力的选择。同样令人鼓舞的是,研究人员利用三星测试芯片和广泛的 GPT-2 测试取得了如此大的进展。


彻底改变人工智能的芯片

最近,普林斯顿大学的先进人工智能芯片项目由DARPA和 EnCharge AI 支持,有望显着提高能源效率和计算能力,旨在彻底改变人工智能的可及性和应用。

普林斯顿大学电气和计算机工程教授纳文·维尔马 (Naveen Verma) 表示,新硬件针对现代工作负载重新设计了人工智能芯片,并且可以使用比当今最先进的半导体少得多的能源运行强大的人工智能系统。领导该项目的维尔马表示,这些进步突破了阻碍人工智能芯片发展的关键障碍,包括尺寸、效率和可扩展性。

“最好的人工智能仅存在于数据中心,有一个非常重要的限制,”维尔马说。“我认为,你从中解锁了它,我们从人工智能中获取价值的方式将会爆炸。”

在普林斯顿大学领导的项目中,研究人员将与 Verma 的初创公司EnCharge AI合作。EnCharge AI 总部位于加利福尼亚州圣克拉拉,正在将基于 Verma 实验室发现的技术商业化,其中包括他早在 2016 年与电气工程研究生共同撰写的几篇重要论文。

根据项目提案,Encharge AI“在强大且可扩展的混合信号计算架构的开发和执行方面处于领先地位”。Verma于 2022 年与前 IBM 院士 Kailash Gopalakrishnan 和半导体系统设计领域的领导者 Echere Iroaga 共同创立了该公司。

Gopalakrishnan 表示,当人工智能开始对计算能力和效率产生大量新需求时,现有计算架构的创新以及硅技术的改进开始放缓。即使是用于运行当今人工智能系统的最好的图形处理单元 (GPU),也无法缓解行业面临的内存和计算能源瓶颈。

“虽然 GPU 是当今最好的可用工具,”他说,“但我们得出的结论是,需要一种新型芯片来释放人工智能的潜力。”

普林斯顿大学 凯勒工程教育创新中心主任 Verma 表示,从 2012 年到 2022 年,人工智能模型所需的计算能力实现了指数级增长。为了满足需求,最新的芯片封装了数百亿个晶体管,每个晶体管之间的宽度只有一个小病毒的宽度。然而,这些芯片的计算能力仍然不足以满足现代需求。

当今的领先模型将大型语言模型与计算机视觉和其他机器学习方法相结合,每个模型都使用超过一万亿个变量来开发。推动人工智能热潮的英伟达设计的 GPU 变得非常有价值,据报道,各大公司都通过装甲车运输它们。购买或租赁这些芯片的积压已经达到了消失的程度。

为了创建能够在紧凑或能源受限的环境中处理现代人工智能工作负载的芯片,研究人员必须完全重新构想计算的物理原理,同时设计和封装可以使用现有制造技术制造并且可以与现有计算技术良好配合的硬件,例如中央处理单元。

“人工智能模型的规模呈爆炸式增长,”维尔马说,“这意味着两件事。” 人工智能芯片需要在数学计算方面变得更加高效,在管理和移动数据方面也需要更加高效。

他们的方法分为三个关键部分。

几乎每台数字计算机的核心架构都遵循 20 世纪 40 年代首次开发的看似简单的模式:在一个地方存储数据,在另一个地方进行计算。这意味着在存储单元和处理器之间传输信息。在过去的十年中,Verma 率先研究了一种更新方法,其中计算直接在内存单元中完成,称为内存计算。这是第一部分。内存计算有望减少移动和处理大量数据所需的时间和能源成本。

但到目前为止,内存计算的数字方法还非常有限。维尔马和他的团队转向了另一种方法:模拟计算。那是第二部分。

“在内存计算的特殊情况下,你不仅需要高效地进行计算,”Verma 说,“你还需要以非常高的密度进行计算,因为现在它需要适合这些非常小的内存单元。” 模拟计算机不是将信息编码为一系列 0 和 1,然后使用传统逻辑电路处理该信息,而是利用设备更丰富的物理特性。

数字信号在 20 世纪 40 年代开始取代模拟信号,主要是因为随着计算的指数级增长,二进制代码可以更好地扩展。但数字信号并没有深入了解设备的物理原理,因此,它们可能需要更多的数据存储和管理。这样他们的效率就较低。模拟通过利用设备的固有物理特性处理更精细的信号来提高效率。但这可能会牺牲精度。

维尔马说:“关键在于找到适合该工作的物理原理,使设备能够被很好地控制并大规模制造。”

他的团队找到了一种方法,使用专门设计用于精确开关的电容器生成的模拟信号来进行高精度计算。这是第三部分。与晶体管等半导体器件不同,通过电容器传输的电能不依赖于材料中的温度和电子迁移率等可变条件。

“它们只依赖于几何形状,”维尔马说。“它们取决于一根金属线和另一根金属线之间的空间。” 几何形状是当今最先进的半导体制造技术可以控制得非常好的一件事。



光芯片,速度惊人

宾夕法尼亚大学的工程师开发了一种新芯片,它使用光波而不是电力来执行训练人工智能所必需的复杂数学。该芯片有可能从根本上加快计算机的处理速度,同时降低能耗。

该硅光子 (SiPh) 芯片的设计首次将本杰明·富兰克林奖章获得者和 H. Nedwill Ramsey 教授 Nader Engheta 在纳米级操纵材料方面的开创性研究结合在一起,利用光(可能是最快的通信方式)进行数学计算SiPh 平台使用硅,硅是一种廉价且丰富的元素,用于大规模生产计算机芯片。

光波与物质的相互作用代表了开发计算机的一种可能途径,这种计算机可以取代当今芯片的局限性,这些芯片本质上与 20 世纪 60 年代计算革命初期的芯片相同的原理。

在《自然光子学》杂志上发表的一篇论文中,Engheta 的团队与电气和系统工程副教授 Firooz Aflatouni 的团队一起描述了新芯片的开发过程。

“我们决定联手,”Engheta 说道,他利用了 Aflatouni 的研究小组率先开发纳米级硅器件的事实。

他们的目标是开发一个平台来执行所谓的向量矩阵乘法,这是神经网络开发和功能中的核心数学运算,神经网络是当今人工智能工具的计算机架构。

Engheta 解释说,“你可以将硅做得更薄,比如 150 纳米”,而不是使用高度均匀的硅晶片,但仅限于特定区域。这些高度的变化(无需添加任何其他材料)提供了一种控制光在芯片中传播的方法,因为高度的变化可以分布以使光以特定的图案散射,从而使芯片能够执行数学计算以光速。

Aflatouni 表示,由于生产芯片的商业代工厂施加的限制,该设计已经为商业应用做好了准备,并且有可能适用于图形处理单元 (GPU),随着广泛应用,图形处理单元 (GPU) 的需求猛增。对开发新的人工智能系统的兴趣。

“他们可以采用硅光子平台作为附加组件,”Aflatouni 说,“然后就可以加快训练和分类速度。”

除了更快的速度和更少的能耗之外,Engheta 和 Aflatouni 的芯片还具有隐私优势:由于许多计算可以同时进行,因此无需在计算机的工作内存中存储敏感信息,使得采用此类技术的未来计算机几乎无法被黑客攻击。



Baidu
map