在社会上快速渗透的生成式AI(人工智能)已开始改写半导体行业的势力格局。领先一步的美国英伟达的业绩飞速增长,2023年在营业收入方面首次跃居世界首位的可能性正在增强。
有观点预测称,AI半导体的市场规模到2027年将达到60万亿日元,包括云计算巨头在内的竞争也在日益激烈。
英伟达将首次捧起半导体行业冠军宝座
“AI是过去50年来最大的技术创新。与之相近的是互联网,但AI普及速度更快”,美国半导体巨头AMD的首席执行官(CEO)苏姿丰(Lisa Su)12月6日在美国硅谷举行的技术说明会的开头这样强调。
数据中心对高性能CPU(中央处理器)的需求很大,但在AI的开发和利用方面,则需要能够高效并行处理大量数据的半导体。AMD此前预测这种AI半导体的市场规模到2027年将扩大到1500亿美元,后来提高到4000亿美元。
英国调查公司Omdia的温璟如(Claire Wen)指出,“市场正在超预期扩大这一点是确定无疑的”。
首先受益的是在擅长并行处理的图形处理器(GPU)领域拥有很高市场份额的英伟达。QUICK FactSet统计的市场预测显示,英伟达2023财年(截至2024年1月)的营业收入将达到上财年的2.2倍,增至588亿美元。另一方面,韩国三星电子2023财年(截至2023年12月)半导体部门的营业收入预计为490亿美元,比上财年减少34%。预计美国英特尔也将减少14%,仅为539亿美元。
美国调查公司高德纳咨询(Gartner)的统计显示,在1992年开始的四分之一世纪里,英特尔长期位居半导体营收世界第一,2017年以后则维持着该公司和三星交替居首的局面。2022年三星位居榜首。如果英伟达在2023年跃居首位,将是时隔约30年由“新面孔”获得业界盟主的宝座。
十年间投入百亿构筑生态护城河
GPU芯片在超级计算和全球巨头大模型训练战中地位举足轻重,而掌握全球80%GPU市场份额的英伟达赚得盆满钵满。然而,这种垄断式的市场占有率不是一夜砌成的“城墙”。
据Tractica数据,预计到2025年全球AI硬件市场收入将达到2349亿美元,其中GPU的收入占23.2%。
英伟达在GPU市场的构筑的护城河,CUDA是其中至关重要的一环。
英伟达凭借CUDA几乎垄断了训练芯片市场,业界也几乎没有巨头对CUDA生态造成颠覆性冲击。
英伟达为CUDA生态铺垫了十余年。
2007年,英伟达的GPU研发技术已占据强势地位,次年英特尔的大客户苹果将MacBook除CPU外直接替换成英伟达Tesla架构的GPU便印证了这一点。
据报道,经年累计英伟达对CUDA总投入早已超过100亿美元。
在黄仁勋商业化考虑之下,CUDA生态需要培养潜在开发者,成为受到程序员和企业欢迎的技术平台。
在2006年推出CUDA后,英伟达的第一个战略便瞄准了“软件开发人员”,投入巨资让开发者习惯使用CUDA平台。
初期,开发者社区有这样一句话:CUDA在编程语言和共享存储器两个层次的并行都简化了编程,使得本科生也能使用CUDA写出大规模高性能计算程序。
为扩大覆盖率,英伟达将CUDA引入大学课堂,与伊利诺伊大学等高校合作完善函数库。在2010年时,已有250所大学开放CUDA的教学课程,并有相关论文数千篇。以此为基础完善生态,英伟达建立研究中心、教学中心、认证计划,到2015年已有800所大学开发相关课程。
再从业界来看,英伟达投入资金做inception计划(初创加速计划),让初创公司运用CUDA做项目铺垫基础。
至今,已有超过100家初创公司利用了CUDA。此外,英伟达开源了Cub、NCCL等通用场景下的开发库,并优化中间件性能的基础库给厂家使用,再次扩大了生态系统。
因此,许多开发者依赖于CUDA,同时凭借强大的核心能力在消费市场上受到青睐。
2012年,在ImageNet竞赛一举夺冠的AlexNet面世后,CUDA已迭代至5.0版本,支持了动态库和GPU指针。
2016年,OpenAI成立之时,CUDA8.0已经支持半精度浮点数和张量核心,软件生态已由学界和业界人士熟知、互相推荐。
2022年底,ChatGPT的发布将生成式AI送到人们眼前,CUDA12.0支持了新的NVIDIA Hopper 和 NVIDIA Ada Lovelace 架构功能,并为所有GPU提供了额外的编程模型增强。
等到大模型热度吹进各家企业时,英伟达已经深化了他们在行业中的差异化,成为市场玩家购物篮的第一选择。
目前为止,基于CUDA的GPU销量超过百万。
而众多GPU芯片厂家中,为什么是英伟达做出了唯一的CUDA开发环境?
从亏钱生意到利润1000%
回顾世纪初期,英伟达与微软、ATI、AMD、英特尔五家巨头的混战,英伟达在图形处理市场中逐渐占据优势。
2006年7月,AMD以54亿美元溢价收购ATI,芯片市场重新洗牌。同年,英伟达的首席科学家David Kirk提出了“将GPU技术通用化”的思路,从主要做3D渲染的任务中脱离出来,探索通用计算任务。
这个思路就是CUDA。而当时,愿意担起这门费钱费力的技术活的也是英伟达。
几大家芯片公司中,老对手AMD买下ATI后GPU研发进入弱势地位,英特尔取消了自研GPU计划。英伟达则在GPU技术方面将巨头们甩在了身后。
17年前,研发CUDA是一个超前的决定,英伟达的CUDA进化并非一帆风顺,黄仁勋则坚持“加速计算”是未来。
英伟达和英特尔在2006年秋天共同开发了基于CUDA的新型GPU,即G80 GPU。而两者的合作持续不长久,CUDA的研发决策需要英伟达长久地投入大量资金。
从产品特性上来说,CUDA逻辑电路在硬件产品中增加会导致芯片的散热需求增高,由此也会带来成本上升、故障增多的风险。
从财报表现来看,CUDA也是一门亏钱生意,在2008年金融危机前后表现得更为明显。
在最艰难的时候,黄仁勋也没有中断CUDA,直到2012年辛顿教授带队以GPU代替CPU训练AI模型做出了AlexNet。
2020年,黄仁勋在接受Barron周刊时强调:“英伟达将推动下一个人工智能大爆炸。”
这5年,为了迎接人工智能,英伟达做了3件事。
第一,2019年3月,英伟达以69亿美元收购了高性能计算互联技术公司Mellanox 。这家公司的主要产品InfiniBand,被认为速度更快、带宽更高,是数据传输的有效方式,而Mellanox是唯一的InfiniBand规范提供商。
第二,英伟达于2022年9月发布新一代AI芯片“Drive Thor”,专为大规模GPU集群协调设计,是英伟达一款完全集成的解决方案。
第三,英伟达推出专为加速计算和生成式AI打造的Hopper架构,H100便是基于此架构的GPU。市场消息称,H100是英伟达利润率高达1000%的产品,出货量超过900吨。
随着ChatGPT发布,带动AI服务器出货量和价格上涨,英伟达的GPU芯片价格水涨船高。英伟达的DGX H100售价总价为268495美元,包含8GPU+4NVSwitch基板等,每台毛利率接近190000美元。
英伟达的财务收入令人瞩目,据悉,过去3个财年的复合年增长率(CAGR)达到35.2%,预计2023年收入将飙升51.4%至408亿美元。
GPU市场迎来更多竞争者
Google
谷歌报告称,云计算收入增长了22%,达到84.1亿美元,低于预计的86.4亿美元。6月份,谷歌的云计算业务增长了28%。
2023年,谷歌发布了最新的自主研发芯片TPU V4,其性能比上一代芯片显著提高了2.1倍。通过集成4096个这样的芯片,超级计算性能大幅提升了10倍,令人印象深刻。
谷歌表示,在规模相当的系统中,TPU V4的性能是英伟达A100的1.7倍,能效也提高了1.9倍。与前代产品TPU V3相似,每个TPU V4由两个张量核 (TC) 单元组成。每个TC单元由四个128x128矩阵乘法单元(MXU)、一个配备128个通道(每个通道包含16个ALU)的矢量处理单元(“VPU”)和16 MiB的矢量存储器(“VMEM”)组成。
除了下一代TPU,谷歌还在2023年底开始向开发人员全面提供英伟达的H100 GPU,作为其A3系列虚拟机的一部分。
亚马逊AWS
在过去的六个季度里,亚马逊网络服务部的业绩一直在下滑,但第三季度的业绩却趋于稳定,保持了12%的同比增长。该部门的营业收入也同比激增29%,达到约70亿美元。
今年5月,AWS推出了基于英伟达 H100 GPU的EC2 P5虚拟机实例。该配置包括八个英伟达 H100 Tensor Core GPU,每个都配备了640 GB的高带宽GPU内存。它还拥有第三代AMD EPYC处理器、2 TB系统内存、30 TB本地NVMe存储、令人印象深刻的3200 Gbps总网络带宽以及对GPUDirect RDMA的支持。后者可实现节点与节点之间的直接通信,无需使用CPU,从而降低了延迟,提高了横向扩展性能。
此外,亚马逊EC2 P5实例可部署在第二代超大规模集群(称为亚马逊EC2 UltraClusters)中。这些集群包括高性能计算、网络资源和云存储。这些集群可容纳多达20,000个H100 Tensor Core GPU,使用户能够部署参数高达数十亿或数万亿的机器学习模型。
微软公司
微软的云计算收入增长了24%,9月份达到318亿美元。在微软的三大业务部门中,智能云的表现最为突出,收入增长了19%,达到243亿美元。该部门包括服务器产品和云服务,其中Azure实现了29%的强劲增长,超过了华尔街的预期的26%。
今年3月,微软在一篇博客文章中宣布,计划对Azure进行重大升级。此次升级将采用数以万计的英伟达尖端H100图形卡,以及速度更快的InfiniBand网络互连技术。
ND H100 v5实例还采用了英特尔公司最新的第四代英特尔至强可扩展中央处理器,并通过英伟达的Quantum-2 CX7 InfiniBand技术实现低延迟联网。它们还采用了PCIe Gen5,为每个GPU提供每秒64千兆字节的带宽,以及可实现更快数据传输速度的DDR5内存,以处理最大的人工智能训练数据集。
成功的初创企业
ChatGPT等应用进一步巩固了英伟达在人工智能行业的地位。其GPU芯片已成为各种人工智能应用的关键。因此,任何希望在这一领域挑战英伟达的初创公司都面临着巨大的压力,因为英伟达已经确立了自己的技术的主导地位和可靠性。
Cerebras
英伟达的A100 GPU已经相当可观,芯片面积826平方毫米。相比之下,Cerebras的新WSE-2芯片则非常巨大,面积达45225平方毫米,基本上覆盖了8英寸硅晶片的整个表面。自2016年成立以来,Cerebras已成功获得7.3亿美元的融资。根据CB Insights全球独角兽俱乐部的数据,该公司目前的估值为40亿美元。
Cerebras与Abu Dhabi的G42合作,建造了九台人工智能超级计算机中的第一台,该项目耗资超过1亿美元。此外,Cerebras还在生成式人工智能领域积极寻找机会。虽然它的CS-2模型在GPT环境下的训练速度令人印象深刻,但尚未获得业内主要制造商的采用。
SambaNova
SambaNova成立于2017年,是人工智能芯片行业中资金最雄厚的公司之一。它已成功融资10亿美元之巨,其著名支持者包括软银和英特尔。这不仅使SambaNova成为融资最多的AI芯片初创公司,也使其成为英伟达最强大的新兴竞争对手之一,估值高达50亿美元。
SambaNova最近推出了最新的第四代SN40L处理器。这款尖端芯片采用台积电先进的5纳米工艺制造,拥有超过1,020亿个晶体管,计算速度高达638 teraflops。它采用独特的三层内存系统,包括片上内存、高带宽内存和大容量内存,所有这些设计都是为了高效处理与人工智能工作负载相关的大量数据流。SambaNova声称,一个节点中仅有八个这样的芯片就能支持多达50万亿个参数的模型,几乎是OpenAI的GPT-4 LLM报告的三倍。
Tenstorrent
Tenstorrent是人工智能芯片行业的另一家著名初创公司,成立于2016年。迄今为止,该公司已获得近3.35亿美元的融资,最近还获得了三星和现代汽车等大公司的投资,目前估值约为10亿美元。
Tenstorrent正瞄准挑战英伟达在人工智能领域的主导地位,开发采用RISC-V和Chiplet技术的人工智能CPU。值得注意的是,该公司最近与三星达成了生产合作,打算利用三星先进的4nm工艺制造芯片。这一合作彰显了Tenstorrent致力于推动其技术发展并参与人工智能芯片市场竞争的承诺。