据韩国媒体BusinessKorea近日报道,在人工智能芯片对于高带宽内存HBM需求的推动下,自2023年以来,第三代的HBM3的报价已经上涨超过5倍。这对于英伟达等AI芯片大厂来说,所需的关键HBM价格大涨,势必会影响其AI芯片的成本。
在此背景下,市场传闻称,英伟达似乎故意煽动三星电子、SK海力士彼此竞争,以便势压低HBM的价格。
4月25日,SK集团董事长崔泰源(Chey Tae-won)匆匆前往硅谷与英伟达CEO黄仁勋(Jensen Huang)会面,似乎跟这些策略有关。
虽然过去一个多月来,英伟达一直在测试三星领先业界开发出的12层堆叠的HBM3E,却迟未下单采购。市场解读,这是一种策略,目标是激励三星与SK海力士进行价格竞争。
在最新的一季度财报会议上,三星表示,将继续增加HBM供应,以满足对生成人工智能不断增长的需求。本月,三星已经开始量产8层堆叠的HBM3E ,并计划在第二季度量产12层堆叠的HBM3E产品。
SK海力士社长郭鲁正(Kwak Noh-Jung)也在一季度财报会议上表示,2025年的AI芯片组用的HBM几乎全数售罄,2024年的供应也已全部订光。他说,12层堆叠的HBM3E将在今年5月送样,预计第三季开始量产。SK海力士正在与一些客户就HBM的长期合同进行谈判。
AI芯片制造成本也在不断上升
近年来,随着人工智能技术的快速发展,对HBM内存芯片的需求不断攀升。HBM作为高性能计算领域不可或缺的关键部件,其价格在过去一年内已经上涨了5倍以上。
这一涨价趋势的根源,主要在于HBM芯片的供给不足难以满足日益增长的市场需求。目前,全球HBM芯片市场被三星和SK海力士两家韩企所垄断,他们掌握着超过90%的市场份额。
在产能有限的情况下,两家韩企不得不顺应市场行情,不断提高HBM芯片的售价。这就给下游需求方,尤其是英伟达等关键客户,带来了极大的成本压力。
金融服务公司 Raymond James 分析师曾预估过 B200 的成本。
英伟达每制造一颗 H100 的成本约为 3320 美元,售价为 2.5-3 万美元之间,根据两者的性能差异推算 B200 成本将比 H100 高出 50%~60%,大概是 6000 美元。
黄仁勋在发布会后接受 CNBC 专访时透露,Blackwell GPU 的售价约为 3 万~ 4 万美元,整个新架构的研发大约花了 100 亿美元。
我们必须发明一些新技术才能使其(新架构)成为可能。
按照以往的节奏,英伟达大约每两年就会发布新一代 AI 芯片,最新的 Blackwell 相较于前几代产品在算力性能和能耗控制上有了显著的提升,更直观的是, 结合了两颗 GPU 的 Blackwell 比 Hooper 大了将近一倍。
高昂的成本不仅与芯片有关,还与设计数据中心和集成到其他公司的数据中心紧密相连,因为在黄仁勋看来,英伟达并不制造芯片,而是在建数据中心。
根据英伟达最新的财报显示,第四财季营收达到创纪录的 221 亿美元,同比增长 265%。四季度净利润 123 亿美元,同比暴增 765%。这当中最大的营收来源数据中心部门,达到创纪录的 184 亿美元,较第三季度增长 27%,较上年同期增长 409%。
研发成本很高,但以此搏来的正向回报更高。
英伟达目前正在构建的数据中心,包含全栈系统和所有软件,是一套完整的体系,Blackwell 或者说 GPU,只是这当中的一环。
数据中心被分解成多个模块,用户能够根据自身需求自由选择相应的软硬件服务,英伟达会根据不同的要求对网络、存储、控制平台、安全性、管理进行调整,并有专门团队来提供技术支持。
如此的全局视野和定制化服务到底好不好,数据可以说明一切:截至 3 月 5 日,英伟达的市值继超越 Alphabet、亚马逊等巨头后,又超过沙特阿美,成为全球第三大公司,仅次于微软和苹果两大科技巨头,总市值达到 2.4 万亿美元。
目前,全球数据中心大约有 2000 亿欧元(约合人民币 7873 亿)的市场,英伟达正是这当中的一部分,黄仁勋预测这个市场在未来极有可能增长到 1-2 万亿美元。
英伟达的"价格战"策略
面对HBM芯片价格的飙升,英伟达显然很难接受。作为全球最大的GPU芯片供应商,英伟达需要大量使用HBM内存来支撑其高性能计算产品。如果HBM芯片价格持续大涨,必将严重影响其产品的成本竞争力。
因此,英伟达开始采取了一些"价格战"策略。一方面,他们一直在密切关注并测试三星的最新HBM3E芯片;另一方面,又主动去接触SK海力士的高管,似乎想要通过"挑拨离间"的方式,引发韩企之间的内部竞争。
这种做法,无疑是想要利用三星和SK海力士之间的矛盾,让他们在价格上展开恶性竞争,从而达到降低HBM芯片采购成本的目的。
降模型成本
2024年非常关键的事
今年以来,算力已经被公认为是大模型竞争的「军火库」。这不仅让英伟达的市值超过英特尔,也让其财报中的GPU收入超过了手机芯片之王高通。
但算力的另一面是GPU供应紧张、价格昂贵。成本压力是会层层传导的。
比如AWS首席执行官Adam Selipsky前不久在谈到整个行业时曾直言:「我接触过的很多客户都对运行其中一些模型的成本感到不满。」
在这个问题上,中美企业所面临的挑战并无不同。在同《降噪NoNoise》交流时,侯震宇提到他的一个判断——预计2024年整体算力资源供应的不确定性或者说紧张程度仍然比较大,所以云计算厂商面临的共性问题是如何更高效地使用算力资源。
其实不仅是算力资源昂贵,目前人力资源、数据资源(如数据标注),本身成本也很高。「确保大家用足够少的钱能训练出来想要的模型,以及用一个客户可接受的成本使其真的把AI大模型用起来,这些会是2024年非常关键的事。」
目前,国内云计算厂商的思路大多是在保证同等效果前提下,通过推理优化、模型训练工具链优化等,以缩短算力使用时间。
以百度智能云为例,其主要通过基础设施层的异构计算平台「百舸」、大模型平台层的「千帆」互相打配合,以实现算力性价比。
追求算力性价比的方向无非两个:一是提高GPU利用率,缩短使用时间。比如在大模型训练环节,百度通过分布式并行训练策略和微秒级互联,让万卡规模集群训练的加速比达到95%、万卡集群有效训练时间占比达到98%。
「百舸」升级到3.0版本后,训练和推理场景的吞吐量据称可提高30%-60%,这些意味着原来要用100天的训练,现在可能只用70天,节约时间等于间接省钱。
二是适配成本更低的AI芯片,除英伟达外,千帆平台还兼容昆仑芯、昇腾、海光DCU、英特尔等国内外主流AI芯片。毕竟不是所有训练都需要动用H800这种顶格待遇。
通过组合选项,理论上客户可以用最小的切换成本完成算力适配。这种属于直接省钱。
不过再怎么省钱,前提还是要保证AI模型的效果。若达不到客户的预期效果,云服务商对算力资源「算计」再多,也是没有意义的。