2024年刚开局,AI“王炸”频现。苹果放弃长达十年的造车计划转投生成式AI,OpenAI首个文生视频模型Sora惊艳亮相,号称比GPT-4快18倍的大模型Groq横空出世,华为发布首个通信行业大模型……
AI浪潮已经势不可挡,AI芯片作为其发展的底层基石也迎来了前所未有的机遇。据Gartner最新预测,到2024年AI芯片市场规模将较上一年增长25.6%,达671亿美元。预计到2027年,AI芯片市场规模将是2023年规模的两倍以上,达到1194亿美元。
在这样的背景下,“算力霸主”英伟达被捧上神坛,以高达80%的占有率几乎垄断了市场,赚得盆满钵满。英伟达数据中心业务的营收再创新高,带动2024年财年Q4季度总营收狂涨265%。由于这份远超预期的财报数据,英伟达一夜涨出2770亿美金市值,相当于:一夜涨出阿里巴巴+百度+京东。
英伟达的“狂飙”也引来了众多挑战者。亚马逊、谷歌、微软、华为、百度等巨头积极推动自研芯片,寒武纪、摩尔线程、燧原科技等新锐力量崛起。据外媒报道,英伟达在提交给美国证券交易委员会的文件中,其中包含AI芯片等多个类别里,首度将华为认定为“最大竞争对手”。
理想与狂热交织下,人们不免好奇:英伟达的“铁王座”还能坐多久?为什么华为被其列为最大竞争对手?其他国产AI芯片发展如何?
Part.1
英伟达“外患”大于“内忧”
与英伟达不断刷新预期的业绩相伴相随的是,越来越多的挑战。
正如英伟达CEO黄仁勋在一次演讲中所说:“我们并不需要假装公司处于危险之中,因为我们能感觉到公司确实一直处于危险之中。”
英伟达目前最显著的问题是产能。从去年开始,台积电在先进封装方面的产能变得紧张,而英伟达芯片依赖于台积电的CoWoS封装技术以及基于65nm硅中介层的工艺。虽然台积电已计划将CoWoS封装产能提高一倍,但需到2024年下旬产能才能纾解。
为缓解产能紧张的局面,英伟达与英特尔达成了代工合作意向,初步估算英特尔每月生产5000片晶圆,如果全部用于生产H100芯片,在理想情况下最多可以得到30万颗芯片,这也意味着英伟达高性能GPU的交货周期将有望缩短更多。
内忧好解,外患却不容忽视。去年12月,AMD发布了MI300系列芯片产品。AMD首席执行官苏姿丰称,MI300X在训练大语言模型方面与英伟达的H100芯片相当,但推理能力更为出色。目前,MI300系列产品已开始量产出货,上个季度推动AMD数据中心GPU总收入超过4亿美元。
英特尔也在发力谋求在市场中更大的话语权。新一代的Gaudi 3将采用先进的5nm制程工艺,配备最高达128GB的HBM3e内存,大幅提升AI的学习和训练性能,可对标英伟达的H200芯片。
除了上述两个直接竞争对手的“步步紧逼”,英伟达还面临多家科技大厂的挑战。微软发布了其首款定制化Maia 100 GPU和Azure Cobalt CPU100,以降低AI服务成本。亚马逊和谷歌已经使用了自研芯片,并部分产品向客户提供。OpenAI的7万亿芯片计划和孙正义的1000亿“豪赌”也在试图分一杯羹。此外,MLIR、谷歌等都在转向“以Python语言为基础的编程层”,以使AI训练更加开放,逐渐摆脱对英伟达CUDA生态的依赖,建立起自己的护城河。
与此同时,受出口管制影响,英伟达在中国市场的收入暴跌。根据英伟达最新的财报数据,中国区2023年第四季度的营收下滑到个位数比例。如何在美国政府管制、中国客户需求间保持平衡成为英伟达的一道关键课题。
在专门为中国市场特供的A800和H800也被禁售后,英伟达推出了新款H20,但该产品性价比并不高,性能缩水为H100的四分之一,阿里巴巴、腾讯、百度等中国企业明确表示今年会大砍订单量,英伟达在中国的营收恐不乐观。
Part.2
华为AI芯片的自研苦旅
英伟达在曾提交给美国证券交易委员会的文件中,把华为列为最大竞争对手。近日在接受美国科技杂志《连线》采访时,英伟达CEO黄仁勋再次表达了对华为的重视,点赞“华为尽管受到现有半导体处理技术的限制,仍然可以通过将许多芯片聚集在一起来构建非常强大的系统。”
这不仅是对华为技术实力的认可,更是对整个AI芯片行业竞争格局的一次重新评估。申万宏源的研究报告显示,从2023年上半年的数据看,华为AI服务器出货量已成为国产品牌第一,仅次于英伟达,且仍在快速增长。
华为的崛起并非是“忽如一夜春风来”。2017年,华为发布全球首款移动端AI芯片麒麟970,内置独立NPU,相比CPU获得了约50倍能效和25倍性能优势。这意味着,麒麟970芯片可以用更少的能耗更快地完成AI计算任务。
一年后,华为又发布麒麟980,凭借7nm制程工艺、双核NPU加持等特性,麒麟980打破了多项世界第一。但是,没有一蹴而就的成果。麒麟980历经了36个月的研发,才完成定制特殊基础单元构建高可靠性IP论证,再加上Soc工程化验证的时间,留给量产的周期仅半年左右。
根据这个时间表,麒麟研发团队实际上只能允许一次投片修正,否则就会影响芯片的正常流片、量产和终端适配,造成产品延期上市甚至是项目失败。经过2个大版本的迭代,5000多次的工程验证,花费了数亿美元,最终麒麟980成功量产。
麒麟980成为华为在手机端AI芯片布局的一个重要里程碑。在此基础上,华为试图覆盖云、边、端各种场景,形成从应用到系统到芯片的闭环。
2018年10月,华为在其全联接大会上首次提出全栈全场景AI解决方案,并“祭”出了两颗AI芯片:华为昇腾(Ascend)910和310。从算力上看,昇腾910表现非常出色,半精度(FP16)算力可达256TFLOPS,整数精度(INT8)算力可达612TOPS。2023年最新发布的昇腾910B是昇腾910的升级款,算力已达到英伟达A100的性能水平。
由于其卓越的性能表现,加上美国对英伟达芯片的出口禁令限制,国内企业纷纷转投昇腾系列的怀抱。据悉,2023年华为从中国主要互联网公司获得了至少5000颗昇腾910B芯片的订单,这对英伟达在AI芯片市场的主导地位构成了严峻的威胁。
算力比拼仅是一方面,生态建设方面,英伟达最宽的护城河CUDA也正遭猛烈进攻。CUDA最大的特点就是,软硬结合大幅提升了GPU的并行计算效率,具备低成本、低门槛、广生态等优势,兼容CUDA生态对于开发者与客户来说更友好。但同时,兼容也会成为限制产品发展的“天花板”,追随英伟达生态难以实现突围,自研生态才有望实现自主可控破局。
华为以自研CANN框架对标CUDA,要直面英伟达用户粘性的巨大挑战。CUDA推出至今,拥有超400万开发人员和超过3000个应用程序,建立起了庞大的用户群体与开发者社区。
虽然CANN起步较晚,离CUDA还有很大差距,但华为也在努力追赶。目前华为CANN平台已经到了7.0版本,支持50+主流大模型,同时兼容主流加速库及开发套件。此外已经支持Pytorch、Tensorflow等主流框架,PyTorch 2.1版本已同步昇腾NPU,意味着开发者可直接在PyTorch 2.1上基于昇腾进行模型开发。
伴随着“日拱一卒”的演进,华为AI芯片终于实现“从0到1”的突破,走向了巨头的谈判桌。但“从1到100”仍需企业和产业链上下游共同完善生态,剩下就交给时间。
Part.3
国产AI芯片的“繁花”时代
目前国产AI芯片主要可以分为三类:其一是华为、阿里等大型科技企业自研的AI芯片,二是海光信息等国资背景的科技公司,三是寒武纪、壁仞科技、摩尔线程、燧原科技等创业型芯片公司。