关键词: AI芯片 DeepSeek Agentic AI 推理 AI技术
很多人说DeepSeek只是资本市场和民族主义的狂欢。但实际上就产品化的角度来看,DeepSeek-R1模型已经在包括腾讯微信、百度搜索、知乎直答等普通人能接触到的应用中全面接入——即便DeepSeek的确有着偏高的幻觉率,经常瞎说八道,但它对中文网络而言,的确已经成为不少人的工作助手。
但与此同时,我们也看到了今年春节前后DeepSeek爆火之时,资本市场的不理性。最初报道普遍提及DeepSeek-V3总训练成本不到600万美元,且模型质量还超越了同期的Llama 3.1, Claude 3.5;DeepSeek官网面向开发者的API标价(每百万token价格)仅有OpenAI o1的几十分之一;甚至有社区爱好者尝试在本地部署满血版617B参数规模的DeepSeek-R1,硬件成本投入不过4-5万元人民币。
有关AI使用成本大幅降低的说法登上不少媒体的头版头条,提供AI基础设施的NVIDIA股价随之下跌,就连能源板块都受到影响。市场对AI芯片的需求真的会随着DeepSeek的推出变得更低,乃至连电力需求也没有之前预测得那么激进了吗?
前不久在《国际电子商情》姊妹刊《电子工程专辑》发布的《DeepSeek的杰文斯悖论:AI芯片市场发展前瞻》一文中,我们明确提到了AI芯片及基础设施短期受到DeepSeek的影响,只是市场的不理性行为。本文则期望从相对更全面的角度来解读AI芯片市场的潜在发展可能性,及为什么说DeepSeek实际上是在助推AI芯片行业前行。
明确两个基本事实
过去大半年,AI领域内特别火的一个词是Agentic AI——国内有译作代理式AI,也有译作智能体AI的。参照NVIDIA对Agentic AI的定义,这个词出现在Generative AI(生成式AI)之后,在Physical AI(具身智能)之前(图1)。
图1:AI发展的几个阶段 图片来源:英伟达
抛开Agentic AI有利用各类技术“自动适配”做决策的能力,今年NVIDIA的GTC开发者大会上,黄仁勋说Agentic AI的关键特性是在感知和理解上下文以后,“它能逻辑推理(reason),通过推理来回答或解决问题。”“它能在做出规划以后再采取行动。”“现在,它还能理解多模态信息,学习网站或不同来源的文本、图片、视频资料,并基于这些信息和知识来工作。”
中文网络普遍将reason译作“推理”——但请注意这里的推理和我们在谈AI训练与推理(reference)式的推理有区别。Reference指的是将已经训练好的AI模型投入到实际使用中,使用模型的过程即为reference;而reason则是指,通过一步步的规划和逻辑推理来解决复杂问题的过程。
我们可以认为,开启了“深度思考”以后的DeepSeek-R1即为典型的Agentic AI。目前新推向市场的对话式AI基本也都已经支持以逻辑推理的形式回答和解决问题了。而reason的过程的确包括了reference。通常我们说reason需要对相关信息(内部和外部的)做结构化,形成逻辑步骤进行逻辑推理,已经不单是获取和使用既有信息的简单reference。
比如黄仁勋在主题演讲中提到的一个例子,让AI安排婚宴之上的座次。这个问题需要考虑的因素至少包括了文化传统、人际关系、家庭成员亲疏、方便拍照的角度等。传统大语言模型回答该问题时,以“one-shot”的方式给出答案少于500个token。云上的此类大语言模型服务都能迅速作答。
而逻辑推理模型(reasoning model)需要用到将近9,000个token才给出答案,正式作答的响应时间相比one-shot式的回答方式也慢了不少。但两相对比不难发现,one-shot式的大语言模型更容易给出错误答案,具备reason逻辑推理能力的大语言模型则能轻易给出优解。
观察DeepSeek-R1正式作答前的思考过程会发现,它甚至会对已经获得的答案再做回测。逻辑推理模型会对问题做拆解,会在不同的方法间选择最佳答案,会做一致性测试,甚至会将得到的答案“放回到方程中,确保其更高的正确性”(图2)。
图2:分步骤推理问题的Agentic AI 图片来源:国际电子商情
从高抽象维度了解Agentic AI,对于我们搞清楚AI芯片市场的潜在发展有什么价值呢?因为既然不少人认为DeepSeek这类逻辑推理模型的诞生会让AI芯片及基础设施需求降低,我们就有必要先理解其基本概念,以及另外两个基本事实:(1)Agentic AI是否颠覆了现有AI技术范式;(2)Agentic AI处在AI历史发展长河里的哪个阶段?
第一个问题很容易回答:虽然Agentic AI变得更智能了,也被包括NVIDIA在内的企业划归在生成式AI(Generative AI)之后,但其核心仍然是生成式AI,虽然它相较以前的大语言模型更高级了。其工作方式一样未脱离预训练、后训练(包括fine-tune等流程)、推理(inference)的范式。
幻方量化和梁文锋团队的确在DeepSeek模型的训练阶段做出了各种工程创新,尤其在技术禁运的前提下,实现硬件利用效率的最大化,使得其训练成本得到可观的降低。但不得不承认的是,其中的绝大部分方法和技术是站在了巨人的肩膀上,比如说MLA(多层注意力架构)、MTP(多token预测)都是既有技术方案,DeepSeek则是这些技术实践的佼佼者。
所以第一个问题的答案是,包括DeepSeek在内的Agentic AI并没有颠覆现有AI技术范式。现有绝大部分加入了逻辑推理能力的对话AI服务也依旧需要持续对模型做出精进,并在和用户的交互中进行推理(reference)。
至于第二个问题,Agentic AI对于AI而言处在哪个阶段。我们在过去一个季度采访了好些市场参与者。几乎所有市场参与者都认为,虽然AI是个有些年头的技术,但其发展阶段依旧相对初级。比如Imagination Technologies产品管理与市场营销副总裁Dennis Laudick在接受《国际电子商情》采访时就说:“从人工智能的改进规模和速度来看,很明显,我们仅仅处于计算机编程方式和计算机功能发生根本性变革的开端。”
“展望未来,科技行业目前需努力的一个关键任务是利用现在可获得的投资,开发相关解决方案和应用,为人工智能提供动力,使其走出增长阶段,并充分发挥其潜力。”Dennis提到,自动驾驶、智能机器人都是对于AI而言极具吸引力和有待释放价值的市场。
通常某市场处在初级发展阶段时,会有几个明确的市场信号:(1)市场参与者很多,初创企业扎堆,“百花齐放”;(2)部分市场参与者营收和利润呈现出飙升态势。或也可能是技术未全面落地之前,部分市场参与者处在长期亏损状态,投资者则因为看好该市场,而持续为其输血,寻求长期利益。
AI芯片市场基本具备上述所有特点。《电子工程专辑》2024 Q4的国产AI芯片研究报告提到现有AI芯片市场参与者依旧众多;头部上市企业如寒武纪自上市以来亏损现状暂无改善迹象,营收不确定性明确;NVIDIA 2025财年营收1,305亿美元,同比增长114%——其中数据中心营收1,152亿美元,增幅达到了142%——要知道这种看起来夸张的增速已经持续了好几年。
Agentic AI带来了什么
那么基于上述两个问题的结论(1)包括Agentic AI在内的AI技术目前尚处于发展早期或高速发展期,(2)AI技术范式并未发生根本性转变,基本可以推倒出,AI芯片、基础设施都将持续高速发展,而不是像年初市场预期的那样需求走低。那么市场潜力究竟还有多大,或者说Agentic AI究竟能带来什么?
NVIDIA自己公布的数据是,面向美国4家顶级CSP(云服务供应商,包括AWS, Azure, GCP和OCI)的上一代Hopper显卡出货量,2024年达到巅峰,约为130万片GPU。而去年GTC之上发布的Blackwell显卡,到今年3月为止,则已经面向这几家CSP出货了大约360万片GPU。这份数据一方面自然能看出,NVIDIA实现业绩高速增长的部分依据;但与此同时也能表现AI技术处在发展的初级或高速发展阶段。
所以研究机构Dell'Oro认为,全球数据中心的CapEx(资本支出)会在2028年超过1万亿美金;部分研究机构也将2030年半导体市场价值将破万亿美金的时间预期做了调整(比如IBS就将行业破万亿的时间提前到了2028年),皆因AI技术的发展超出了许多人的预期。
这里的确有个相当不符合直觉的事实:如果说DeepSeek提高了AI技术的效率,相同算力达成的AI智能程度更高了,那么为什么说AI芯片及基础设施价值还将持续走高?我们认为,这个问题大概可以从两个角度来回答。(1)Agentic AI对AI算力的需求变化;(2)市场发展的杰文斯悖论。
先谈第一个角度:Agentic AI对AI算力的需求变化问题。探讨算力需求变化,无非分训练、推理(reference)两部分。
从训练的角度来说,现有分析资料已经有不少去谈DeepSeek公开所谓不到600万美元的训练成本实则仅涵盖了总体成本的一部分——这600万美元只包括了预训练的GPU固定成本开销,并没有算上研发、人才、硬件等的总成本;也没有算上企业要真正应用DeepSeek模型时的后训练成本——就像腾讯面向微信用户开放DeepSeek模型使用,并不是将模型拿来,架上自家的数据中心就能用的。要知道幻方量化很早就手握“万卡”资源,当年仅有百度、腾讯、字节跳动等互联网大厂才享有“万卡”入场券。
训练部分的成本问题,本文不再做详述——可以肯定的是,单位算力投入达成的模型质量,或者训练的整体效率水平的确是提高了的,但不能因此认为AI时代的总训练成本有显著下降,这一点将在后文的杰文斯悖论部分做详述。
而在推理(reference)部分,很多人将DeepSeek官方标定的API百万token输入价格(缓存命中时,每百万token,DeepSeek-V3为0.5元,DeepSeek-R1为1元)作为其推理成本低的依据。但实际上我们知道幻方量化并没有打算藉由DeepSeek的商业运营来实现大规模盈利,DeepSeek官网长期处在“服务器繁忙”状态,也未有推理基础设施的扩大动作。这个标价并不能作为与其他模型推理成本对比的直接依据。
本文的第一部分已经阐明了Agentic AI并未改变AI技术范式,与此同时在婚宴座次安排的例子中,推理模型以将近9,000个token,得到了最优解。9,000个token的生成,相较于传统大语言模型one-shot式仅500个token的输出,在token生成速度相同的情况下,算力要求高了10+倍。
换句话说,AI计算的推理(reference)流程相比以前多出了10+倍的算力需求。可能很多读者对于大语言模型的算力需求没有量级概念。对于逻辑推理流程来说,模型接到请求以后首先进行prefill(预填充)阶段——可理解为思考过程,这个阶段对算力要求很大;随后在正式输出阶段,即decode(解码)阶段则对带宽要求很高——此过程需要访问内存中的海量数据,迭代进行快速和持续的数据搬运,每秒数据量可以达到数百TB/s。
而每个token的生成都需要反复进行decode操作,每次都意味着万亿规模参数、海量数据访问。也就是说将近9,000个token输出,每一个都要经历这种规模的操作。很显然,Agentic AI的推理(reference)算力需求相比过去是显著增加的(注意:这里不能说成本显著增加)。
在此基础上还需要考虑一个因素:由于逻辑推理模型工作时,在算力一定的情况下,响应用户请求的速度变慢了,则企业基于用户体验、留住用户的角度,还要考虑提升响应速度。如果响应速度能提升10倍,则在token输出相比过去要多出10倍的情况下,达成了用户体验的平衡。
图3:算力一定时,资源分配在AI不同阶段的变化 图片来源:国际电子商情
所以总的来说,Agentic AI在显著提升复杂任务推理能力的同时,大幅提升了单次推理的算力需求。市场此前认定DeepSeek大幅降低了AI训练成本,即便这一命题成立,却也忽略了其推理资源在增加的事实(虽然我们不能简单地说,成本在增加)。换句话说Agentic AI时代,整体资源分配方式是从原本高算力需求的预训练阶段,逐渐向推理阶段倾斜(图3)。
更何况,从社会对AI的总投入来看,即便是训练阶段,AI的价值也真的没有降低。
5年内,AI世界都发生了什么?
有个颇为有趣的事实,可能是立足生成式AI或Agentic AI带来生活与工作便利当下的人们已经遗忘的:2020年的人类大概无论如何也不会想到,2025年的人会每天和AI说话,还借助AI来讨论工作。
现在Youtube上热门的AI课程,课后作业会要求学生训练7B参数的模型(实则为fine-tune)。回顾2019年GPT-2刚发布之时,1.5B参数量已经让行业与资本市场咋舌了。也就是说,2025年今天的任何一名AI专业学生,带着已经不算强的Llama2-7B模型回到2020年前后,就足以让彼时的OpenAI感到毁天灭地了。可见AI技术发展之快是完全颠覆了当代人的认知的。
另一个相关的重要结论在《DeepSeek的杰文斯悖论:AI芯片市场发展前瞻》中:在模型参数量级不变的情况下,每8个月模型能力就提升1倍。去年面壁智能就在发布会上说,如今2B参数量的模型,在实际表现上就能比肩几年前170B参数量的模型。还有一些研究机构则提出,AI模型要达成相同能力所需算力,每年降低4-10倍。
则对应的,达成相同推理(reference)效果的成本就在近两年大幅下降了。2022年1月GPT3的每百万token推理成本(基于MMLU大型多任务语言理解基准)还在大几十美元的高位,GPT3.5 Turbo就将该值拉到了2、3美元的程度,Llama2-7B实现了百万token推理成本1美元,到近代的Llama 3.2-3B让这个数字低到不足0.1美元。
短短3年时间,实现GPT3相似质量的AI模型推理价格下降了1,200倍。(如图4;注意,这里的成本下降是指单位token的推理成本,而非单次推理的成本也下降到这一量级水平,尤其考虑Agentic AI单次推理的token数量增长了10+倍)
图4:2022年至今大语言模型的成本下降趋势 图片来源:国际电子商情
可见在AI芯片堆算力“大力出奇迹”的同时,整个AI技术栈的上层也在努力提升AI效率,令AI使用成本的降速远快于当年半导体领域的摩尔定律。或许很多人将AI技术称作人类历史的第四次科技革命是有道理的。
“这一阶段,工程师致力于寻找以更低的成本达成相同效果的路径,因此人工智能的发展阶段和机械化飞行的演进并无二致。”Dennis说,“像DeepSeek这样的突破性变化是必然会出现的。”毕竟要达成“人工智能无处不在、人尽可用”的目标,“就需要以更低的成本和更少的计算资源来实现。”
所以我们才说DeepSeek达成现如今的热度和成就,是站在了巨人的肩膀上。业内同人过去几年就有着相同的目标、做着相同的事情。这也是Agentic AI能够进入人们日常生活的先决条件。因为如果推理成本没有降到这个程度,以3年前GPT-3的推理成本,Agentic AI恐怕也只是有钱人的玩具。
这些是人类通往AGI(通用人工智能)的必由之路,则市场更不应当诧异这些年来企业、数据中心大量购入AI芯片的价值。可能现下的核心问题是,AI效率在提高、算力也在提升,那么究竟人类需要多少算力才能达到真正意义上的AGI?
实际上研究机构每年所做的市场预测就是要回答这个问题。《DeepSeek的杰文斯悖论:AI芯片市场发展前瞻》一文也已经援引了麦肯锡对未来5年的判断。但我们认为,这仍然是个难以计算的复杂问题。“即便人工智能模型的效率在不断提高,对人工智能的需求的增长速度仍远远超过硬件的供应速度。”这是包括Imagination在内的几乎所有市场参与者的共识。
此处再给另外一个维度的参考,今年GTC上NVIDIA预告了2年后要上市的Rubin Ultra NVL576系统——该机架将由576片Rubin Ultra die构成,单片Rubin Ultra片内存储1TB HBM4e。整个系统性能提升14倍,存储资源涨8倍,系统内和系统外的互联带宽分别提升12倍和8倍(相比于GB300 NVL72)。
这显然是突破了半导体“摩尔定律”的数字。数十倍性能提升在电子系统一年迭代时间里发生,且在NVIDIA看来还未必满足AI算力需求:可见在现有市场参与者看来,DeepSeek会降低AI基建需求的早期误判是可笑的(图5)。
图5:AI数据中心将是人类社会的中坚力量 图片来源:国际电子商情
未来的AI总算力需求需求
最后还是回到经典的杰文斯悖论。Dennis评价DeepSeek的创新成果“实际上是为AI硬件打开了更大的市场”,“为世界创造了更多的AI技术应用空间”,“降低了AI计算需求门槛,为行业里的其他传统企业和新创公司提供了全新的竞争手段”。
就像第一次科技革命之时,蒸汽机的效率提升致单位动力耗煤下降,但社会的煤炭总消耗量却因为蒸汽机应用场景扩展而激增。类比AI市场,虽说达成相同能力的AI模型训练和推理成本在下降,但总投入却将发生大幅增加——因为需求也随之增加了。
所以我们可以说(1)AI成本下降会进一步带动AI应用的普及,更多行业和场景都会开始布局AI应用;(2)效率的提升也会促成新应用场景的出现,应用层面的创新甚至会是现在的人类始料未及的;
(3)带动AI技术竞争和效率持续突破,也就是AI技术栈的持续效率优化会促进竞争,进一步带动市场整体发展。虽然本文主要是在谈AI模型及算法的效率提升,但近些年AI芯片的效率提升也在持续,不仅是NVIDIA的GPU、系统及诸如Dynamo这样的中间件。Dennis在采访中也说,最近发布的Imagination DXTP GPU IP,能效相比上代提升20%。这在我们看来会成为接下来几年AI技术进步的常态。
遥想AlexNet刚刚促成这一波AI热潮之时,就有人预言了“强AI”持续发展的时代,每5年的技术迭代,就可能让人意想不到,再也回不去从前。今年的IIC Shanghai活动上,还有嘉宾认为,AI对人类生活习惯的潜在影响将超过智能手机。或许2、3年以后的人类回望2025年的我们,就已经不理解为何当时的人类技术如此落后了。