欢迎访问
一个AI大模型至少需要上万张GPU,蛋糕之大谁都想要分一块
2023-07-13 来源:贤集网
728

关键词: 人工智能 英伟达 芯片

ChatGPT的火爆掀起了从巨头到初创的科技业AI竞赛。在这场AI淘金大战中,提供一流AI芯片的英伟达成为大赢家,华尔街高呼“英伟达是AI大战唯一的军火商” 。

而过去一个月,英文达又在AI风投圈杀疯了,看来正在趁其GPU处于领先地位的时间窗口,巩固建立的最强AI产业联盟。


英伟达打造最强AI芯片联盟

今年6月,英伟达就参与了三家高调宣布获得新一轮融资的AI独角兽融资。其中6月9日,做类ChatGPT聊天机器人的加拿大AI公司Cohere宣布完成2.7亿美元C轮融资,英伟达、甲骨文、Salesforce等参与。Cohere的估值由此达到约22亿美元。

另外两家在上周四一天内不约而同公布大规模融资的初创分别是:推出AI聊天机器人Pi的Inflection AI和AI文生视频创企Runway。



其中,由DeepMind联合创始人Mustafa Suleyman去年联合创办并担任CEO的Inflection AI获得13亿美元新融资,据Crunchbase统计,这是目前排在第四高位的AI融资轮规模。

Inflection AI新一轮融资的领投方是微软、领英联合创始人Reid Hoffman、比尔•盖茨、谷歌董事长埃里克•施密特,英伟达是投资者中唯一的新面孔。

完成融资后,Inflection AI的估值升至约40亿美元,成为估值仅次于OpenAI和Anthropic的全球第三大生成式AI独角兽。

Runway完成了1.41亿美元新融资,新加入的投资者包括谷歌、英伟达和Salesforce,通过这轮,Runway的估值升至约15亿美元,不到半年翻了三倍。

Inflection AI最近推出了其首个专有语言模型Inflection-1,称该模型是在非常大的数据集上使用数千个英伟达H100训练的,是其计算类别中最好的模型,在通常用于比较大语言模型(LLM)的各种基准测试中,性能优于GPT-3.5、LLaMA、Chinchilla 和 PaLM-540B。

上周四,Inflection AI还宣布,在与英伟达合作打造全球最大的AI集群之一,其超级计算机将扩展至包含2.2万个英伟达H100芯片,支持新一代AI大模型的训练和部署。集成AI芯片的数量直接碾压了Meta今年5月公布的1.6万个A100打造的超算集群。

除了英伟达,Inflection AI上述超级GPU集群的另一合作方是云服务供应商CoreWeave。它号称可提供“比传统云提供商便宜80%”的算力。英伟达之前曾对CoreWeave投资1亿美元。6月有媒体称,微软同意未来数年内向CoreWeave投资数十亿美元,用于云计算基础设施建设。

在最新发布的权威AI性能基准测试MLPerf中,英伟达和CoreWeave合作构建的拥有3584个H100的集群,仅用不到11分钟就训练完GPT-3大型语言模型。


竞争对手不少

除了谷歌,其他的互联网巨头也纷纷加入了自研AI芯片的行列。

例如,亚马逊在2018年推出了自己的AI芯片Inferentia,用于加速云端的AI推理任务,如语音识别、自然语言处理、图像分析等。亚马逊将Inferentia部署在自己的云服务和数据中心中,为自己的AI产品和服务提供了更高效和更低成本的解决方案,如亚马逊Alexa、亚马逊Echo、亚马逊Rekognition等。亚马逊也将Inferentia开放给了第三方开发者,让他们可以通过亚马逊云平台使用Inferentia来加速自己的AI模型。

类似的,Facebook、微软、阿里巴巴、腾讯等公司也都在研发自己的AI芯片,用于支持自己的AI业务和云服务,同时也为第三方开发者提供了更多的选择和便利。这些公司都是英伟达的重要客户,如果他们转向自己的AI芯片,英伟达将面临巨大的市场损失和竞争压力。

除了互联网巨头,其他的半导体公司也在加紧研发AI芯片,试图分食英伟达的市场份额。例如,英特尔在2016年收购了AI芯片公司Nervana,推出了自己的AI芯片Nervana Neural Network Processor(NNP),用于加速神经网络的训练和推理。英特尔还收购了AI芯片公司Movidius和Habana Labs,推出了自己的AI芯片Movidius Vision Processing Unit(VPU)和Habana Gaudi/Goya,用于加速视觉处理和机器学习任务。英特尔将这些AI芯片集成到自己的CPU、FPGA、云服务等产品中,为各种场景提供了多样化的AI解决方案。



类似的,AMD、ARM、高通、华为、三星等公司也都在研发自己的AI芯片,用于加速各种设备和平台上的AI任务,如手机、平板、笔记本、服务器、汽车等。这些公司都是英伟达的潜在竞争对手,如果他们能够提供更好或更便宜的AI芯片,英伟达将面临更多的挑战和威胁。

总之,随着AI技术的发展和普及,越来越多的公司开始自研AI芯片,以降低对英伟达的依赖,提高自己的核心竞争力。这对英伟达来说是一个潜在的威胁,它需要不断创新和优化自己的AI芯片,以保持自己在AI领域的领先地位。


微软与华盛顿大学合作研究全新GPU

从生成式人工智能爆发之初我们就一直在说,如果推理需要与训练相同的硬件来运行,那么它就无法产品化。没有人能够负担得起,即使是财力雄厚的超大规模提供商和云构建商。

这就是为什么微软与华盛顿大学的研究人员合作,炮制了一个名为 Chiplet Cloud 的小东西,从理论上讲,它至少看起来在推理方面可以击败 Nvidia“Ampere”A100 GPU(而且对于较小的用户来说),甚至还可以击败包括“Hopper”H100 GPU和运行 Microsoft GPT-3 175B 和 Google PaLM 540B 模型的 Google TPUv4 加速器。

Chiplet Cloud 架构刚刚在一篇基于 Shuaiwen Leon Song 牵头的研究的论文中披露,Shuaiwen Leon Song 是太平洋西北国家实验室的高级科学家和技术主管,也是悉尼大学和悉尼大学未来系统架构研究人员的记忆库。华盛顿大学博士后,于今年 1 月加入微软,担任高级首席科学家,共同管理其Brainwave FPGA 深度学习团队,并针对 PyTorch 框架运行其DeepSpeed 深度学习优化,这两者都是微软研究院 AI at Scale 系列的一部分项目。

这些研究并非毫无意义——正如您将看到的,我们真正的意思是——这些项目被 GPT 击败,迫使微软在 Leon Song 加入微软的同时向 OpenAI 投资 100 亿美元。迄今为止,微软已向 OpenAI 提供了 130 亿美元的投资,其中大部分将用于在微软 Azure 云上训练和运行 GPT 模型。

如果我们必须用一句话来概括 Chiplet Cloud 架构(我们必须这样做),那就是:采用晶圆级、大规模并行、充满 SRAM 的矩阵数学引擎,就像 Cerebras Systems 设计的那样,握住它在空中完美水平,让它落在你面前的地板上,然后拾起完美的小矩形并将它们全部缝合在一起形成一个系统。或者更准确地说,不是用 SRAM 做晶圆级矩阵数学单元,而是制作大量单独成本非常低且产量非常高(这也降低了成本)的小单元,然后使用非常快的互连。

这种方法类似于 IBM 对其 BlueGene 系列大规模并行系统(例如安装在劳伦斯利弗莫尔国家实验室的 BlueGene/Q)所做的事情与 IBM 在“Summit”超级计算机中对 GPU 重铁所做的事情之间的区别。BlueGene 与日本 RIKEN 实验室的“K”和“Fugaku”系统非常相似,从长远来看可能一直是正确的方法,只是我们需要针对 AI 训练、HPC 计算以及 AI 推理进行调整的不同处理器。

最近几周,我们一直在讨论构建运行基于 Transformer 的生成 AI 模型的系统的巨大成本,Chiplet Cloud 论文很好地阐述了为什么 Amazon Web Services、Meta Platforms 和 Google 一直在努力寻找制造自己的芯片以使人工智能推理更便宜的方法。

华盛顿大学的迈克尔·泰勒 (Michael Taylor)、胡万·彭 (Huwan Peng)、斯科特·戴维森 (Scott Davidson) 和理查德·施 (Richard Shi) 等研究人员写道:“在 GPU 等商用硬件上提供基于生成式Transformer的大型语言模型,已经遇到了可扩展性障碍。” “GPU 上最先进的 GPT-3 吞吐量为每 A100 18 个token/秒。ChatGPT 以及将大型语言模型集成到各种现有技术(例如网络搜索)中的承诺使人们对大型语言模型的可扩展性和盈利能力产生了疑问。例如,Google 搜索每秒处理超过 99,000 个查询。如果 GPT-3 嵌入到每个查询中,并假设每个查询生成 500 个token,则 Google 需要 340,750 台 Nvidia DGX 服务器(2,726,000 个 A100 GPU)才能跟上。仅这些 GPU 的资本支出就超过 400 亿美元。能源消耗也将是巨大的。假设利用率为 50%,平均功率将超过 1 吉瓦,足以为 750,000 个家庭供电。”



国内大模型应用有了GPU的新选择

近日,国内GPU芯片企业天数智芯却为一众国产大模型应用的探索企业带来了好消息。

在6月10日召开的第五届智源大会AI系统分论坛上,天数智芯宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院(以下简称“智源研究院”)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。

天垓100是天数智芯的第一代GPU产品,它从2018年开始规划布局,而ChatGPT爆火不足1年。为何大模型应用爆发之后,天数智芯能够很快有方案来适配?“这是因为我们做的产品和技术路线对于这些不断变化和不确定的应用来说,它是确定的。虽然各种应用和算法都在快速发展,但是对于通用计算并行化、大规模性能提升是不变的。”天数智芯产品线总裁邹翾告诉笔者。

据悉,天数智芯的天垓、智铠系列通用GPU产品具有高性能、广通用、开发成本低的特点,广泛支持DeepSpeed、Colossal、BM Train等各种大模型框架,基于天垓、智铠加速卡的算力集群方案不仅能够有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune,还适配了清华、智源、复旦等在内的国内多个研究机构的开源项目,为行业伙伴提供一站式的大模型算力及赋能服务。

天垓100芯片的成功训练百亿级参数大模型,显示了国内芯片企业在技术研发上的实力和进步。这为国内的大型模型应用提供了新的选择,并为相关领域的创新发展带来了推动力。虽然目前国内GPU芯片企业与NVIDIA相比仍然处于起步阶段,但天数智芯的进展表明国内也在逐渐迎头赶上,并且在未来有望取得更多突破。


大模型应用需要多少算力?

那么,对于当下的大模型应用究竟需要多少算力?邹翾表示,短期来看,根据公开数据显示,ChatGPT 3大约需要1万张GPU卡来做训练,根据马斯克的预测,最新的ChatGPT 4所需要的可能是3-5倍,这还只是头部企业的情况,而放眼全球,至少还有10家真正有实力的企业也想做大模型应用。在这些“百模”甚至是“千模”的应用下,算力是基础的保障,而现在的问题是算力还远远不够,黄仁勋此前表示,GPU卡比“毒品”还难买到。因此,当务之急是首先要有能用的算力产品。

长期来看,大模型算力的参数还在不断提升,一个主要的原因是我们还没有把大模型应用的所有性能挖掘出来。头部企业都想抓住那些没有被发现的能力的制高点。百家争鸣,群雄逐鹿,事情发展到最后,最终会收敛到一个相对较稳定的状态,届时算力基础设施将会比较明确。

而对于天数智芯这样的底层芯片企业而言,要做的就是不断升级算力解决方案,适配支持更高效、更复杂算法的大模型,为我国大模型创新发展、应用落地提供更加坚实的算力支撑。

在未来的产品规划方面,因应大模型这一特定应用的发展需求,天数智芯也在有针对性的对未来的产品进行设计调优。具体据邹翾的介绍,主要包括散热供电、多块卡之间的通讯连接,以及在计算、存储和通讯之间找到一个平衡的关系等,再就是对Transformer结构进行进一步的加速化。



Baidu
map