欢迎访问
微软紧跟英伟达发布AI芯片,直接对抗还是联手合作?
2023-11-17 来源:贤集网
728

关键词: 微软 英伟达 AI芯片

英伟达(Nvidia)于当地时间13日上午在 “Supercomputing 23”会议上正式发布了全新的H200 GPU,以及更新后的GH200 产品线。

其中,H200依然是建立在现有的 Hopper H100 架构之上,但增加了更多高带宽内存(HBM3e),从而更好地处理开发和实施人工智能所需的大型数据集,使得运行大模型的综合性能相比前代H100提升了60%到90%。而更新后的GH200,也将为下一代 AI 超级计算机提供动力。2024 年将会有超过 200 exaflops 的 AI 计算能力上线。


H200:HBM容量提升76%,大模型性能提升90%

具体来说,全新的H200提供了总共高达141GB 的 HBM3e 内存,有效运行速度约为 6.25 Gbps,六个 HBM3e 堆栈中每个 GPU 的总带宽为 4.8 TB/s。与上一代的H100(具有 80GB HBM3 和 3.35 TB/s 带宽)相比,这是一个巨大的改进,HBM容量提升了超过76%。官方提供的数据显示,在运行大模型时,H200相比H100将带来60%(GPT3 175B)到90%(Llama 2 70B)的提升。



虽然H100 的某些配置确实提供了更多内存,例如 H100 NVL 将两块板配对,并提供总计 188GB 内存(每个 GPU 94GB),但即便是与 H100 SXM 变体相比,新的 H200 SXM 也提供了 76% 以上的内存容量和 43 % 更多带宽。

需要指出的是,H200原始计算性能似乎没有太大变化。英伟达展示的唯一体现计算性能的幻灯片是基于使用了 8 个 GPU的HGX 200 配置,总性能为“32 PFLOPS FP8”。而最初的H100提供了3,958 teraflops 的 FP8算力,因此八个这样的 GPU 也提供了大约32 PFLOPS 的 FP8算力。

那么更多的高带宽内存究竟带来了哪些提升呢?这将取决于工作量。对于像 GPT-3 这样的大模型(LLM)来说,将会大大受益于HBM内存容量增加。英伟达表示,H200在运行GPT-3时的性能,将比原始 A100 高出 18 倍,同时也比H100快11倍左右。还有即将推出的 Blackwell B100 的预告片,不过目前它只包含一个逐渐变黑的更高条,大约达到了H200的两倍最右。

不仅如此,H200和H100是互相兼容的。也就是说,使用H100训练/推理模型的AI企业,可以无缝更换成最新的H200芯片。云端服务商将H200新增到产品组合时也不需要进行任何修改。

11月15日,微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)在微软Ignite全球技术大会发表了将近一个小时的开幕演讲。正如此前的预告,纳德拉的演讲几乎完全围绕AI展开,在硬件方面推出了由微软设计的首款CPU(中央处理器)Azure Cobalt 100,以及首款专门用于云端训练和推理的AI芯片Azure Maia 100。两者都将优先用于支持微软自己的云服务。

当日,微软股价波动不大,涨0.04%收于369.67美元,续创收盘新高。目前,微软总市值已经达到2.75万亿美元。

据纳德拉介绍,Cobalt 100基于Arm架构,具有128个核心,被称为“所有云计算供应商中速度最快的CPU”,已经在微软的部分业务中得到了应用并将于明年上市。备受期待的微软自研AI芯片Azure Maia也在大会上进行了首秀,Maia 100采用5nm制程,晶体管数量达到1050亿个。纳德拉表示,Maia 100旨在运行大语言模型、帮助AI系统更快地处理大量数据,将首先为微软自己的AI应用程序提供支持,之后再向合作伙伴和客户开放。

据外媒分析,微软的Maia 100和Cobalt 100将分别对英伟达和英特尔在AI芯片和CPU行业中的龙头地位带来挑战。面对顶级AI芯片供应不足的挑战,微软也终于加入了其他互联网巨头的自研行列。此前,谷歌从2016年起开始推出自研AI张量处理单元(TPU),到今年9月已经发展到第五代,而亚马逊云科技(AWS)则在2020年宣布推出用于训练AI模型的自研芯片Trainium。


微软挑战英伟达AI芯片地位

11月15日,微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)在微软Ignite全球技术大会发表了将近一个小时的开幕演讲。正如此前的预告,纳德拉的演讲几乎完全围绕AI展开,在硬件方面推出了由微软设计的首款CPU(中央处理器)Azure Cobalt 100,以及首款专门用于云端训练和推理的AI芯片Azure Maia 100。两者都将优先用于支持微软自己的云服务。



据纳德拉介绍,Cobalt 100基于Arm架构,具有128个核心,被称为“所有云计算供应商中速度最快的CPU”,已经在微软的部分业务中得到了应用并将于明年上市。备受期待的微软自研AI芯片Azure Maia也在大会上进行了首秀,Maia 100采用5nm制程,晶体管数量达到1050亿个。纳德拉表示,Maia 100旨在运行大语言模型、帮助AI系统更快地处理大量数据,将首先为微软自己的AI应用程序提供支持,之后再向合作伙伴和客户开放。

据外媒分析,微软的Maia 100和Cobalt 100将分别对英伟达和英特尔在AI芯片和CPU行业中的龙头地位带来挑战。面对顶级AI芯片供应不足的挑战,微软也终于加入了其他互联网巨头的自研行列。此前,谷歌从2016年起开始推出自研AI张量处理单元(TPU),到今年9月已经发展到第五代,而亚马逊云科技(AWS)则在2020年宣布推出用于训练AI模型的自研芯片Trainium。


自研芯片,微软蓄谋已久

在微软看来,芯片是云的主力。它们控制着数十亿个晶体管,处理流经数据中心的大量 1 和 0。这项工作最终允许您在屏幕上执行几乎所有操作,从发送电子邮件到用简单的句子在 Bing 中生成图像。

就像建造房屋可以让你控制每一个设计选择和细节一样,微软将添加自研芯片视为确保每个元素都是针对微软云和人工智能工作负载量身定制的一种方式。这些芯片将安装在定制服务器主板上,放置在定制的机架内,可以轻松安装到现有的微软数据中心内。硬件将与软件携手合作,共同设计以释放新的功能和机遇。

Azure 硬件系统和基础设施 (AHSI) 公司副总裁 Rani Borkar 表示,公司的最终目标是 让Azure 硬件系统能够提供最大的灵活性,并且还可以针对功耗、性能、可持续性或成本进行优化。

“软件是我们的核心优势,但坦白说,我们是一家系统公司。在微软,我们正在共同设计和优化硬件和软件,以便一加一大于二,”Borkar说。“我们可以看到整个堆栈,而硅只是其中的成分之一。”

领导 Azure Maia 团队的微软技术研究员 Brian Harry 表示,Maia 100 AI 加速器是专为 Azure 硬件堆栈设计的。他表示,这种垂直整合——芯片设计与考虑到微软工作负载而设计的更大的人工智能基础设施的结合——可以在性能和效率方面带来巨大的收益。

AHSI 团队合作伙伴项目经理 Pat Stemen 则表示,2016 年之前,微软云的大部分层都是现成购买的。然后微软开始定制自己的服务器和机架,降低成本并为客户提供更一致的体验。随着时间的推移,硅成为主要的缺失部分。

在微软看来,构建自己的定制芯片的能力使微软能够瞄准某些品质并确保芯片在其最重要的工作负载上发挥最佳性能。其测试过程包括确定每个芯片在不同频率、温度和功率条件下的性能以获得最佳性能,更重要的是,在与现实世界的微软数据中心相同的条件和配置下测试每个芯片。微软强调,公司今天推出的芯片架构不仅可以提高冷却效率,还可以优化其当前数据中心资产的使用,并在现有占地面积内最大限度地提高服务器容量。



未来核心技术与创新


芯片设计创新


在AI芯片的设计领域,创新主要体现在提高运算能力与减少能耗上。当前,市场上领先的AI芯片如英伟达的A100 Tensor Core GPU拥有19.5 TeraFLOPS的单精度计算能力,功耗为400瓦特。设计创新还体现在采用了新的架构,如使用张量核心专门针对AI计算进行优化,相较于传统的GPU,在相同的功耗下提高了6倍以上的AI计算效率。


制造工艺进步

在制造工艺上,先进的7纳米和5纳米制程技术已成为市场标配。比如,台积电(TSMC)的5纳米工艺相比上一代10纳米工艺,在性能上提升了15%,功耗降低了30%,同时逻辑区域密度提高了80%。这意味着在同等面积的芯片上可以集成更多的功能单元,大大提高了芯片的整体性能。


材料科学的突破

材料科学的进展为AI芯片的性能提升提供了基础。例如,碳纳米管和石墨烯等新材料因其超常的导电性和强度,被研究用于下一代芯片,理论上可以极大地降低芯片的功耗并提升传输速度。尽管当前这些材料还未大规模商用,但已在实验室中展现出相较于传统硅材料数倍甚至数十倍的性能提升潜力。


能效优化

能效是AI芯片领域一直在追求的关键指标。以谷歌的TPU(Tensor Processing Unit)为例,其第四代TPU在AI推理任务上的能效比达到了2倍每瓦特每秒的计算速度,这一数据是其第一代产品的近8倍提升。能效的优化不仅减少了运营成本,同时也降低了数据中心的环境影响。



Baidu
map