欢迎访问
不仅英伟达,不少初创企业也押宝这类芯片,定制化有什么魅力
2024-05-20 来源:贤集网
935

关键词: 英伟达 半导体 芯片

一个季度赚了123亿美元的英伟达,现在成了许多半导体企业艳羡的对象,大家头一回发现,原来GPU利润这么高,甚至能撑起2万亿美元的市值,但英伟达真的会满足于此吗?

英伟达CEO黄仁勋曾在2008年发表过感言,认为公司应该把研究客户的需求,把解决客户的问题放在第一位,而不是去关注对手,如果把精力放在如何从对手那里把客户抢过来,就会错失开拓新客户的机会。

16年之后,英伟达的CEO还是黄仁勋,虽然股价市值规模早已翻了十数倍乃至上百倍,但在他的掌舵下,英伟达依旧走在不断寻找新客户的道路上。



据路透社报道,英伟达正在建立一个新的业务部门,专注于为云计算公司和其他公司设计定制芯片,其中包括先进的人工智能处理器。

据其爆料,英伟达高管已经与亚马逊、Meta、微软、谷歌和OpenAI的代表会面,讨论为他们生产定制芯片的事宜,除了数据中心芯片外,英伟达还在寻求电信、汽车和视频游戏的客户。

路透社的这份报道,意味着英伟达要以强势姿态切入数据中心定制芯片市场,要在传统的游戏,新兴的人工智能等领域之后开拓一片新的战场。


为什么英伟达选择 ASIC?

英伟达选择 ASIC 的原因,其实从其新部门面向客户中可以窥见一二。新部门面向的主要是云计算公司,这和英伟达目前在主要的北美 CSP(云计算供应商)企业重叠,包括 Google Cloud、AWS、Microsoft Azure 和 Meta 等企业。

这些企业都已经开始进行自家芯片的开发,例如 Google 的 TPU 和微软的 AI 加速器 Maia 及专为 Azure 设计的 CPU "Cobalt"。

因此英伟达进军 ASIC 的原因有二:第一,占领新的市场。第二,保护自己免受替代。

先来看占领新的市场。数据中心定制芯片的蛋糕并不小,据研究公司 650 Group 估计,数据中心定制芯片市场今年将增长至 100 亿美元,到 2025 年将翻一番。

Needham 分析师 Charles Shi 表示,2023 年更广泛的定制芯片市场价值约为 300 亿美元,约占全球芯片年销售额的 5%。

数据中心的定制芯片的市场中有两大巨头:博通和 Marvell。在高端 ASIC 市场,博通以 35%的市占率,稳坐龙头宝座,Marvel 以 12%的市占率居次。博通和 Marvell 其实都认为随着数据中心处理器变的多样,会让定制芯片的模式重新焕发生机。

原因在于,AI 时代中,ASIC 芯片也能撑起一片天。

这就谈回了一个老问题:ASIC、GPU,谁是最合适的 AI 芯片?其实这两类芯片有各自的特点,但在满足算力需求上是相互竞争的。简单来说,GPU 有先发优势,技术发展时间长,使用成本较低,但是功耗高。ASIC 面向特定用户需求设计的定制芯片,在吞吐量、功耗、算力水平等方面都有优势。

在 20 世纪 90 年代时,很多大型企业都渴望设计和提供针对特定应用的定制 ASIC 设备,同时提供更好的性能。Sony、Toshiba 和 IBM 最初设计的用于 Sony Playstation 3 的 Cell Processor 就是一个例子。不过,由于 ASIC 的成本高,随着为特定产品设计 ASIC 变得越来越难以合理规模,ASIC 的岁月似乎过去。

ASIC 和 GPU 的分歧就在这:成本。

因为从性能来看,针对特定场景或应用所设计的 ASIC 芯片,会比英伟达所卖的通用 GPU 更有优势。以前一直使用 GPU,也带火了英伟达等厂商的业绩和股价,但后来大家发现,随着机器学习、边缘计算发展,算法更加成熟和稳定,自己完全有足够的计算需求去分摊 ASIC 的成本。

尤其 ChatGPT 爆火以后,英伟达 GPU 产品掉队,很多企业都是靠着服务器 CPU+ASIC 的形式,来满足用户对于 AI 训练和推理的算力需求。

这就展示出 ASIC 在 AI 时代的作用。Marvell 的计算与定制集团技术副总裁 Mark Kuemerle 观察到:" 关于这些数据中心客户的有趣事实是,如果他们的系统中出现轻微的瓶颈点,问题会被放大 1000 倍甚至更多(因为它们部署在超大规模中)。" 这样的瓶颈点可能导致 NIC 卡住。现成的机器学习设备可能无法匹配工作负载或满足灵活性或可编程性的需求。

Kuemerle 说:" 这些超大规模数据中心真的必须将一切精确调整到他们的工作负载。那么,他们投资建设定制芯片绝对是值得的。"

ASIC 早已成为 GPU 面临的强大竞争者。

虽说各大厂商购买英伟达 GPU,花钱如流水,既然都是流水,为什么不定制更适合自家应用场景的芯片呢?要定制就要花钱,英伟达同样想把大厂定制芯片的钱,纳入自己的钱包。

再来看 " 免受替代 " 是怎么回事。目前,谷歌、亚马逊、特斯拉和 Meta 都推出了 ASIC 芯片。



谷歌 2015 年发布首款 ASIC 芯片 TPU v1,去年已经迭代到了 v5。根据官方提供的数据,每个 TPU v5p pod 在三维环形拓扑结构中,通过最高带宽的芯片间互联(ICI),以 4,800 Gbps/chip 的速度将 8,960 个芯片组合在一起,与 TPU v4 相比,TPU v5p 的 FLOPS 和高带宽内存(HBM)分别提高了 2 倍和 3 倍。

谷歌使用 TPU v5p 垒起一道抵御英伟达 GPU 的高墙。

对于谷歌来说,要钱有钱,要技术有技术,要应用场景有应用场景,可以说是各大科技巨头中在自研 AI 芯片这条路上走得最远的,其他厂商目前还在源源不断地给英伟达账户打钱,但谷歌却早已做好了两手准备。

微软则也是打响了 " 逃离英伟达 " 的信号枪。最新的消息,微软正在开发一款新的网卡,可以提高其 Maia AI 服务器芯片的性能,并有可能减少该公司对芯片设计商 Nvidia 的依赖。

有知情人士表示,微软首席执行官萨蒂亚 · 纳德拉 ( Satya Nadella ) 已任命网络设备开发商瞻博网络 ( Juniper Networks ) 联合创始人普拉迪普 · 辛杜 ( Pradeep Sindhu ) 来领导网卡工作。

看来出于成本和自主率考虑,大厂还是更愿意使用自家的 ASIC。买英伟达的 GPU 不但价格高昂,并且受制于人。不过,使用自家芯片多一些,那就用英伟达 GPU 少一些。


为大模型量身打造芯片

想要训练一个大模型,代表算力的芯片就是最关键的一环,也是成本最高的一环。

这也导致了一个问题,如果AI照着现在这幅样子发展下去,那么成本就会越来越高,高到绝大部分公司都难以承受的地步,根据外媒估计,如今正在开发的大模型,平均每个需要花费约 10 亿美元,而下一代大模型呢,平均每个需要花费 100 亿美元来训练,这个天文数字,在硅谷买下几十家有潜力的初创公司都还有得找。

这也暴露出了目前行业最常用的英伟达显卡的弊端,英伟达的GPU并非为了AI而生,它起初是为了处理各种各样的图形化计算而生产制造的,整体设计也没有脱离传统计算的范畴,面对人工智能蓬勃发展时,强大的算力有相当一部分被浪费了,也意味着白花花的银子被浪费了。

大公司可以一边着手自研,一边继续购买英伟达的显卡,但对于中小型公司来说,显卡成为了他们最大的绊脚石,如此一来,AI在某种程度上就成为了一部分公司的专属。

不过这种需求已被一部分人所注意到,在美国硅谷,迈克-冈特(Mike Gunter)和雷纳-波普(Reiner Pope)这两位从谷歌出走的工程师,他们成立了一家名为 MatX 的公司,而这家公司的目标,就是设计专门用于LLM(大型语言模型)的,更便宜、更快速、更适合人工智能的芯片。

在谷歌任职时,Gunter主要负责设计运行人工智能软件的硬件(包括芯片),Pope则负责编写人工智能软件本身,这里不得不提到谷歌此前自研的TPU了,从2014年发展至今,已经更迭了整整五代,但它们和英伟达H100一样,都不是为了LLM所量身打造的,放在人工智能领域中,显得过于通用了一些。

Pope在接受采访时表示:“我们试图让LLM在谷歌运行得更快,并取得了一些进展,但这有点困难,”他说到,“在谷歌内部,有很多人希望对芯片进行各种改动,因此很难只专注于 LLM。为此,我们选择了离开。”

这两位创始人都认为,在人工智能时代到来之际,芯片上额外的空间增加了不必要的成本和复杂性,因此需要“一刀切”,去掉所有不必要的部分,只保留必要的部分,MatX公司的做法就是在硅片上设计一个大型处理内核,目的只有一个,那就是尽可能快地将数字相乘——这是 LLM 的核心任务。

MatX表示,自己的芯片在训练 LLM 和提供其结果方面将比英伟达的 GPU 至少好 10 倍。“英伟达有非常强大的产品,显然是大多数公司的理想选择,” Pope说,“但我们认为我们可以做得更好。

其预测,通过赢得包括OpenAI和Anthropic PBC在内的多家主要人工智能企业的青睐,它的业务将蒸蒸日上。“这些公司的经济状况与一般公司完全相反,"Gunter说,"他们把钱都花在了计算上,而不是工资上。如果情况不改变,他们就会没钱。”

无独有偶,隔壁总部位于多伦多的人工智能芯片初创公司 Taalas,同样立志于改变由英伟达主导的AI世界,公司创始人包括Ljubisa Bajic、Lejla Bajic 和 Drago Ignjatovic,他们均来自传奇架构师Jim Keller所领导的Tenstorrent。

与前东家Tenstorrent不同的是,Taalas几位创始人想开发一种自动流程,能将任何人工智能模型快速转化为定制芯片,其表示,由此产生的硬核模型的效率是软件模型的 1000 倍。

“要实现人工智能的商品化,就必须将计算能力和效率提高 1000 倍,而目前的渐进式方法是无法实现这一目标的。我们不应该在通用计算机上模拟智能,而应该直接在芯片中打造智能,在芯片中实现深度学习模型是实现可持续人工智能的最直接途径。”Taalas 首席执行官Ljubisa Bajic说。

Taalas认为,公司会解决了当今人工智能硬件的两大问题,即能效和成本。如果客户需要在手机里使用特定参数Llama2模型,而且确定了产品生命周期中的全部需求,那么可能只需要为它提供一款最低功耗和最低成本的专用芯片,未来的AI在消费者日常生活中的普及程度将像电力一样无处不在,而Taalas认为自己能够推动这一切的发展。

Taalas表示,它将在2024年第三季度推出首款大型语言模型芯片,并计划在2025年第一季度向首批客户提供芯片。



目前,这两家打算颠覆目前AI芯片市场的公司都拿到了一笔数额不菲的投资,MatX获得了2500万美元的融资,而Taalas则获得了5000万美元的融资。

MatX的投资人提到,MatX这样的公司象征着人工智能世界的一种新趋势,因为他们正在把一些大公司开发出来的最好的创意(这些公司有点行动太慢、太官僚化)独立商业化,硅谷之所以能成为硅谷,正是因为一批又批充满活力的初创公司,初创公司能改变目前芯片行业沉闷的情况。

但问题也随之而来,设计芯片并不是吃饭喝水那么简单,设计和制造一款新芯片需要三到五年的时间,中间还不能出现重大失误,五年前的想法拿到现在来看,不少已然过时,这就要求这些初创公司对未来技术趋势有一个更准确的判断。


定制化面临不少挑战

定制硬件始终是一把双刃剑。它可以为芯片制造商提供竞争优势,但通常需要更多时间来设计、验证和制造芯片,这有时会浪费市场窗口。此外,对于除了最具价格弹性的应用程序之外的所有应用程序来说,它通常都太昂贵。这是设计前沿的一个众所周知的方程式,特别是在涉及生成式人工智能等新技术的情况下。

但随着平面扩展的结束,以及针对特定领域定制的更多功能,芯片行业正在努力弄清楚业务/技术等式是否正在经历根本性的、更持久的变化。目前,大约 30% 到 35% 的设计工具被出售给大型系统公司,用于生产永远不会进行商业销售的芯片,这一事实使情况变得更加混乱。在这些应用中,提高每瓦性能所带来的集体节省可能会使在大型数据中心设计、验证和制造高度优化的多芯片/多小芯片封装的成本相形见绌,从而引发关于定制与通用的争论比以往任何时候都更加不确定。

“如果你在工程组织中走得足够高,你就会发现人们真正想做的是软件定义的东西,无论它是什么,”西门子 EDA高级综合项目总监 Russell Klein 说。“他们真正想做的是购买现成的硬件,在上面安装一些软件,使其增值,然后发货。这种范式在许多领域都被打破了。当我们需要极高的性能或极高的效率时,它就会崩溃。如果我们需要比现成系统更高的性能,或者我们需要更高的效率,我们需要电池持续更长时间,或者我们只是不能燃烧那么多的电力,那么我们就必须开始定制硬件。”

Quadric首席营销官 Steve Roddy 对此表示同意。“在过去二十年或更长时间里,SoC 中的异构处理在绝大多数消费应用中已成为惯例。长期以来,手机、平板电脑、电视和汽车应用的 SoC 一直需要满足高性能和低成本的严格要求,这导致当今这些系统中专用功能处理器的激增。即使如今的低成本手机 SoC 也具有用于运行 Android 的 CPU、用于绘制显示屏的复杂 GPU、用于在低功耗模式下卸载音频播放的音频 DSP、与相机子系统中的 NPU 配合使用的视频 DSP 来改进图像捕获(稳定、滤波器、增强)、基带 DSP(通常带有附加的 NPU)、用于 Wi-Fi 和 5G 子系统中的高速通信通道处理、传感器集线器融合 DSP,甚至是可最大限度延长电池寿命的电源管理处理器。”

它有助于区分通用目的和特定于应用程序的内容。Ansys半导体部门产品营销总监 Marc Swinnen 表示:“在专用硬件(我们称之为定制芯片)上运行软件可以带来很多好处,因为它可以让您比竞争对手更具优势。” “您的软件运行速度更快、功耗更低,并且专为运行您想要运行的软件而设计。拥有现成硬件的竞争对手很难与您竞争。硅已经成为许多公司的商业价值和商业模式的核心,因此对其进行优化变得非常重要。”

然而,还是有一个平衡点。Expedera首席科学家兼联合创始人 Sharad Chole 表示:“如果在投资回报和部署成本、电力成本、热成本、冷却成本方面存在任何成本合理性,那么构建定制 ASIC 总是有意义的。” 。“我们在加密货币中看到了这一点,现在在人工智能中也看到了这一点。我们在边缘计算中看到了这一点,它需要极超低功耗的传感器和超低功耗的流程。但通用计算硬件也得到了推动,因为这样你就可以轻松地使应用程序更加抽象和可扩展。”

过去,它更多地是由经济驱动的。Expedera 营销副总裁 Paul Karazuba 表示:“市场有潮起潮落。” “将所有内容放入处理器都有一个起起落落的过程。拥有协处理器、增强主处理器内部的功能有起有落。这是几乎所有事物的自然演变。设计自己的芯片不一定更便宜,但从长远来看,不设计自己的芯片可能会更昂贵。”



Baidu
map