欢迎访问
GPU被炒上天价,国产能力缺乏是主因,而这即将被改变
2023-06-20 来源:贤集网
1337

关键词: GPU 英伟达 芯片

如果要说当下在芯片领域谁最热,GPU是第二,无人敢说第一。GPU是芯片领域里技术难度最高的主赛道的芯片之一,我国九成以上都是靠进口。以ChatGPT大模型应用的爆火把AI又炒上了一个新的高点,其背后的算力基础GPU芯片也成为“香饽饽”。英伟达的两款受限制的芯片被炒货炒到八万多、十万多甚至几十万,这背后显现的一方面是我国对GPU芯片大的市场需求,另一方面凸显了我国尚没有自主可控的GPU。

自主可控主要有两个维度:一种是购买第三方IP架构来自研GPU的内核;另外一种就是在GPU的IP架构也是自研的,同时GPU的内核也是自研。目前国内的GPU芯片企业大多是第一种,而要想真正在底层GPU的知识产权和技术迭代环节有主动权,必须要同时掌握IP架构和内核两个方面。

近日,国内企业中天恒星科技有限公司(Advanced Technology Stellar,简称中天恒星/ATS)第一款自研的GPU架构“天狼星”的推出,将为国产GPU芯片的发展迈出一个新的高度。中天恒星创始人黄永博士指出:“我们的架构全部是以恒星来命名的。Stellar是恒星、星宿、星座的意思,引申出来有超一流、卓越的含义。第二代架构命名为大角星;大角星是第二亮的恒星。只是因为距离地球更远,所以看起来没有天狼星亮;实际上,大角星比天狼星更亮,其亮度是太阳的110倍。”



一鸣惊人,中天恒星发布自研GPU架构“天狼星”

2023年6月15日,中天恒星以清华大学超过10年研究基础为依托,发布了其第一款GPU产品——“天狼星”。该芯片从数学公式推导开始,架构设计、算法模型、原理验证、硬件实现和驱动开发等环节全部正向设计。

据中天恒星创始人黄永博士介绍,“天狼星”GPU架构是多年长期耕耘的结果。2019年,第一代“天狼星”架构芯片设计验证完成。2021年,第一代“天狼星”架构GPU诞生;2022年,定义第二代GPU架构“大角星”;2023年,第一代“天狼星”架构GPU实现量产。据悉,2024年,中天恒星会继续优化基于“天狼星”架构的GPU。2025年,将量产第二代GPU架构“大角星”。


“天狼星”GPU架构有几大亮点:

具有3D图形引擎+2D图形加速+视频引擎。

自主可控/灵活优化的指令集和VLIW/SIMD机器指令集(ICCD’13);其中,自主可控/灵活优化的指令集,可保证GPU芯片迭代的软件兼容。

SIMT计算框架,可以充分利用图形应用的数据并行性( DATE’12.ICCD'13,TVLSI15)。

支持物理真实渲染(ACMComputingSurvey’14,SIGGRAPHASIA'14.15)。

Shader Core(Graphics Processing Cluster),包括SIMT独立指令执行单元、以32位浮点ALU为基础的统一图形架构(ICCD13)以及集成寄存器堆、纹理/数据缓存。

延迟聚集式全局线程调度技术(ISCA20、TPDS21、TCAD'21)。

具有良好性能伸缩性的片上互联架构(MICRO'20、TPDS’21)。

据中天恒星的介绍,其瞄准的是广阔的图形渲染市场,第一代“天狼星”架构GPU产品的目标市场是以括台式机、一体机、笔记本电脑为核心目标,逐渐拓展到大屏电视、数据中心、云渲染以及车载市场。


GPU用于渲染仍是行业主流

为何中天恒星要选择发力图形渲染这个市场呢?

GPU从一开始就是为图形渲染而生,其英文是Graphics Processing Unit,是一个可编程芯片,目的是把我们要呈现的场景,通过一系列计算之后投射在一个两维计算机屏幕上,GPU力图在屏幕上再现和真实世界完全一样的渲染效果,这就是GPU的作用。

但由于GPU拥有强大的并行计算能力,后来我们就用它加速机器学习的训练,就是所谓的算力的GPU。按照黄仁勋的说法,2023年算力GPU的产值会超过300亿美元的规模,到2027年会达到1500亿美元的量级。

但其实除了用于算力之外,用于渲染的GPU才是GPU市场的主流。2022年以独立显卡为代表的GPU大约占据80%以上的GPU市场,除了独立显卡,集成显卡领域也大抵如此,比如很多汽车的面板用嵌入式GPU做渲染。

渲染GPU的重要性还可以通过另一个层面来直观看出,比如说服务器的出货量和PC出货量,2021年全球服务器出货量1300万台,PC出货量3.5亿台左右。一般来说,潜在的每一台PC都会搭载一块图形显示的显卡,所以从这个意义上来讲,整个渲染GPU也是主流。

除此之外,大屏交互也是一个惊人的市场。在本次发布会上,国际信息显示学会中国总裁、fellow、俄罗斯工程院外籍院士、国际信息显示学会北京分会理事长严群博士指出:“现在所有显示器都可以称为被动式显示技术,观看的人对它的信息传输只有接收,没有互动,一旦显示屏加上很多GPU功能,有了沉浸式三维影像呈现、交互体验,那就不是传统的电视了,是一旦需要有交互体验的时候,我们就会重新回到大屏,重新回到这些有渲染的、真实的、你可以融入其中的体验,这种体验非常不得了。”

至于为何会选择图形渲染赛道,黄永博士在采访中解释到,“显示、图形渲染是目前需求量最大的一块市场,也是高度标准化的市场,唯一要做的就是提高性价比,这就是我们的商业逻辑的突破口,我们将从性价比着手,突破渲染、显示这样标准化的市场,进而再往定制、半定制、更高端的市场去突破。”



邓仰东博士在会上介绍了关于GPU芯片和渲染内容高度标准化的内容。他指出,

邓仰东博士也在会上介绍到:“GPU芯片是高度标准化的芯片,渲染的内容是高度标准化的。”他指出,GPU芯片的标准主要由三个图形和计算标准界定。首先是OpenGL,它是国际标准化组织于1997年推出的,从2007年开始,OpenGL相继发布了三个版本,基本上确定了整个图形渲染所需完成的任务。与此同时,微软推出了DirectX,这是微软专门针对Windows平台的图形标准。OpenGL具有跨平台兼容性,而DirectX只适用于Windows平台。尽管DirectX具有更好的渲染效果,但它缺乏平台的兼容性。另外一个标准是OpenCL,最初是为图形纯计算能力而设计,后来也扩展到通用计算领域。

这三个标准在2007年至2017年间经历了黄金时代,并在2017年基本固化下来。换句话说,今天的图形标准基本上仍然是2007年的主要图形显示内容,GPU需要完成的核心任务基本上没有变化。这也意味着国内是有可能赶上NVIDIA在图形渲染GPU设计方面的进展。

“此外,GPU市场很大,我们不是为了抢夺英伟达和AMD的市场蛋糕,而是满足一部分没有得到满足的刚需市场。”黄永博士补充道。


全世界都在抢算力

对英伟达数据中心 GPU 的竞赛也发生在全球范围。不过海外巨头大量购买 GPU 更早,采购量更大,近年的投资相对连续。

2022 年,Meta 和甲骨文就已有对 A100 的大投入。Meta 在去年 1 月与英伟达合作建成 RSC 超级计算集群,它包含 1.6 万块 A100。同年 11 月,甲骨文宣布购买数万块 A100 和 H100 搭建新计算中心。现在该计算中心已部署了超 3.27 万块 A100,并陆续上线新的 H100。

微软自从 2019 年第一次投资 OpenAI 以来,已为 OpenAI 提供数万块 GPU。今年 3 月,微软又宣布已帮助 OpenAI 建设了一个新计算中心,其中包括数万块 A100。Google 在今年 5 月推出了一个拥有 2.6 万块 H100 的计算集群 Compute Engine A3,服务想自己训练大模型的公司。

中国大公司现在的动作和心态都比海外巨头更急迫。以百度为例,它今年向英伟达新下的 GPU 订单高达上万块。数量级与 Google 等公司相当,虽然百度的体量小得多,其去年营收为 1236 亿元人民币,只有 Google 的 6%。

据了解,字节、腾讯、阿里、百度这四家中国投入 AI 和云计算最多的科技公司,过去 A100 的积累都达到上万块。其中字节的 A100 绝对数最多。不算今年的新增订单,字节 A100 和前代产品 V100 总数接近 10 万块。

成长期公司中,商汤今年也宣称,其 “AI 大装置” 计算集群中已总共部署了 2.7 万块 GPU,其中有 1 万块 A100。连看似和 AI 不搭边的量化投资公司幻方之前也购买了 1 万块 A100。

仅看总数,这些 GPU 供各公司训练大模型似乎绰绰有余——据英伟达官网案例,OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万块 V100 ,训练时长未公开;英伟达测算,如果用 A100 来训练 GPT-3 ,需要 1024 块 A100 训练 1 个月,A100 相比 V100 有 4.3 倍性能提升。但中国大公司过去采购的大量 GPU 要支撑现有业务,或放在云计算平台上售卖,并不能自由地用于大模型开发和对外支持客户的大模型需求。

这也解释了中国 AI 从业者对算力资源估算的巨大差别。清华智能产业研究院院长张亚勤 4 月底参加清华论坛时说,“如果把中国的算力加一块,相当于 50 万块 A100,训练五个模型没问题。”AI 公司旷视科技 CEO 印奇接受《财新》采访时则说:中国目前可用作大模型训练的 A100 总共只有约 4 万块。

主要反映对芯片、服务器和数据中心等固定资产投资的资本开支,可以直观说明中外大公司计算资源的数量级差距。

最早开始测试类 ChatGPT 产品的百度,2020 年以来的年资本开支在 8 亿到 20 亿美元之间,阿里在 60-80 亿美元之间,腾讯在 70-110 亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司的年资本开支最少均超过 150 亿美元。

疫情三年中,海外公司资本开支继续上涨。亚马逊去年的资本开支已来到 580 亿美元,Meta、Google 均为 314 亿美元,微软接近 240 亿美元。中国公司的投资在 2021 年之后则在收缩。腾讯、百度去年的资本开支均同比下滑超 25%。

训练大模型的 GPU 已不算充足,各家中国公司如果真的要长期投入大模型,并赚到给其它模型需求 “卖铲子” 的钱,未来还需要持续增加 GPU 资源。


算力租赁需求兴起

AI大模型和行业应用等迅速增长推动算力需求,GPU已陷入供应短缺,多款GPU价格从3、4月至今涨幅接近50%,订单排期至明年上半年。基于此算力租赁市场兴起,需求和市场订单量上升,未来增长空间较大。

随着大模型以及相关应用的发展,算力需求呈现爆发式增长。但除了大型互联网企业、AI龙头企业具有较多的GPU算力芯片储备外,中小企业在发展AI模型、应用过程中,遭遇算力瓶颈。华安证券尹沿技分析指出,算力租赁成为广大中小企业解决算力需求的最优解。



上市公司中,首都在线率先建立大规模、高覆盖的GPU算力资源池,在2022年已建设1万片面向图形处理的GPU资源池,其中包括A100、a5000等英伟达先进算力硬件。立昂技术在成都简阳募投的立昂云数据(成都简阳)一号基地一期项目未来将打造“算力+数据+算法”的超算创新应用生态体系,公司称相关的服务器及加速卡等会根据业务实际情况采购国内外知名品牌供应商产品。

AI大模型和行业应用等迅速增长推动算力需求,机构指出,在未来算力/带宽高增的背景下,以及CPO的新方案拉动下,MPO的用量有望大幅提升,在设备内部重要性也逐步提高。

CPO下每个光引擎到面板距离不同,布线复杂易损坏光纤影响整机。通过在光引擎和端口面板间增加板中连接器,将CPO的试错成本转移到板中连接器和端口的MPO上,MPO有望适配CPO,解决布线痛点。国盛证券指出,在未来算力/带宽高增的背景下,以及CPO的新方案拉动下,MPO的用量有望大幅提升,在设备内部重要性也逐步提高。


国产显卡的超车点就在眼前

一般来说,有市场的地方就一定会有中国品牌,但对国产GPU来说这种惯例似乎不复存在:根据某券商的报告,2022年全球独立GPU市场规模约448.3亿美元,尽管规模高达数百亿,但其中属于国产GPU品牌的份额却寥寥无几。再加上现阶段国产GPU主要面向的都是工业应用市场,其中真正能用于游戏玩家的国产GPU市场更是微乎其微。

不过就近几年国产GPU的市场的变化来看,国产GPU的曙光似乎马上就要出现了。

2022年11月3日,GPU独角兽公司摩尔线程召开秋季发布会,正式发布了基于MUSA架构的第二颗多功能GPU“春晓”以及相应的一系列硬件产品——其中既有利好开发者的MUSA开发套件,还有大众消费者期待并即将上市的中国首张游戏显卡。而这场发布会也象征着中国GPU企业在游戏市场迈出的第一步。

与此同时,以ChatGPT为首用的AI技术,为国产GPU品牌们带来了新的机遇。

根据中信证券的报告,因AI、数据中心、智能汽车、游戏等行业对GPU的需求有望高增,在国产GPU加速追赶全球头部企业的大背景下,国产GPU有望迎来“发展黄金期”。

首先,AI需求端是国产GPU独立显卡未来发展的重要机会之一。中国的AI市场正在快速发展,其中云端和终端市场都在迅速扩张。云端市场中,中国企业在机器学习、深度学习等领域有着不错的表现,国产GPU独立显卡的需求也将不断增加。而终端市场则包括智能手机、智能音箱、智能摄像头、智能家居等领域,这些终端设备都需要计算能力强、功耗低、成本优化的GPU独立显卡来支持其AI功能。国产GPU独立显卡在这些终端设备中具有较大的应用潜力,因此未来发展机会广阔。

汽车需求端也是国产GPU独立显卡未来发展的重要机会之一。随着自动驾驶和智能座舱技术的不断发展,GPU在这些领域中具有广泛的应用。以国内常见的路网协同方案为例,一个优秀的路网协同系统需要海量高时效的道路信息,同时统一的远端服务器也需要同时追踪、管理海量的车辆。而高并发、高稳定性、低时延、低功耗这正是国产GPU品牌所擅长的领域。

此外,车辆自动驾驶和智能座舱的车机娱乐也对GPU提出了更高的要求。根据盖世汽车预测,未来自动驾驶和智能座舱的市场规模将会快速扩张,为国产GPU独立显卡带来广阔的应用前景。


5-10年国产将追上国际主流水平

天数智芯的高管邹翾日前在采访中谈到,国产GPU还在追赶AMD及英伟达,但随着时间推移,国产GPU应用逐步开花,有望在5-10年内实现追赶。他认为,国内GPU厂商应该由小及大,从几十上百个卡集群的推理任务开始,然后逐步扩展到上千或上万个卡集群,以时间换空间。

上海天数智芯是中国领先的通用GPU高端芯片及超级算力系统提供商,致力于开发自主可控、国际领先的高性能通用GPU产品。该公司目前两款重点产品分别是天垓100和智铠100,其中天垓100已经实现了我国通用GPU从0到1的重大突破,智铠100的性能也达到了国际主流产品的2倍以上。虽然国产GPU目前仍然与国外产品存在性能差距,但国内GPU厂商坚定不移地朝着这个方向努力发展,相信终将实现追赶。



Baidu
map