欢迎访问
国产GPU火种初现,开启蚂蚁憾大象之旅
2023-04-11 来源:网络整理
662

关键词: GPU ChatGPT AI

最近ChatGPT大火,推动算力板块爆红,包括CPU、GPU、ASIC等相关厂商。

在GPU板块,国产企业目前只有景嘉微一家上市公司,其当前产品也并未涉及高性能AI计算。算力扩张的实际受益者仍然是国外巨头NVDIA、AMD、Intel,以NVDIA为最。

但一众中国创业企业,已在各市场领域布局,开启了国产GPU的蚂蚁憾大象之旅。目前以摩尔线程的布局最为全面,其他企业大都采用点式突破。




火种初现的中国厂商

作为全球算力硬件当之无愧的龙头公司,英伟达每年的GTC大会都吸引着众多尖端科技工作者的目光,尤其是在2023这个ChatGPT的出圈元年,作为人工智能硬件的主要提供商,英伟达GTC的曝光量更是得到了显著的增加。

而在此次大会中,英伟达展示了其针对训练、推理、云服务等多维度的ChatGPT领域布局。

在AI训练领域,英伟达助力算力持续提升,赋能大模型突破。

基于GPU并行计算的特性以及英伟达在AI领域的前瞻布局,英伟达在AI训练领域拥有绝对优势,同时十分重视人工智能赛道,不断提升其人工智能硬件的计算能力。

并且,随着GPT大模型对于算力需求的提升,全球科技巨头均已开始或即将搭载英伟达的H100产品:Meta已在内部为团队部署了基于H100的Grand Teton AI超级计算机;OpenAI将在其Azure超级计算机上使用H100来为其持续的AI研究提供动力。

而在此次GTC 2023上,基于Hopper架构及其内置Transformer Engine,英伟达H100针对生成式AI、大型语言模型(LLM)和推荐系统的开发、训练和部署都进行了优化,利用FP8精度在LLM上提供较上一代A100更快的训练及推理速度,助力简化AI开发。

而在AI推理领域,AI视频、图像生成、大型语言模型部署及推荐系统也在加速部署。

在今年的GTC 2023中,英伟达推出了全新的GPU推理平台:基于加速AI视频、图像生成、大型语言模型部署和推荐系统,形成了4种配置、1个体系架构和1个软件栈的产品体系。

其中H100 NVL GPU受到了市场较为广泛的关注:英伟达在GTC 2023公开表示,该产品将配备双GPU NVLink,或将实现比现用A100快10倍的速度,可处理拥有1750亿参数的GPT-3大模型,并支持商用PCIe服务器扩展,适用于训练大型语言模型。

黄仁勋称,相较于目前唯一可以实时处理ChatGPT的HGX A100,一台搭载四对H100和双NVLink的标准服务器能将速度提升10倍,并且还可以将大语言模型的处理成本降低一个数量级。黄仁勋也将NVIDIA DGX H100称作全球客户构建AI基础设施的蓝图。

黄仁勋也表示,ChatGPT仅仅是人工智能第一个出圈的应用,也只是一个起点。在人工智能浪潮来临之时,全球范围内必将出现一批进军人工智能大模型硬件的企业。但英伟达在短期内拥有绝对的技术优势,未来也将持续发力。

毫无疑问,英伟达发布的最新硬件对于人工智能企业来说,是解决算力问题的最大福音,但对于中国企业来说,这却并非是一则喜讯。

2022年8月,美国监管机构以国家安全为由,对NVIDIA A100、H100两款GPU实施禁令,不得销售给中国企业,意在通过“卡脖子”的方法来降低国内AI模型的传输速度,拖延中国人工智能发展。

从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个 GPU 芯片在支持。因此,未来随着这方面的研发和应用的普及,通用 GPU 市场需求将会迎来爆发式增长。

而中国能获得的最佳替代品,则是英伟达专供中国的A800芯片,也是A100的“阉割版”,其传输速度只有A100的70%,而在H100大规模供货后,中美AI公司的差距则将进一步拉大。

高性能的GPU,已经成为了限制中国AI行业发展的最直接因素之一。

但也正是在算力需求激增、硬件供给被切断、难以真正“市场化”的背景下,国内才涌现了一批GPU的“火种”企业。

这些新兴的企业中,核心团队基本都是业内顶尖专家,许多技术专家来自英伟达、AMD 等国际龙头企业。初创企业们接连完成新融资,并陆续推出新品加速商业化。

首先,是借军工信息化之风迈向全面国产替代的GPU企业——景嘉微(SZ:300474)。

景嘉微的技术核心团队来自于国防科技大学,公司业务也是依靠军工业务图形显控模块芯片起家,持续投入研发布局全自主研发GPU芯片的图形显控传统业务。

在后续的发展中,伴随着国家专项基金的支持与企业芯片研发的推进,公司的GPU芯片业务逐渐“开枝散叶”,渗透入了民用市场,在“8+N”个行业中进行着快速的发展。

截止目前,公司是国内首家成功研制国产GPU芯片并实现大规模工程应用的企业,也是国内唯一具备完全自主研发GPU能力并产业化的上市公司,目前已拥有267项专利,在图形显控领域走在行业前列。



而公司的产品,也正在从“能用”迈向“好用”的阶段。

根据景嘉微2021年公告,公司研发的JM9系列图形处理芯片将支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps 视频解码。

其核心频率至少为1.5GHz,配备8GB显存,浮点性能约 1.5 TFlops,与英伟达GeForce GTX 1050 相近。

而在与公司的交流中,相关人员表示,之前的7系列分为多个版本,根据客户的需求、价格和价位承受能力来配合出货,所以取得了较大的成功。而9系目前还在谈价的过程中,也相信9系列会促使全球显卡价格的下行。

并且对方还表示,公司对标的是海外竞争对手几年前的产品,而当利润低于一定程度后,海外的公司会主动放弃市场。公司也会从相对的低端做起,随着技术的进步,逐渐追赶英特尔、AMD的步伐。

尽管目前景嘉微的产品与国际尖端GPU存在着极大的差距,但作为一颗由中国企业完全独立研发、采用正向设计、具有自主知识产权的GPU,已经迈出了国产自主道路上的一大步,成为中国算力的“希望之火”。

接着,是依靠CPU、DCU双轮驱动,深度受益国产化替代的企业——海光信息(SH:688041)。

海光信息成立于2014年,主营业务为研发、设计和销售应用于服务器、工作站等计算、存储设备中的高端处理器,目前拥有海光通用处理器(CPU)和海光协处理器(DCU)两条产品线。

而其中,DCU作为专注通用计算、单纯提供人工智能算力的产品,成为了企业新的业绩增长极。

海光信息于2018年切入DCU领域,坚持自主研发,目前已经成功掌握高端协处理器微结构设计等核心技术,并以此为基础推出了性能优异的DCU产品,具备强大的计算能力和高速并行数据处理能力,性能基本能与国际同类型主流产品同台竞技。

选取公司深算一号产品和国际领先的GPU厂商英伟达的高端GPU产品(A100)及AMD高端GPU产品(MI100)进行对比,在典型应用场景下,海光信息深算一号单颗芯片的指标基本达到国际上同类型高端产品的水平。

对标目前国际主流人工智能企业都在使用的NVIDIA A100产品,海光DCU单芯片产品基本能达到其70%的性能水平,同时,公司DCU产品的片间互联性能还有较大的提升空间。

而在硬件之外,海光信息也为打破CUDA生态专门制作了软件配置:海光 DCU 协处理器全面兼容 ROCm GPU计算生态,由于ROCm与CUDA的高度相似性,CUDA用户可以以较低代价快速迁移至 ROCm平台。

因此,海光DCU协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件,软硬件生态丰富。

此外,海光还积极参与开源软件项目,加快了DCU产品的推广速度,并成功实现了与GPGPU主流开发平台的兼容。

近些年来,在国内诸多创企的努力下,GPU硬件的突破捷报频传,但目前我国CPU厂商距离英伟达等国际头部厂商的距离仍然还有很远。

所以对于中国GPU企业来说,做好国产的Plan B,再谋求发展,或许才是正确的方向。

但可以确定的是,随着科技的进步,中国GPU算力行业一定要、也一定会摆脱被“卡脖子”的问题,让中国的AI企业用上中国的GPU,打赢这场算力之战。




国产厂商将面临哪些机遇和挑战?

首先我们要知道GPU的核心竞争力是在于架构等因素决定的性能先进性和计算生态壁垒。一方面,性能先进性体现在高精度浮点计算能力。训练需要密集的计算得到模型,没有训练,就不可能会有推理。而训练需要更高的精度,一般来说需要float型,如FP32,32位的浮点型来处理数据。

另一方面,生态也是GPU发展需要解决的问题。其中英伟达早在CUDA问世之初就开始生态建设,AMD和Intel也推出了自研生态ROCm和one API,但CUDA凭借先发优势早已站稳脚跟。为解决应用问题,AMD和Intel通过工具将CUDA代码转换成自己的编程模型,从而实现针对 CUDA 环境的代码编译。

凭借核心竞争力优势,目前英伟达和AMD(美国超威半导体)已经是国际上非常成熟的GPU巨头了。英伟达公司的GPU被广泛应用于计算机图形学、科学计算、深度学习等领域,而AMD公司则是全球第二大独立半导体设计师,涉及CPU、GPU、服务器等多个领域。

但由于CUDA的闭源特性,以及快速的更新,后来者很难通过指令翻译等方式完美兼容,即使部分兼容也会有较大的性能损失,导致在性价比上持续落后英伟达,之前国内厂商面临的困境也是来源于此。所以国内GPU厂商纷纷大力投入研发迭代架构,谋求构建自主软硬件生态。

但近年来,国产GPU也逐渐进入了主流市场。并且自2020年开始,国内GPU行业融资环境有较大改善,初创公司遍地开花,2021年,中国加速服务器市场规模达到53.9亿美元(约合人民币350.3亿元),同比增长68.6%。其中GPU服务器以91.9%的份额占国内加速服务器市场的主导地位;神经网络处理器(NPU)、ASIC和FPGA等非GPU加速服务器占比8.1%。预计2024年中国GPU服务器市场规模将达到64亿美元。

在技术研发、市场推广、科技创新等方面也均有积极的发展态势。在国产GPU进化方面,华为早在2013年就开始了其异构计算芯片的研发工作,例如华为的麒麟系列芯片,包括麒麟970和麒麟970 AI,都集成了自家研发的AI芯片NPU,这使得华为手机等移动设备也具备了很高的AI算力。

可仍需要承认的是,国产GPU产品离高端市场还有距离,存在与国外领先水平的差距,尤其在科学计算、人工智能和新型图形渲染方面。同时美国政府还限制高端的GPGPU售卖给中国客户,要求英伟达的A100、H100系列和AMD的MI 250系列及未来的高端GPU产品售卖前需要先获得美国政府的许可。而这几款芯片均为用于通用计算的高端GPGPU,通常应用在人工智能计算的云端训练和推理场景以及超级计算机中。

并且除了技术差距,国内GPU企业的发展还面临着资金压力。新创企业不仅面临原材料和制造能力的供应紧张问题,还必须承受来自国内外同业的竞争压力,而对于GPU创企而言,巨大的研发费用和资本开支是必需,但长期、持续的利润支撑才是GPU跨代发展的强劲驱动力。

总之,随着中国GPU市场的转型和升级、国内GPU企业的迅猛发展,国产GPU在迎来黄金发展期的同时还面临着更多的挑战和机遇。但相信这些企业在技术上的不断突破相信会进一步刺激市场需求,推动市场进一步扩大。未来,国产GPU有望在人工智能应用领域迎来更加广阔的发展空间。



Baidu
map