AI,人工智能,这个东西其实一旦都不新鲜。
从早些年的科幻作品,到后来的逐步落地,从1997年IBM超级电脑“深蓝”击败国际象棋大师卡斯帕罗夫,到2016年Google AlphaGo战胜围棋冠军李世石,AI一直都在进步,也一直在演化。
但因为算力算法、技术能力、应用场景等方面的种种限制,AI一直有些空中楼阁的感觉。
直到出现了ChatGPT,AI才真正引燃了普通人的热情,让我们发现,AI竟然如此强大,又如此唾手可得,让众多个体、企业为之兴奋,为之癫狂。
Intel祭出全新“杀器”
AI无论实现方式还是应用场景都是多种多样的,既有云侧的,也有端侧的。
NVIDIA的重点在云侧和生成式AI,Intel在云侧生成式、端侧判定式同时出击,而随着越来越多的AI跑在端侧,更贴近普通用户日常体验,所带来的提升越来越明显,Intel更是大有可为。
端侧AI,说起来大家可能会感觉很陌生,但其实,人们习以为常的背景模糊、视觉美颜、声音美化(音频降噪)、视频降噪、图像分割等等,都是端侧AI的典型应用场景,背后都是AI在努力。
这些应用要想获得更好的效果,就需要更完善、复杂的网络模型,对于算力的需求自然也在快速增长。比如噪音抑制,算力需求已经是两年前的50倍,背景分割也增长了10倍以上。更不要说生成式AI模型出现后,对算力的渴求更是飞跃式的,直接就是数量级的提升,无论是Stable Diffusion,还是语言类GTP,模型参数都是非常夸张的。
比如GPT3的参数量达到了1750亿左右,相比GPT2增加了几乎500倍,GPT4估计可达到万亿级别。
这些都对硬件、算法提出了更苛刻的要求。
Intel自然也早就开始关注并投入AI,无论是服务器级的至强,还是消费级的酷睿,都在以各种方式参与AI,“XX代智能酷睿处理器”的说法就在很大程度上源于AI。在Intel看来,没有单一的硬件架构适用于所有的AI场景,不同硬件各有特点,有的算力强大,有的延迟超低,有的全能,有的专攻。
AI作为基础设施也有各种各样的场景应用和需求,负载、延迟都各不相同,比如实时语音和图像处理不需要太强的算力,但是对延迟很敏感。这时候,Intel XPU战略就有着相当针对性的特殊优势,其中CPU适合对延迟敏感的轻量级AI处理,GPU适合重负载、高并行的AI应用。Intel另一个无可比拟的优势就是稳固、庞大的x86生态,无论应用还是开发,都有着广泛的群众基础。
现在,Intel又有了VPU。
将在今年晚些时候发布的Meteor Lake,会首次集成独立的VPU单元,而且是所有型号标配,可以更高效地执行特定AI运算。
Intel VPU单元的技术源头来自Intel 2017年收购的AI初创企业Movidius,其设计的VPU架构是革命性的,只需要1.5W功耗就能实现4TOPS的强大算力,能效比简直逆天,最早用于无人机避障等,如今又走入了处理器之中,与CPU、GPU协同发力。
VPU本质上是专为AI设计的一套新架构,可以高效地执行一些矩阵运算,尤为擅长稀疏化处理,其超低的功耗、超高的能效非常适合一些需要长期打开并执行的场景,比如视频会议的背景虚化、移除,比如流媒体的手势控制。
之所以在已经有了CPU、GPU的情况下,还要做一个VPU,Intel的出发点是如今很多端侧应用是在笔记本上进行,对于电池续航非常敏感,高能效的VPU用在移动端就恰如其分。
另一个因素是CPU、GPU作为通用计算平台,本身就任务繁重,再给它们增加大量AI负载,执行效率就会大打折扣。
具体到应用场景,VPU也是非常广泛的,比如说视频会议,现在的CPU AI已经可以实现自动构图(Auto-Framing)、眼球跟踪、虚拟头像/人像、姿势识别等等。加入低功耗、高算力的VPU之后,还可以强化背景模糊、动态降噪等处理,让效果更加精准,比如说背景中的物体该模糊的一律模糊、人手/头发等不该模糊的不再模糊。有了高效的硬件、合适的场景,还需要同样高效的软件,才能释放全部实力、实现最佳效果,这对于拥有上万名软件研发人员的Intel来说,真不是事儿。
Meteor Lake还没有正式发布,Intel已经与众多生态伙伴在VPU方面展开了合作适配,独立软件开发商们也非常积极。
英伟达超级芯片已经量产
在最近的Computex展会上,NVIDIA的创始人兼首席执行官黄仁勋正式宣布旗下首款超级芯片GH200 Grace Hopper已经开始全面量产。这款超级芯片集成了NVIDIA首款Grace CPU和Hopper GPU,标志着NVIDIA兑现了此前的豪言壮志。
GH200 Grace Hopper的推出是为了满足当下快速增长的AI生成需求。Grace CPU采用了AMR架构,拥有72个ARMv9内核和117MB L3缓存。它还配备了512GB的LPDDR5X内存,内存带宽高达546GB/s。而Hopper GPU则搭载了144个SM单元和96GB HBM3显存,总计拥有18432个CUDA核心,L2缓存为60MB。这两个组件通过专属的NVLink交换系统相互结合,形成了Grace Hopper超级芯片。
令人惊叹的是,GH200 Grace Hopper的计算能力达到了一百万万亿次,相当于4090的12195倍。这使得它与当前最先进的超级计算机媲美,甚至超越了它们。然而,NVIDIA并没有止步于此。
黄仁勋随即公布了名为DGX GH200的AI超级计算机,它由256颗Grace Hopper超级芯片构成。这款超级计算机不仅大幅提升了带宽,达到了前一代产品的48倍以上,而且还引人瞩目地提供了共享内存容量高达144TB。据NVIDIA称,DGX GH200的计算能力将超过1EB,这个计算能力超过了当前全球排名第一的超级计算机Frontier,后者的计算能力只略高于1EB。
量子计算是个好解法,但为时尚早
大模型算力之争,短期看GPU自研,中期看存算、Chiplet,那么被投资人视为新计算方向的量子计算在其中又能扮演什么角色?
事实上,VC对量子计算的关注不只限于此次ChatGPT的热潮,AR/VR、5G等新应用场景的不断涌现,以及各类型的应用场景爆发式增长,让市场对算力的需求水涨船高,产业亟待挖掘具有颠覆性的计算形式。
量子计算作为一种新型架构的计算,可以实现指数级算力提升,更可谓是不得不关注的焦点。
据企查查数据显示,2017年至今,国内量子计算赛道共完成31起融资事件,公开披露融资金额超25亿元,融资主要发生在2021年及以后,占比近7成。其中图灵量子、本源量子、量旋科技、玻色量子、国仪量子等在近年获多轮融资。
对于这一疑问,量旋科技CEO项金根对量子计算跟经典计算机的算力差距,给出了飞机和地面交通工具的比喻。
他表示,当下存算、光芯片、其他一些封装的改进技术,本质上还是经典计算机的范畴,它运算的原理跟GPU本质上没有太大改变,更多是在传统的框架下做的一些改进,使得人工智能的芯片效率更高。
对于现有的AI芯片、存算一体或其他封装技术对AI算力的提升,项金根表示认可,同时他也认为需要不同维度去看不同解决方案对算力的助力,这里面不一定存在最优解。
“未来,量子计算机肯定能够助力人工智能。AI需要的算力会越来越多,到 2030 年左右可能不光是算力,连耗电量都是非常恐怖的数据级。所以要真正解决AI大规模的算力需求,量子计算机是一个很有潜力的应用方向,而且量子计算机的运算模式跟人工智能有天然的贴合性,量子计算机可以加速AI的一些应用场景,而AI亦可以加速量子计算的研发,优化其操控精度。”
那么,如此具有革命性的量子计算何时能应用到AI领域?项金根认为,到2030年行业发展顺利进入容错量子计算阶段,将可能是一个落地的时间点。
相较于项金根给出的10年之约,俞悦认为量子计算相关算法在一些行业特定任务上的尝试落地,在这个时间点可能会有一些结果,至于解决AI的通用任务上,他则相对保守地给出了“50年”的看法。甚至投了图灵量子的联想创投也表示,量子计算从产业化的角度看,仍挑战诸多,充满机遇。
联想创投坦言,量子计算落地需要解决百万量子比特操纵能力、低环境要求、高集成度等核心问题,具有较高的入局门槛,其产业化仍面临技术路径不确定、人才储备稀缺、产业链配套早期以及无法用传统的逻辑、电路思维进行推导和复刻的四大痛点。
如此看来,这些问题待解之下,量子计算就略微显得理想丰满、现实骨感。
此外,俞悦还指出,从逻辑上说,量子计算肯定能解决很多算力问题,但即便如此,还需要结合成本,才能知道量子计算是不是一个从投入产出看的最佳方案。
在俞悦看来,眼下量子计算行业还未发生一些根本性的变化进展,中短期与其寄希望于其他方案来解决大模型所遇到的算力问题,不如指望GPU这些经典计算的硬件价格能下来。
“解决算力的成本肯定会越来越便宜,GPU价格对于大模型玩家来说只是暂时的,终究不会对AI发展构成太大瓶颈。而其他方案的成熟还需要很多配套的软件生态匹配,相对来说更是一个非常长周期的事情。”