换道行驶,续命摩尔定律
一直以来,头部厂商通过不断提升制程工艺和扩大芯片面积推出算力更高的芯片产品。虽然GPU、CPU+FPGA等芯片已经对现有模型构成底层算力支撑,在应对生成式AI及大模型对算力基础设施提出的新要求,都多少显得有些捉襟见肘。
伴随着摩尔定律逼近物理极限,制程升级和芯片面积扩大带来的收益边际递减,架构创新或成为提升芯片算力另辟蹊径的选择。
Chiplet及先进封装方案能够弥补先进制程落后的劣势,通过将来自不同生产厂商、不同制程工艺的芯片组件“混搭”,降低实现目标性能所需的成本。研究数据显示,当5nm芯片的面积达到200㎜²以上,采用5Chiplet方案成本将低于单颗SoC,并将大幅降低因面积增加带来的良率损失。
除了成本和良率端的优势,Chiplet技术带来高速的Die to Die互连,使多颗计算芯粒得以集成在一颗芯片中,实现算力的大幅提升。
台积电是Chiplet工艺的领军者,目前其技术平台下有CoWoS、InFO、SoIC三种封装工艺。其中,早在2016年英伟达Tesla P100 AI数据中心GPU就已经应用CoWoS工艺,AMD的最新GPU、CPU也广泛采用了该工艺。此外,三星、Intel等龙头厂商亦推出了各自用于Chiplet的封装技术,如三星I-Cube(2.5D封装),X-Cube(3D封装),英特尔EMIB(2.5D封装),英特尔Foveros(3D封装)。
不止在国际,近几年Chiplet在中国大陆也非常火爆,特别是美国开始打压中国半导体业以来。Chiplet既能减少先进制程用量,同时又能带来先进制程的好处,这为国内芯片企业提供“换道行驶”的机会。
先进制程和先进封装,孰更显著?
在提升芯片性能方面,先进制程路线是通过缩小单个晶体管特征尺寸,在同等芯片面积(Die size)水平下,提升晶体管集成度(同等设计框架,芯片性能/算力与晶体管数目正相关);而先进封装并不能改变单个晶体管尺寸,只能从系统效率提升的角度,一是让CPU更靠近Memory,让“算”更靠近“存”,提升每一次计算的算存效率。二是让单个芯片封装内集成更多的元件:信号传输速度排序,Wafer > IC substrate > PCB,元件在芯片内部的通讯效率比在板级上更高,从系统层面提升芯片性能。
在芯片轻薄化方面,在不牺牲芯片整体性能的前提下,先进制程能够在算力和晶体管数目不变时,通过缩小单个晶体管特征尺寸,实现芯片面积(Die size)缩小;而先进封装,因为封装对晶体管尺寸无微缩的能力,只能通过更精细的材料、更致密的结构来实现轻薄化。比如,手机AP处理器的封装多采用FCCSP的封装形式,其结构包括一个CSP载板,而Fanout(TSMC与APPLE公司合作,APPLE公司的A系列芯片多采用InFO技术封装,即Fannout)封装,取消了CSP载板(CSP载板约0.3 mm厚度),封装后的芯片更轻薄,对整机(手机)结构空间余量有重要提升。
在高性能和轻薄化两个方向上,先进制程可以做到兼顾,而先进封装则有取舍。比如,APPLE的A系列芯片,从A10升级到A11时,由16 nm工艺提升至10 nm工艺,芯片面积从125 mm2减小至88 mm2,而晶体管集成数则由33亿颗增加至43亿颗;A系列芯片从A13升级到A14时,晶圆工艺从7nm升级到5nm,芯片面积从98 mm2减小至88 mm2,而晶体管集成数则由85亿颗增加至118亿颗,做到了性能提升和轻薄化的兼顾。而先进封装,要做到芯片性能提升,因为封装对晶体管尺寸微缩没有效果,提升性能一是增加芯片内部各元件的协作效率,二是往一个系统中堆叠更多的元件(本质上也是提升了系统内的晶体管数据),代价就是系统体积、面积更为庞大,即先进封装提升性能的代价是牺牲轻薄,实现轻薄的代价是牺牲性能的提升。
在技术可获得的前提下,提升芯片性能,先进制程升级是首选,先进封装则锦上添花。通常我们可以见到的是,高性能、大算力的芯片,会考虑上先进封装(2.5D、CoWoS等),但这些大算力芯片往往也同时采用的先进制程工艺,也就是说,先进封装/Chiplet应用通常只出现在顶级的旗舰芯片的封装方案选择中,并不是一个普适性的大规模应用方案。
这些芯片都是在拥有先进制程的基础上,为了进一步提升芯片性能,而采用了CoWoS这些2.5D先进封装技术,说明了先进制程在工艺路线的选择上是优于先进封装的,先进制程是升级芯片性能的首选,先进封装则是锦上添花。
大功耗、高算力的场景,先进封装/Chiplet有应用价值
在先进制程不可获得的情况下,通过芯片堆叠(先进封转/Chiplet)和计算架构重构,以维持产品性能。以APPLE的A系列芯片参数为例,A12、A10、A7芯片分别采用7 nm、14/16 nm(Samsung 14 nm、TSMC 16 nm)、28 nm制程。A系列的手机AP芯片,通常芯片面积(Die Size)在约100 mm2大小。在这100 mm2大小的芯片上, A12、A10、A7芯片分别集成了约69亿、33亿、10亿颗晶体管。
下面,我们简单进行算术换算,讨论降制程如何维持芯片的算力。
如果芯片工艺从7 nm降至14 nm,A12芯片上7nm工艺集成69亿颗晶体管,如果用14 nm工艺以试图达到接近的算力,首先要保证晶体管数目与A12芯片一致,即~70亿颗,且在未考虑制程提升对单个晶体管性能有显著提升的背景下,14 nm工艺的芯片需要两倍于7 nm工艺的面积,即~200 mm2;如果芯片工艺从7 nm降至28 nm,参考28 nm的A7芯片只集成了10亿颗晶体管,如果要达到70亿晶体管数目,则需要将芯片面积扩大至~700 mm2。
芯片面积越大,工艺良率越低,在实际制造中得到的单颗芯片的制造成本就越高,因此,在先进制程不可获得的背景下,降制程而通过芯片堆叠的方式,的确可以一定程度减少算力劣势,但是因为堆叠更多芯片,需要更大的IC载板、更多的Chiplet小芯片、更多的封装材料,也导致因为制程落后带来的功耗增大、体积/面积增加、成本的增加。
因此,比如,通过14 nm的两颗芯片堆叠,去达到同样晶体管数目的7 nm芯片性能;通过多颗28 nm的芯片堆叠,去达到14 nm芯片性能。此种堆叠方案在HPC(服务器、AI推理)、基站类大芯片领域可能有适用价值,但对于消费电子领域如手机AP芯片和可穿戴芯片,在其应用场景对空间体积有严苛约束的条件下,芯片堆叠则较难施展。
标准才是竞赛的关键
去年3月,英特尔、AMD、ARM、微软、谷歌、台积电、三星、日月光等行业巨头成立通用芯粒互连(Universal Chiplet Interconnect Express,UCIe)产业联盟,使Chiplet的标准化有力地向前迈进了一步。
然而,去年公布的UCIe 1.0标准仍不完善。从UCIe联盟公布的白皮书来看,UCIe由三层协议构成,包括协议层、适配层和物理层。UCIe 1.0规范中选择了成熟的PCIe和CXL互连总线标准,主要是针对协议层,但要使Chiplet做到真正实现互联,不仅需要定义协议层,物理层的标准化同样重要,这涉及到不同厂商在晶圆制造、先进封装环节采用的技术工艺、技术路线,实现起来还需要一个过程,也需要相应标准的进一步推进与完善。
Chiplet技术的核心是生态之争,竞争的焦点是标准。目前,Chiplet最大的局限在于整个生态系统还没有建立完善,关键则要打通底层的技术标准。这些年随着Chiplet概念的持续发酵,许多公司都产生了很多好的想法,但由于生态圈不成熟,尚无法落地。目前能落地多为逻辑芯片与内存的堆叠互联,模拟芯片、MEMS、光电器件间的整合仍待探索。
不过,Chiplet从概念提出到产业推进,持续的时间还不久,很多技术标准需要完善,这也为中国企业切入Chiplet行业,并发挥更大作用,提供了空间。目前不仅有越来越多中国企业,如阿里巴巴、芯原股份、芯耀辉、芯动科技等,加入UCIe产业联盟,中国的Chiplet技术标准也被制订与发布出来。
去年12月,中国电子工业标准化技术协会发布国内首个《小芯片接口总线技术要求》团体标准(T/CESA 1248-2023),标准描述了CPU、GPU、人工智能芯片、网络处理器和网络交换芯片等应用场景的Chiplet技术要求。日前,中国Chiplet产业联盟也发布了《芯粒互联接口标准》,该标准为高速串口标准,基于国内封装及基板供应链进行优化。
从技术层面来看,国内企业在Chiplet上并不占优势。但中国是全球最大的电子信息产业制造基地,拥有广阔的下游市场,能定义的应用场景极为丰富。以此为基础,中国企业在Chiplet领域有着巨大的发展机会。而标准则是掌握住这个机会的关键一环。