对电子供应链中的所有利益相关者而言,他们都很依赖自己买卖的复杂元器件的可靠性。但随着芯片技术的发展,对芯片质量问题的测试变得更具挑战性。例如,苹果公司的A17 Pro SoC拥有190亿个晶体管和一个6核CPU,其中两个高性能内核采用了台积电的新型3纳米技术。
半导体制造商在直接或通过授权渠道销售组件时要保证自己芯片的性能。
10纳米以下的处理器出现了更多质量问题,其中一些问题很难通过常规测试检测出来。制造商和原始设备制造商(OEM)在最终用户投诉后才发现问题,这迫使他们不得不更换整个装置并推迟生产。
一些故障仍然是个谜。比如,2015年,来自多伦多大学的一些计算机科学家在IEEE Spectrum杂志发布报告称,超过4%的谷歌云计算服务器,受到了之前任何测试都未检测到的错误,这导致服务器意外停止。
随后,AMD在2020年发布了一份报告表示,有证据表明,当时最先进芯片的可靠性,比上一代同类产品低了约5.5倍。越来越多人认为,芯片每迭代一次,面临的问题会成倍出现,该现象在最先进工艺的芯片上尤为明显。
2021年,Facebook和谷歌的研究人员都发表了研究报告,描述了不易查明原因的计算机硬件故障。他们认为,问题不在于软件,而在于计算机硬件。
谷歌工程师Peter Hochschild在“2021年操作系统热点话题(HotOS)”会议上发布的一段视频中说:“生产团队抱怨机器破坏数据的情况越来越多。”
Hochschild和他的团队推测,“性能和密度正在超过芯片的可靠性,复杂性正在超过测试方法。”
摩尔定律和功耗
1974 年,一位美国工程师和发明家Robert H. Dennardl联合撰写了一篇论文,该论文指出,随着晶体管体积变小,其功率密度保持不变,因此功耗与面积成正比。
摩尔定律指出,晶体管数量每两年翻一番,而芯片尺寸可以保持不变,因此登纳德缩放定律指出,给定面积的总芯片功率在不同工艺世代之间保持不变。
英特尔、AMD、台积电等公司,一直在利用这两条定律来制造速度更快、体积更小的处理器,从而促成了当前的移动计算生态系统。目前的笔记本电脑、平板电脑,尤其是智能手机,都是通过在相同的面积上封装更多的晶体管来实现,在相同性能下需要更少的功耗。
遗憾的是,对于半导体行业和OEM来说,登纳德缩放定律已不再有效。奥格斯堡应用技术大学的Christian Märtin教授说:“纳德缩放定律是在1974年形成的,并一直沿用了30多年(2005年左右)。从2005年开始,大于65纳米的器件结构的漏电流可以忽略不计。”
根据内存制造商Rambus的说法,“业界普遍认为,登纳德缩放定律在2005-2007年间崩溃了。正如Märtin所证实的那样,由于阈值和工作电压无法再缩放,无法再保持一代又一代产品的功率包络线不变,并同时实现潜在的性能提升。”
事实上,正如Märtin所展示的那样,登纳德缩放定律发展到后期,在相同芯片面积下,每一代芯片的功耗会增加2倍,而芯片计算资源的使用率则会下降。在芯片面积一定的情况下,能源效率每一代只能提高40%。
产量下降,功耗上升
摩尔第二定律又称洛克定律(以Arthur Rock命名),指出半导体制造厂的投资成本也会随着时间的推移呈指数增长。
随着密度和复杂性的提高,生产可用芯片的成本也在增加。一些半导体制造商正花费数十亿美元购买新设备,尤其是ASML的光刻设备。
此外,由于登纳德缩放定律已经失效,芯片设计人员必须创建更多专用内核来补偿更高的功耗。这对于云计算和人工智能应用尤为重要,因为电源使用效率(PUE)是衡量效率和可持续性的最终标准。
今年9月,华为推出了全新旗舰智能手机Mate 60 Pro,据称该机搭载了中芯国际自主研发的全新5G麒麟9000s处理器。最初,华为并未公布该设备的完整规格,但拆解显示该设备采用了7纳米技术。
一直到最近,大家还认为没有一家中国制造商,拥有制造这种先进芯片的设备。
而路透社报道称:“一些研究机构预测,中芯国际的7纳米工艺良品率低于50%,而行业标准为90%或更高,低良品率将把出货量限制在200-400万片左右,不足以让华为重新夺回昔日智能手机市场的主导地位。”
需要新工具来测试复杂的芯片
在不懈追求创新的过程中,半导体行业已经达到了前所未有的里程碑,芯片内核已达5纳米和3纳米。然而,这一令人瞩目的进步也带来了令人担忧的副作用——芯片故障率也在不断攀升。
在这种情况下,对尖端半导体进行彻底和持续的可靠性测试的必要性比以往任何时候都更明显。从过去的失败中吸取的教训,例如谷歌、AMD、Facebook 和其他公司所强调的失败,强调了应对这些挑战的紧迫性。