欢迎访问
突破视觉感知性能瓶颈!清华“天眸芯”登Nature,实现10000帧/秒的高速率
2024-06-05 来源:贤集网
576

关键词: 芯片 自动驾驶 人工智能

在开放世界中,智能系统不仅要处理庞大的数据量,还需要应对各种长尾问题,如自动驾驶中面临的突发危险、出入隧道的剧烈光线变化、夜间强闪光干扰等。在这类任务上,传统视觉感知芯片由于受到功耗墙和带宽墙的限制,往往面临失真、失效或高延迟的问题,严重影响系统的稳定性和安全性。

为了克服这些挑战,近日,清华大学精密仪器系类脑计算研究团队研制出世界首款类脑互补视觉芯片“天眸芯”,基于该研究成果的论文5月30日作为封面文章发表于国际学术期刊《自然》。

研发背景



众所周知,芯片作为人工智能的“心脏”,其重要性不言而喻。而视觉感知作为信息获取的重要途径,在无人驾驶、人工智能等系统中扮演着至关重要的角色。然而,传统的视觉感知技术往往存在识别速度慢、精度不高等问题,难以满足日益增长的应用需求。因此,开发一种新型的、高效的视觉感知芯片成为了科技界亟待解决的问题。

正是在这样的背景下,清华大学施路平教授团队提出了一种基于视觉原语的互补双通路类脑视觉感知新范式。这种新范式通过模拟人脑视觉系统的工作原理,实现了对图像信息的快速、准确处理。同时,团队还成功研制出了世界首款基于这种新范式的类脑互补视觉芯片“天眸芯”。

这一突破也向世界展示了中国在芯片领域的强大实力和创新能力。面对美西方的技术打压和封锁,中国科研人员并没有退缩和放弃,而是迎难而上、攻坚克难,不断取得新的突破和进展。这种精神值得我们每一个人学习和传承。

值得一提的是,“天眸芯”芯片的研制过程并非一帆风顺。在研发过程中,团队成员们克服了诸多技术难题和挑战,付出了大量的心血和汗水。正是他们的辛勤付出和不懈努力,才使得这一成果得以成功问世。

首款类脑互补视觉芯片问世



研究团队聚焦类脑视觉感知芯片技术,提出一种基于视觉原语的互补双通路类脑视觉感知新范式——借鉴人类视觉系统的基本原理,将开放世界的视觉信息拆解为基于视觉原语的信息表示,并通过有机组合这些原语,模仿人视觉系统的特征,形成两条优势互补、信息完备的视觉感知通路。


在此基础上,团队研制出世界首款类脑互补视觉芯片“天眸芯”,在极低的带宽(降低90%)和功耗代价下,实现每秒10000帧的高速、10bit的高精度、130dB的高动态范围的视觉信息采集,不仅突破传统视觉感知范式的性能瓶颈,而且能够高效应对各种极端场景,确保系统的稳定性和安全性。


基于“天眸芯”,团队还自主研发高性能软件和算法,并在开放环境车载平台上进行性能验证。在多种极端场景下,该系统实现低延迟、高性能的实时感知推理,展现其在智能无人系统领域的巨大应用潜力。

清华大学表示,结合团队在类脑计算芯片天机芯、类脑软件工具链和类脑机器人等方面已应用落地的技术积累,天眸芯的加入将进一步完善类脑智能生态,有力地推动人工通用智能的发展。

人类视觉系统开启全新范式



随着AI加速发展,无人驾驶、具身智能等“无人系统”在现实中的应用更加广泛,并引领着新一轮科技产业革命。在这些智能系统中,视觉感知作为获取信息的核心途径,发挥着至关重要的作用。

就以自动驾驶举例,在真实的开放世界中,系统不仅需要处理庞大的数据,还需要应对各种极端事件。比如,恶劣天气环境、驾驶中突发的危险,夜间强闪光干扰等各种长尾问题,为AI系统带来了极大的挑战。这时,如果采用传统的视觉感知芯片,会受到「功耗墙」和「带宽墙」的限制,无法同时应对以上驾驶中出现的边缘情况。

更进一步说,传统视觉芯片在面对这些场景时,往往会出现失真、失效或高延迟的问题,严重影响了系统的稳定性和安全性。为了克服这些挑战,清华团队聚焦类脑视觉感知芯片技术,提出了一种全新的范式——基于视觉原语的互补双通路类脑视觉感知范式。

具体讲,新范式包括了“基于视觉原语的表征”,以及“两条互补视觉通路”(CVP)。在这一范式中,借鉴人视觉系统中的视觉原语的概念,它将开放世界的视觉信息拆解为「视觉原语」。这些视觉原语各自描述了视觉信息的一种基本要素。然后通过有机组合这些原语,借鉴人视觉系统的特征,形成两条优势互补、信息完备的视觉感知通路,如下图所示。

其中,视觉原语包括但不仅限于颜色、数据精度、灵敏度、空间分辨率、速度、绝对强度、空间差(SD)和时间差(TD)。CVP包括两条不同的通路:认知导向通路(COP)和行动导向通路(AOP)。与HVS中的腹侧通路(Ventral stream)和背侧通路(Dorsal stream)相类似。“认知导向通路”使用颜色、强度、高空间分辨率和高精度等视觉原语,来实现精确认知,最大限度地减少空间混叠和量化误差。

相比之下,“行动导向通路”使用SD、TD、速度等视觉原语,来实现鲁棒、高稀疏的快速反应,从而解决数据冗余和延迟问题。这两种方法在构建正常情况,以及边缘情况的表征时相互补充,从而实现了高动态范围,并缓解了语义错位和分布外物体检测问题。



Baidu
map