从庞大到精巧　让AI大模型更接地气

2024-08-01 来源：新华网

2616

人工智能大模型以其庞大的参数规模和海量的训练数据量著称，需要由数千块AI芯片组成的服务器集群来支撑其运算。相关数据显示，在10天内训练1000亿参数规模、1PB训练数据集，约需1.08万个英伟达A100GPU。这一数字揭示了AI大模型背后巨大的经济成本。

近日，AI初创企业Anthropic的CEO兼总裁达里奥·阿莫代（Dario Amodei）在一档播客节目中表示，目前公司正在开发的AI模型训练成本高达10亿美元，他预计，AI模型的训练成本在2027年之前提升到100亿美元，甚至是1000亿美元。

在此背景下，轻量化大模型的概念应运而生，对大模型进行量化、剪枝等压缩操作，已成为模型部署过程中常用的策略。这些技术旨在降低模型的计算复杂度和减少存储需求，从而加快模型推理速度，降低运行成本，并使其更易于在边缘设备或资源受限的环境中部署。这一理念不仅有利于实现“双碳”目标，也为AI技术的普及和落地应用开辟了新的道路。

知识蒸馏技术助力降低算力成本。近日，谷歌DeepMind开源了Gemma 2，这是其小型语言模型系列的下一代产品。谷歌团队在Gemma 2的架构上进行了多项改进，特别是引入了知识蒸馏（Knowledge Distillation，简称KD）技术。这是一种机器学习技术，主要用于模型压缩和迁移学习，其核心思想是通过将大型模型（即“教师模型”）的知识传递给小型模型（即“学生模型”），以提高小型模型的性能。这种技术在不牺牲性能的前提下，大幅减少了模型的计算资源需求，使得Gemma 2不仅在同类规模的模型中表现出众，甚至能与两倍于其大小的模型性能相媲美。

Gemma 2的发布，无疑延续了近年来小型、开源语言模型家族蓬勃发展的行业趋势。微软的Phi和Meta的Llama等模型，同样通过引入创新的架构改进（如GQA等）以及利用高质量的训练数据，实现了远超传统小型模型的卓越性能。这一系列模型的涌现，不仅是技术进步的结果，更是为了满足更广泛应用场景的需求。通过软硬件协同、算法优化和模型压缩等多种手段，大模型正逐步实现更高效、更经济、更亲民的目标，从而推动人工智能技术的广泛应用和发展。

创新模型量化方法，让大模型“瘦身”90％。此前，清华大学和哈工大的一项联合研究提出了大模型1bit极限压缩框架OneBit，包括全新的1bit线性层结构、基于量化感知知识蒸馏的深度迁移学习等。1bit量化模型在计算上具有优势，参数的纯二进制表示，不但可以节省大量的空间，还能降低矩阵乘法对硬件的要求。该架构首次实现大模型权重压缩超越90％并保留大部分（83％）能力，对于实现大模型在PC端甚至智能手机上的部署意义非凡。

轻量化大模型在端侧AI中的应用尤为重要。它降低了边缘计算的成本门槛，使更多应用程序和用户能够使用大模型进行推理计算，从而推动了AI向端侧场景的落地。小米集团NLP首席科学家王斌此前指出，大模型将逐渐演进为小模型，并在本地部署中发挥重要作用。这不仅符合技术发展的趋势，也有利于满足差异化的应用需求。

轻量化大模型之所以受到如此广泛的关注，是因为它解决了AI技术在实际应用中的诸多痛点问题。传统的大型语言模型虽然性能强大，但往往因为计算复杂度高、存储需求大而无法在资源受限的设备上高效运行。而轻量化大模型则通过减少模型的参数数量和降低复杂度，降低了对硬件资源的要求，使得AI技术能够更广泛地应用于移动设备、边缘计算和实时应用等场景。

（记者　吴双）

【责任编辑:朱家齐】

登入后，方可留言>>

行业动态

2024年终盘点丨这一年，我们推动政策落地见效

全球科研向“四极”前沿发展

2025年中国工业软件市场规模及国产化情况预测分析（图）

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产