关键词: 百度智能云大会 大模型 技术变革 产业变革 云计算 基础设施 企业增长机会 GPU集群 计算时代 规模 高密 互联 运维 硬件故障 算力平台 模型训练 稳定性 有效训练时长 模型推理 长文本推理 用户体验 成本 大模型工具链 应用开发平台 企业级应用 竞争优势 生产力场景 增长机会
9月25日,在百度智能云大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖表示,过去的一年,是大模型从技术变革走向产业变革的关键一年。大模型与云计算紧密结合,正在成为新型的基础设施。这样大范围的基础设施升级将带来生产力的巨大跃迁。大模型给每个企业提供了平等的增长机会。不管企业大小、场景多少,谁先用起来,谁就抢占先机。
1834年,第一台现代发电机诞生;到1882年,美国建成全球第一座现代电厂;再到电力成为全球性的能源基础设施,用了大约90年。1969年,阿帕网连接了四所美国高校,到互联网成为全球信息基础设施,只用了大约30年。而大模型及其相关系统,在短短几年内,正在迅速成为为新一代的基础设施,这次变革的速度前所未有。
如何在这场变革中抓住机遇、引领未来?“相信不少人都听说过‘万卡集群’,但深入了解的应该不多,而真正用得上、用得好的,就更少了。其实,GPU集群完全不同于传统的CPU集群,开启了全新的计算时代。”沈抖表示。
简单来说,GPU集群有三个特征:极致规模、极致高密和极致互联。这些“极致”带来了两个方面的严峻挑战。一方面是巨额的建设、运营成本,要想建立一个万卡集群,单是GPU的采购成本就高达几十亿元;另一方面,在如此大规模的集群上,运维的复杂性急剧增加。
“我们知道,硬件不可避免地会出故障,而规模越大,出故障的概率就越高。”沈抖分析说道。他举了个例子,Meta训练llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障,而这些故障绝大多数是由GPU引起的。实际上,GPU是一种很敏感的硬件,连天气、温度的波动,都会影响到GPU的故障率。
“这两个挑战迫使我们重新思考如何构建、管理和维护这样庞大而复杂的GPU集群,屏蔽硬件层的复杂性,为大模型落地的全流程提供一个简单、好用的算力平台,让用户能够更容易地管理GPU算力、低成本地用好算力。”沈抖表示。
过去一年,企业用户模型训练需求猛增,需要的集群规模也越来越大。与此同时,大家对模型推理成本的持续下降的预期也越来越高。这些都对GPU管理的稳定性和有效性提出了更高要求。
“进入规模化训练阶段,最重要的就是稳定性。”沈抖指出,“大模型训练是一个庞大的单一任务,需要齐步走。一个点出错,整个集群就得停下、回滚到上一个记忆点。而GPU机器又很贵,每停一分钟都是白白烧钱。这就是为什么‘有效训练时长’这个指标很关键,它指的就是机器真正在工作的时间的占比。在万卡任务上,百舸4.0可以保障有效训练时长占比达到99.5%,远高于行业内公布的相关指标。”
模型训好了之后就是推理,也就是模型在各个场景被用起来的阶段。在这个阶段,最重要的两件事是速度和成本。前者决定用户体验,后者决定性价比。而且,现在长文本推理逐渐成为主流,这两个问题会越来越突出。
“模型在推理的时候,它需要把你的问题都转化成token,算一遍之后才能开始出第一个字。而且这不是一次性的计算,每生成一个字都需要和前面所有字去做注意力计算。虽然这整体上是个串行过程,但通过架构分离、KV Cache、负载分配等一系列加速工作,百舸4.0整体上提高了推理效率,降低了成本,让长文本推理效率提升了1倍以上。”沈抖介绍称。
同时,他指出,大模型应用的爆发,离不开便捷、高效的大模型工具链和应用开发平台。百度官方数据显示,目前,在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。“这条陡峭的曲线,不仅反映了千帆平台上大模型的调用量,也是过去18个月整个国内大模型产业发展的一个缩影,但这只是一个序幕。”
“过去一年,尽管充满不确定性,但我们已经看到了一个确定的未来。那就是大模型正在加速深入生产力场景,成为企业获得竞争优势的关键要素。”沈抖表示,“我们相信,大模型给每个企业提供了平等的增长机会。不管企业大小、场景多少,谁先用起来,谁就抢占先机。”