关键词: 人工智能基础数据服务
中商情报网讯:在 AI 产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。
近年来,深度学习加速了人工智能技术的商业化落地,同时也带来了大量Al算法训练需求,推动基础数据服务市场的快速增长。根据德勤数据统计,2017-2022年中国人工智能基础数据服务市场规模从8.2亿元增长至45.0亿元,年均复合增长率达41%。未来智能制造、元宇宙、生成式AI等复杂智能场景的实现,将对人工智能基础数据服务提出了更高的要求。预计2023年其市场规模将达到63.5亿元。
数据来源:IDC、德勤、中商产业研究院整理
行业发展趋势
1.人工智能技术加速向产业渗透融合,催生更多垂向领域数据需求
随着深度学习技术的不断突破,人工智能发展已经进入 2.0 时代,相关训练需求正逐渐从通用基础能力建设,向更为专业的垂向场景/行业拓展。一方面,以大模型为代表的 AI 基础技术不断取得重大突破,AI 模拟人类认知的能力飞速提升,因此从技术能力维度看,AI 已具备与垂直产业融合并规模化应用的前提条件;另一方面,受国家数字经济发展战略推动,产业数字化和智能化将进一步席卷各行各业,智能化技术与传统产业的融合将成为数字经济时代的新发展趋势,并创造出巨大的蓝海空间。
当前 AI 技术正在加速与各类产业融合,在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升,展现出可观的商业价值和巨大的发展潜力,而数据作为打通算法技术与行业需求的核心桥梁,作用更加凸显,可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性,成为加速 AI 产业化落地的关键要素。
在各类垂向场景中,智能驾驶受益于其产业本身的高速发展,以及以智能化为核心驱动的底层逻辑,相关数据需求呈现出快速增长趋势,因此成为数据服务行业首个产生规模化需求的垂向领域。未来,随着智能驾驶级别的不断提升、以及渗透率的不断提高,产业对智能驾驶的算法的精度要求会更高,一方面在硬件配置上,传感器的种类和数量会不断变化,另一方面,算法需要持续不断地学习更多场景的数据来提高罕见场景的识别能力,因此,未来智能驾驶的数据需求将向覆盖更多数据类型、更广泛应用场景以及更高质量的方向发展,数据需求也将从原来单一的 2D 需求(主要集中在 L2 级别)向 3D、以及 2D-3D 融合需求拓展(L3 及以上级别)。
2.人工智能企业全球化布局加速,多语种能力成为拓展核心支撑
2013 年,共建“一带一路”的倡议正式面世,十年来,随着国家“一带一路”战略的深入推进,国内一批具有较强创新能力和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种 OCR 等各领域产品/应用的全球化推广起到积极作用。因此,随着各类客户群体扩张步伐加速,多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。
3.多模态数据受 AIGC、元宇宙发展驱动,将呈现快速增长趋势
随着 AI 虚拟主播、虚拟学生、虚拟员工轮番上岗,虚拟数字人这个新兴概念逐渐走入大众视野,成为元宇宙与人工智能两大领域的热门技术赛道之一。想要让虚拟数字人实现与人类的自然交互,不仅需要发音标准自然、身体动作流畅,其表情、口型与声音也要实现细节的精准匹配,而多模态技术就是打破传统人工智能单一感官局限、让各类 AI 能力协同使用的重要技术。通过对高质量多模态训练数据集的持续学习,AI 可实现图像、视频、音频、语义文本等多维度能力的融合,使得虚拟人在行为上更接近人类。
此外,随着 AIGC 技术的发展,AI 将在更多维度上辅助人类创作,例如人类输入一段文字指令,AI 通过理解输入的文字内容,按照人类描述生成一幅画或一段语音,以此帮助人类完成内容生产。想要实现上述功能,即需要通过对多模态数据进行学习,使文字与图画或语音形成一一映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作。因此,随着以虚拟人、AIGC 为代表的 AI 技术的不断发展和应用,数据服务领域多模态需求将呈现加速增长趋势。
4.大模型技术的突破和跃升,将驱动新型数据需求持续增长
随着 ChatGPT 成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后的大模型技术也将进一步引导人工智能产业变革并带来相关数据需求的变化和增长。具体来说,为更好完成预训练阶段的通用模型训练,大量数据的质量要求将更高,高质量数据清洗的规则建立以及工程化能力将成为重点。此外,强化学习阶段的高阶数据需求将不断增加,基于人类认知的高质量的数据输入将更大程度决定模型效果。
5.随着国家法律法规更快更密集落地,对数据安全及合规会提出更高要求
近年来,数字经济规模的快速扩张,数据作为数字经济时代最核心、最具价值的生产要素,重要性更加凸显,但数据不同于传统生产要素,其承载涵盖了大量涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法》、《汽车数据安全管理若干规定(试行)》、《数据出境安全评估办法》、《自然资源部关于促进智能网联汽车发展维护测绘地理信息安全的通知》等主流法律法规,为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。