近日,中国信息通信研究院联合国家数据发展研究院、中国电子技术标准化研究院等单位发布了《高质量数据集建设指引》报告。该报告深入探讨了高质量数据集建设的背景、应用需求、建设现状、方法与实践,并提出了建设运营体系和推进思路,旨在为人工智能纵深发展提供有力支撑。报告中指出,随着人工智能技术的快速发展,高质量数据集的建设显得尤为重要,它不仅关系到技术的进步,还涉及数据安全、产业升级等多个层面。这份报告汇集了众多专家的研究成果和行业实践,提供了关于高质量数据集建设的深刻见解和实用指导,是推动人工智能领域发展的重要参考。
在数字化浪潮席卷全球的当下,数据已成为推动经济社会发展的关键因素。《高质量数据集建设指引》报告深刻揭示了高质量数据集建设的重要性和紧迫性,为我们把握智能化浪潮,释放数据要素价值指明了方向。
高质量数据集建设背景
报告指出,人工智能技术迈入大模型时代后,研发重点从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。数据作为人工智能发展的三大核心要素之一,已成为人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动“人工智能+”场景落地具有重要意义。
高质量数据集应用需求
报告深入分析了高质量数据集在基础认知层、场景理解层、行动规划层三个递进层次的应用需求。基础认知层需要通过海量数据学习各领域的通用模式和基本概念,场景理解层要求模型具备结构解析和关系推理能力,行动规划层需要学习从问题识别到方案制定再到执行验证的完整认知过程。这种层次化的数据集建设框架不仅反映了当前AI技术发展的实际需求,更揭示了智能系统能力提升的内在规律。
高质量数据集建设现状
报告梳理了全球和我国高质量数据集建设的现状,分析了当前面临的主要困难与挑战。全球范围内,高质量数据集建设呈现出通识类与行业类并行推进的格局。我国在国家顶层设计和多方协同推动下,高质量数据集建设体系逐步完善,区域与行业层面呈现并进发展格局。但同时,我国高质量数据集建设在数据开放度、标准体系、关键技术及国际影响力等方面仍存在短板,转化为数据供给、技术工具、标准规范、安全合规、商业模式等多重困难与挑战。
高质量数据集建设方法与实践
报告提出了高质量数据集建设的典型建设模式、核心环节和核心技术,为业界实践提供了兼具方向性和规范性的操作指引。高质量数据集建设应按照生命周期有序展开,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等环节。同时,报告还构建了科学规范的数据集质量评价工作体系,明确了质量评价在数据集建设中的作用,理清了其工作流程和关键环节。
高质量数据集建设运营体系
报告提出了高质量数据集体系规划、工程建设、运营管理的全流程管理体系,为后续数据集的具体建设和高效运营提供清晰的蓝图与坚实的行动指南。通过体系化布局、设施化推进、生态化赋能,构建覆盖全流程、贯通各环节的高质量数据集建设格局。
高质量数据集建设推进思路
报告最后提出了高质量数据集建设的推进思路,即以体系化思维优化高质量数据集建设布局,以设施化手段促进高质量数据集流通利用,以生态化环境保障高质量数据集可持续发展。通过制度创新、产业协同和人才培育,构建多方共赢的生态体系,着力破解建设成本高、共享意愿低、创新动能弱等瓶颈。
这篇文章的灵感来自于《高质量数据集建设指引》报告。除了这份报告,还有一些同类型的报告,也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。