工业高质量数据集:是什么?怎么建?如何用?
发布时间:2025-04-22 浏览次数:121 来源:工业互联网世界
数据集的质量影响人工智能的“智商”,以标准化手段促进工业高质量数据集打造、流通和应用。

习近平总书记指出,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。随着以DeepSeek为代表的大模型在更多领域与场景的深入布局,人工智能大模型加速向各行各业渗透。人工智能大模型的发展需要“数据粮食”,数据是人工智能时代重要的生产要素,特别是高质量数据集,不仅是推动AI科研和技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。

制造业是我国国民经济的主体,推动数字化转型,降本增质提速是当今制造业的发展方向。AI大模型在工业领域落地离不开工业高质量数据集的支撑。那么,工业高质量数据集是什么?怎么建?如何应用?

工业高质量数据集是什么?

 

在新一轮数字化革命的推动下,数据成为继土地、劳动力、资本、技术之后的第五大生产要素。然而,未经筛选整合的海量数据依然存在数据噪声、非对称性、低完整性等内生问题,难以通过可信利用转化形成可持续的数据价值。面对迥然相异的产业技术需求,数据可以通过特定的格式和结构加以集合进而发挥实质价值,这一概念被称作“数据集”。

工业数据集是工业生产、运营和管理过程中产生的数据集合,涵盖设备运行、生产过程、供应链等多方面,具有大规模性、复杂性、实时性、可变性、专业性、价值密度低等特点,是推动工业数字化转型和智能制造发展的关键资源。

数据集的质量影响人工智能的“智商”。国家数据发展研究院院长胡坚波表示,高质量数据集建设有利于推进“人工智能+”行动落地见效,对数字经济乃至整个经济社会高质量发展具有重大意义。高质量数据集是人工智能大模型训练、推理和验证的关键基础,是按照特定标准,经过采集、清洗、归类和标注等智能化处理,具有相应更新和维护机制的数据集合。

国家工业信息安全发展研究中心主任蒋艳认为高质量数据集具有格式统一、质量可控、场景适配性强等特点,是驱动人工智能模型训练、科学研究、数据挖掘和检验检测的核心要素。工业是我国经济发展的核心支柱,同时也是保障国家战略安全的主阵地,加快开展工业领域高质量数据集建设,是支撑“人工智能+”在工业场景落地,推动人工智能赋能新型工业化,提高我国工业国际竞争力的新时代护城河。

工业数据集可以根据不同的标准进行分类。参考工信部印发的《工业数据分类分级指南(试行)》,其按照行业要求、业务规模、数据复杂程度等对工业数据进行分类标识。其中,工业企业工业数据分类维度包括但不限于研发数据域、生产数据域、运维数据域、管理数据域、外部数据域。平台企业工业数据分类维度包括但不限于平台运营数据域和企业管理数据域。

专家指出,在数智化转型背景下,制造行业的高质量数据集应当具备系统性(覆盖研产供销服全流程的关联数据)、真实性(确保数据采集源头可信,建立防篡改机制)、准确性(关键指标误差率0.5%,数据清洗规则覆盖率100%)、可溯性(建立完整的数据血缘图谱,支持反向追溯)等四大核心属性。

怎么建?

 

目前,数据交易所工业制造数据产品数量较少,截至20241212日,广州数据交易所、上海数据交易所分别有633个、414个工业制造数据产品。深圳数据交易所、北京国际大数据交易所、苏州大数据交易所等数据交易所工业制造数据产品数量不足百个。

随着人工智能大模型的发展,对数据集提出了新要求,如何构建高质量数据集是当前工业制造业共同面临的问题。

当前,在工业数据领域,国家工业信息安全发展研究中心成立了工业数据标准工作组(WG 9聚焦工业数据领域标准研制与推广,推动工业数据全生命周期相关标准的研制,覆盖数据采集、治理、流通及安全等环节,支撑制造业数字化、网络化、智能化转型和新型工业化发展。

此外,业内专家建议,还应从技术、流通、场景等方面着手建设工业高质量数据集。

第一,开展技术底座建设,打造四维支撑体系。在智能感知层,部署的工业物联网(IIoT)设备包括设备状态传感器(速度、振动、温度、压力等)、工业视觉相机、气相色谱仪、红外水分检测仪等。在数据治理层,建立企业级数据湖,集成MESERPLIMS18类核心业务系统数据;部署元数据管理平台,建立包含800+业务术语的数据字典;开发数据质量引擎,实现异常值检测、缺失值填补、时序数据校验。在分析建模层,搭建数字孪生平台,构建各生产工艺段的虚拟仿真模型;开发质量预测模型;建立能耗优化模型。在安全防护层,建立数据分级分类机制,强化数据可用性。

第二,加快公共数据开放和企业数据流通,建设面向新一代人工智能的高质量数据集。建议形成部门、行业、地区共同参与的协同机制,加速可信数据空间建设。面向科研、工业、农业、物流、能源、交通等重点领域建设大数据中心大模型行业应用创新(工程)中心,打破信息孤岛,构建完备数据生态,构建高质量数据集,提升垂直领域人工智能模型能力。着眼自动驾驶、具身智能等未来产业需求,开放相关公共数据,探索企业间数据流通机制,鼓励企业和研究机构创建高质量行业数据集。

三是坚持场景牵引,打通高质量数据集构建新路径。场景是释放数据要素价值的前提,更是数据要素价值释放的核心载体。当前,多模态大模型、推理大模型、函数召回大模型等产品不断突破,正在重构“场景-数据-模型”的共生关系。以场景需求为锚点,将工业机理与数据要素深度融合,是破解模型精度不足、场景赋能不深、数据利用率低等问题的关键路径。生产制造环节为例,该环节的智能化建模往往需整合设备传感数据、工艺参数、质检记录等大量工业时序数据,构建动态优化的智能制造数据集,该类数据集具有较强的敏感性和专用性。例如,在设备预测性维护场景,需收集设备振动、温度、电流时序数据,工艺控制参数,视觉质检图像等原始数据,通过标注异常工况特征,建立工艺参数与产品质量的因果关联标签,支撑预测性维护与自适应控制模型训练。

如何应用?

 

当前,我国各类主体围绕工业大模型和数据集开发形成了初步探索。随着智能制造的推进,工业数据集的应用范围不断扩大,技术不断成熟,拥有巨大的市场潜力。相关数据显示,2024年工业制造领域数据交易规模持续增长,由2021年的40.1亿元迅速增长至2023年的116.8亿元,2024年交易规模将突破160亿元。

与此同时,政府也出台了一系列政策支撑工业数据集的发展,推动其在各个工业领域的应用。国家数据局等17部门联合印发《“数据要素×”三年行动计划(20242026年)》指出,聚焦重点行业和领域,挖掘典型数据要素应用场景,培育数据商,繁荣数据产业生态,激励各类主体积极参与数据要素开发利用。其中,围绕“数据要素×工业制造”领域,提出创新研发模式、推动协同制造、提升服务能力、强化区域联动、开发使能技术等举措。

在地方层面,湖北、江苏、浙江等多省市明确了建设高质量数据集的数量、时间,以及激励机制;湖北省数据局发布首批10个高质量数据集,推动构建高质量“数据集市”;苏州市发布首批30个工业制造、交通运输、金融服务等高质量数据集。

企业在工业高质量数据集建设中,以‌“技术平台创新+垂直场景深耕+生态协同共建”‌为核心路径,推动工业数据资源化、资产化与智能化转型,形成可复制的行业标杆经验。阿里云工业大脑是一个面向工业领域的智能平台,提供了多个行业数据集,支持企业进行数据分析和智能应用开发。腾讯云工业互联网平台提供了丰富的数据集,支持工业企业的数字化转型。华为云工业互联网平台提供了多个行业数据集,支持企业进行数据分析和智能应用开发。百度智能云工业互联网平台提供了多个行业数据集,支持企业进行数据分析和智能应用开发。海天瑞声参与‌工业高质量数据服务平台‌建设,提供数据治理、确权授权等全流程服务,加速工业数据流通与价值释放。在工业领域,星火大模型深度融合设备监测、工艺优化等场景需求,通过高质量数据集训练提升模型的行业适配性,助力工业智能化决策与效率提升。

工业和信息化部信息技术发展司数字经济推进处处长张建伦在“工业高质量数据集建设研讨会”上表示,近年来,工信部从完善顶层设计、加快标准研制、深化场景应用等方面开展系列工作,加快推动工业领域数据开发利用。下一步,拟从加强政策引领、推动技术创新和加强标准研制三个方面开展工作,加快形成工业数据标准图谱,进一步以标准化手段促进工业高质量数据集打造、流通和应用。

随着基础大模型性能的持续突破,工业高质量数据集不仅是工业AI模型的营养基是驱动制造企业从经验驱动向数据驱动跃迁的核心动能,更是人工智能赋能新型工业化的战略基石,成为工业企业降本增效、重塑企业竞争力的战略选择,推动工业数据从规模红利质量红利数据红利转变。