点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:“十五五”新质奔涌丨深化数据科技创新 以高质量数据集驱动人工智能创新发展
首页> 经济频道> 光明独家> 重点策划 > 正文

“十五五”新质奔涌丨深化数据科技创新 以高质量数据集驱动人工智能创新发展

来源:光明网2026-02-09 18:02

  编者按:2025年10月20日到23日,中国共产党第二十届中央委员会第四次全体会议在北京举行。全会审议通过了《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称“‘十五五’规划建议”)。对此,光明网采访业内权威专家,推出系列解读稿件,邀请专家围绕“十五五”规划建议的核心内容展开系统阐释、结合实践案例答疑解惑,为读者精准解读“十五五”规划建议背后的发展逻辑与实践路径。

 

  作者:

上海人工智能实验室科研规划中心高级主管,浙江大学博士后、博士 董思怡

上海人工智能实验室科研规划中心负责人,清华大学博士 邱磊

  数据正在成为新一轮科技革命与产业变革的关键战略资源。中美在人工智能领域的竞争,正在从早期的算法能力与算力规模,逐步演进为以高质量数据为核心要素的系统性竞争。这不仅是一场技术赛跑,更关乎未来国际科技格局的重塑。国务院印发《关于深入实施“人工智能+”行动的意见》提出要“持续加强人工智能高质量数据集建设”,重点强调了打造高质量科学数据集。面对历史性机遇,以高质量数据集驱动人工智能创新发展,将成为“十五五”时期支撑人工智能原创性突破和规模化应用的重要“燃料”。

  高质量数据成为中美AI竞争的下一个高地

  从中美布局看,数据上升为国家级战略资产。中美两国均将数据视为人工智能与科技创新的基础性、战略性资源,并通过持续演进的政策规划推动数据由量向质转变。美通过国家人工智能研究资源(NAIRR)等机制,系统性整合科学数据、算力、模型与实验设施,为学术界和产业界提供统一、可复用的研究基础。2025年11月24日美正式启动“创世纪计划(Genesis Mission)”,并将此计划定位为“自阿波罗计划以来最大规模的联邦科学资源集结”,强化数据在科研范式变革中的核心作用。中国从“数据要素×”到“人工智能+”行动部署,确定了以数据为代表的新型生产要素和以人工智能为代表的前沿创新技术的关键作用。两者融合协同,逐步形成了以高质量数据集建设和现代化数据产业体系驱动人工智能发展的创新格局,成为加快形成新质生产力的重要引擎。

  从产业生态看,高质量数据集价值持续释放。数据已贯穿人工智能产业发展的全生命周期,包括数据采集、清洗治理、标注加工、标准化管理、流通交易及模型训练与应用落地。数据质量直接影响模型性能和应用可靠性,是决定人工智能“能不能用、好不好用”的关键变量之一。2025年,我国已建设高质量数据集超10万个,规模超890PB(拍字节),部署了140项先行先试任务,但仍面临数据产权、质量与定价机制有待完善、流通交易活跃度有待提升等挑战。实现高质量数据集的规模化、专业化供给亟须制度与市场协同发力。

  从重点领域看,科学数据对AI4S的价值日益凸显。AI4S(人工智能赋能科学研究)作为人工智能与基础科学深度融合的核心场景,其发展高度依赖高质量科学数据的支撑。当前,美西方国家与中国均在AI4S领域加大科学数据布局,在生命科学、新材料、能源与气候模拟等领域持续推动科学研究范式变革,取得一系列突破性进展。以蛋白质结构研究为例,国际蛋白质数据银行(PDB)、英国生物样本库(UKB)等科学数据库,为后续基于深度学习的结构预测模型提供了关键训练数据基础,显著加速了科学发现与工程应用转化。我国已有科学数据银行(ScienceDB),专注提供符合主流数据标准或惯例的高质量科学数据。但当前科学数据多由湿实验环境收集,未针对多模态、跨尺度等需求进行预处理与结构化改造,难以直接用于科学推理,AI就绪程度(AI-ready)有待加强。

  以高质量数据集驱动AI创新发展的策略

  面对全球数字竞争的新形势和我国高质量发展的内在需求,应立足高质量数据集的核心价值,从基础制度建设、市场生态培育、重点领域赋能三个维度,制定针对性发展策略,推动高质量数据集与人工智能深度融合,抢占全球AI竞争制高点,助力“十五五”时期人工智能产业实现跨越式发展。

  夯实高质量数据集建设基础,完善制度、标准与工具体系。一是加快建设统一、规范、开放的数据市场制度体系,围绕数据产权、授权运营、流通交易、估值定价、质量管理、安全治理等关键环节建立制度框架,为数据开发利用提供稳定市场环境。二是加快制定并推广数据质量与元数据标准,重点对科学数据和产业数据统一规范,将数据管理计划和数据质量要求纳入科研项目和重大工程的全过程管理。三是支持数据治理和质量评测工具研发,通过量化数据集质量等级与AI模型性能提升的关联关系,用对AI模型贡献度量化数据价值。例如上海人工智能实验室研发的OpenDataArena开放数据竞技场,作为全球首个数据评估平台,平台已覆盖4个以上专业领域,完成20多项基准测试,支持超过20种数据评分维度。四是深化数据领域国际合作。积极参与全球数据领域科技治理,加强数据领域的国际标准制定与引领,稳妥推进国际科学数据和产业数据合作,提升我国在全球数据科技创新中的参与度和话语权。

  完善数据流通服务体系,打造专业化数据市场生态。数据流通服务机构作为链接数据供需、促进数据流通交易、推进数据要素市场化价值化的重要主体,是高质量数据集的关键组织者。一是不断健全和畅通公共数据资源授权运营机制,鼓励有条件的数据商通过授权运营等方式,利用公共数据资源建设高质量数据集。二是持续深化数据流通服务机构的专业化分工,适配人工智能发展需求提供数据治理与模型训练等服务,实现高质量数据集的加工、处理并稳定输出,提升其可用性。三是探索多样化数据流通交易模式,突破传统交易范式的局限,提出符合人工智能产业实际的数据交换方式和价值实现路径,以激发高质量数据集的可持续供给。

  以高质量数据集赋能科学重点领域,服务国家重大战略需求。“十五五”规划提出要加快人工智能等数智技术创新,全面实施“人工智能+”行动,以人工智能引领科研范式变革,加速“从0到1”科学发现。围绕“十五五”时期国家科技与产业发展重点,将高质量数据集作为人工智能赋能实体经济和前沿科学的重要抓手。一是将科学数据资源建设纳入国家科研基础设施整体布局,推动重大科研设施、国家实验室数据的分级开放与合规共享。二是在生命科学、材料化学、能源与环境等领域,布局“数据+模型+应用”的示范工程,形成可复制、可推广的应用范式。三是通过科研资助政策,引导产学研合作中形成稳定的数据共享和成果转化机制。

  策划:赵刚

  文字整理:刘晗旭

[ 责编:杨亚楠 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • “三夏”沃野抢收忙

  • 擦亮“秘色瓷都”品牌 推动产业融合发展

独家策划

推荐阅读
记者从农业农村部获悉,截至5月28日17时,各地已收夏粮小麦4897万亩、当日机收面积超过1000万亩,今年全国“三夏”大规模小麦机收全面展开。
2026-05-29 09:11
垦利10-2油田位于渤海南部海域,探明原油地质储量超1亿吨,是渤海湾盆地凹陷带浅层发现的首个亿吨级岩性油田。中国海油天津公司工程技术作业中心相关负责人介绍:“垦利10-2油田钻完井作业面临井型多、层系多、开发方式多等‘三多’难点。
2026-05-29 09:09
早上8时许,四川省南充市高坪区走马镇姜家祠村村民姜萧将孩子送到村委会“农忙托管班”。为解决农忙季小孩看护缺位问题,姜家祠村因地制宜开设季节性公益“农忙托管班”,为村内适龄儿童提供免费集中托管服务。
2026-05-29 09:06
中国卫星导航定位协会近日发布《2026中国北斗时空产业发展白皮书》。所谓“北斗时空产业”,是以北斗卫星导航系统为核心,深度融合遥感地理信息、移动通信等多种技术手段的综合性产业体系。
2026-05-29 09:02
据中国载人航天工程办公室消息,神舟二十一号和神舟二十三号航天员乘组于28日进行交接仪式,两个乘组移交了中国空间站的钥匙。
2026-05-29 08:52
  人工智能(AI)正以前所未有的速度重塑着教育形态。放眼全球,AI与教育深度融合已不是“未来时”,而是汹涌澎湃的“现在进行时”。在这场由硅基智慧引发的教育革命面前,世界各国都在“大显身手”,基于各自特有的文化背景、教育传统与国家发展战略定位,在“AI+教育”的实施路径上展现出“百花齐放”之势。
2026-05-28 02:10
  当前,我国科普阅读需求呈现出高意愿、高黏性、高集中度的特点。调研显示,成人科普图书核心读者以36岁以上成熟群体为主,占比达82%,女性读者占62%,绝大多数为本科学历以上,企业技术人员、教育科研工作者、都市职场人构成消费主力。超过六成读者每周阅读三次以上,近三分之一年均阅读10本以上,阅读稳定性显著高于其他大众图书。
2026-05-28 02:10
站在河北沧州南皮县乌马营镇徐和杨村的航丰家庭农场地头,放眼望去,成方连片的小麦已泛起嫩黄,一派“小满未满,将熟未熟”的景象。
2026-05-28 02:00
中国社会科学院考古研究所(中国历史研究院考古研究所)27日发布最新成果。2025年9月至今,考古研究所已出版考古报告13部,专著、学术资料、科普读物13部,图录、论文集、数据集8部,中英文顶级、权威期刊上的简报、论文30余篇,并积极建设实验室集刊平台。
2026-05-28 02:00
27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-28 01:40
在提交毕业论文终稿的最后时刻,辽宁省某高校教育学专业研二学生宋耘(化名)还是选择了求助某“专门降论文AIGC(人工智能生成内容)率”的商家。
2026-05-28 01:40
中国卫星导航定位协会近日发布的《2026中国北斗时空产业发展白皮书》显示,2025年,北斗时空产业总产值达到13323亿元。北斗核心产品持续迭代升级,芯片、模组等基础产品小型化、低功耗、高精度水平不断提升,国内主流手机北斗定位精度持续优化,为产业规模化应用奠定了坚实的技术基础。
2026-05-27 09:36
5月27日0时16分,我国在文昌航天发射场使用长征七号改运载火箭,成功将通信技术试验卫星二十四号发射升空,卫星顺利进入预定轨道,发射任务取得圆满成功。
2026-05-27 09:26
“十五五”规划纲要提出,投资于物和投资于人紧密结合。
2026-05-27 03:00
大屏幕上的数字快速跳动。十几轮激烈竞逐后,最终定格在212.4万元,成交!这是日前记者在湖北碳排放权交易中心电子竞价大厅看到的一幕。
2026-05-27 03:10
检测AI率,目的是维护学术研究的严肃性公平性,督促学生遵守学术规范、产出原创成果。然而,在现实操作中,一系列困扰学生乃至老师、学校的问题接连显露。
2026-05-27 02:50
位于北京大兴区的长子营湿地公园,草木葱茏,水面澄澈,鸟鸣声清脆悦耳,勾勒出一幅生机盎然的生态画卷。
2026-05-26 09:24
我国虽然核电铀燃料对外依存度高,但钍资源储量丰富,目前探明钍储量位居世界第二。以钍作核燃料不仅符合我国资源禀赋,甚至可能改变未来全球能源格局。
2026-05-26 09:18
我国已累计发布1750项食品安全标准,涉及2万多个指标,覆盖340多种食品类别,持续完善科学严谨、好用管用的食品安全标准体系。
2026-05-26 09:11
入汛以来,全国平均降水量达110.1毫米,较常年同期偏多18.6%。从空间分布来看,我国南北方均出现降水量较常年同期明显偏多区域。
2026-05-26 09:11
加载更多