“高质量数据集”促数据产业高质量发展

2024年,《关于促进数据产业高质量发展的指导意见》就把“高质量数据集”给明确提了出来,鼓励企业做这些创新。到了2025年6月,全国这方面的数量突破了3.5万个,总量也高达400PB。光是给数据交易机构挂牌的,就有3364个,累计交易额近40亿元。2024年12月印发的这份文件,也为高质量数据集的发展指明了方向。《高质量数据集建设指引》指出,现在大模型的参数规模和多模态能力都在快速增长,以前只看重数据量的积累,现在得更注重质量。 中国信息通信研究院院长余晓晖在北京9月2日举办的论坛上就说,世界上有好多私有领域的数据,不管是场景里的还是政府里的,要是能把这部分给释放出来,那就是构建高质量数据集的重要路子。这种数据集和AI发展就是互相帮衬的关系。清华大学数字政府与治理研究院院长张小劲也觉得,AI走到哪儿,高质量数据集就得跟到哪儿,反过来也是一样。 吴世忠院士更是指出,数据集的质量跟安全就像是大模型的命根子,必须得把分级分类的安全制度给完善好。他还提到要主动把中华优秀传统文化融进里面,别让模型成了只知道利己的工具。深圳市政务服务和数据管理局的周剑明局长也在国家数据局官网分享了经验,他们通过公共数据资源授权运营和可信数据空间建设的探索,让公共数据跟企业数据融合在了一起。 这次北京举办的活动由中新网记者吴涛报道。大家都在盼着高质量数据集能跟AI共振起来。因为AI大模型的训练太依赖海量数据了,以前就有不少人觉得以后会没数据用了。但现在有了高质量数据集,这就变成了数据流通的“硬通货”。如今这类建设正在热火朝天地进行着。除了国家政策支持外,像深圳市也在征信金融、气象还有商保理赔这些领域开展了试点。