陈国桢:推进中华文化数据标注,给ai 时代的文化根基筑牢根基

你听说过吗,2026年两会开幕啦,咱们国家的各位代表和委员们可是非常忙碌呢。他们把自己的心声传达出来,希望能为咱们国家的文化强国建设贡献一份力量。中国出版集团、中央文史研究馆、倪成、全国人大、刘占锋、北京大学、开封书画院和张维特这些单位和个人可是被大家关注的焦点呢。 这次两会里有个特别引人注意的话题,就是推进中华文化数据标注,给AI时代的文化根基筑牢根基。大家都知道,AI这东西发展得可快啦,几乎影响到了社会的方方面面。全国人大代表陈国桢说,AI已经成为了国家发展和大国博弈的重要战场了。数据质量可是决定着AI功能强弱的关键因素,而数据的伦理指向又和文化有关系。陈国桢就提到,中华文化数据标注非常重要。 他还提到了一个很实际的问题:咱们现在的中文语料数量太少了。阿里研究院2024年发布的一份报告显示,互联网上的英文语料占到了59.8%,而中文只有1.3%。尤其是文言文和传统文化内容这些反映中式价值观的东西更是匮乏得很。陈国桢担心,这些不足可能会制约中国大模型本土化发展。 为了加快推进中华文化数据标注,陈国桢提了四点建议呢。首先是要让大家高度认识这个事儿的战略意义。他说中华文化数据标注不仅能保护咱们的文化主权,还能帮助咱们走向世界。其次是要解决当下存在的短板问题。像文言文、传统文化内容这些都得赶紧补齐才行。 再来说说怎么推动这项工作顺利进行吧。陈国桢觉得需要国家在政策、技术、资金等方面构建一个系统性支持体系。政策上要制定国家级发展战略;技术上要建设国家级文化数据标注中心;资金上则要设立专项基金鼓励投资。还有就是要抓好示范作用啦,把工作重点和地域特色结合起来推动发展。 最近河南有个学者刘占锋带领团队在中央文史研究馆、北京大学、中国出版集团等多家单位专家指导下干了一件大事儿呢!他们初步创建出了5万多个多层次主题类目体系框架!刘占锋团队长期坚持中华文化精要主题化重构,跟现在搞数据标注异曲同工! 这次两会聚焦点之一就是推进中华文化数据标注啦!大家都把目光投向了这个议题呢!希望通过大家的努力让咱们国家在AI时代更加强大吧!