网信办规范人工智能拟人化服务 明确训练数据管理六项要求

随着智能化服务深度融入社会生活,数据管理成为影响技术健康发展的重要命题。

国家互联网信息办公室此次发布的征求意见稿,直指当前部分企业在模型训练中存在的数据质量参差、安全防护薄弱等隐患。

文件明确要求,提供者在开展预训练、优化训练等关键环节时,必须建立全流程数据管理体系。

分析指出,新规出台主要基于三方面考量:一是部分平台为追求模型效率,忽视数据筛选导致低俗、偏见内容生成;二是境外曾发生多起数据投毒攻击事件,威胁系统安全性;三是合成数据滥用可能引发伦理争议。

例如2022年某海外聊天机器人因训练数据缺陷,多次输出违背公序良俗的回复,造成恶劣社会影响。

此次提出的六项具体措施形成闭环管理链条。

在数据输入端,要求采用体现中华优秀传统文化的数据集;在加工环节,通过负向采样等技术提升内容安全性;在运维阶段,建立定期检查与迭代机制。

值得注意的是,文件特别强调合成数据的风险评估,这与当前全球对深度伪造技术的高度警惕相呼应。

业内专家认为,新规将推动三个层面的积极变化:从企业角度看,头部平台已建立的伦理审查委员会将获得更明确的操作依据;对监管部门而言,数据溯源要求为执法提供了技术抓手;用户侧则能有效减少错误信息干扰。

据第三方统计,2023年我国智能交互市场规模已突破千亿,规范的及时出台有助于在产业爆发期筑牢发展基石。

训练数据是生成式互动服务的“源头活水”,也是风险防控的第一道关口。

以制度明确要求、以治理夯实底座,有助于把安全、价值导向与创新发展统一起来。

面向未来,只有在全流程、可追溯、可验证的治理框架下持续提升数据质量与安全能力,拟人化互动服务才能更好服务社会需求,在规范有序中释放技术应用的积极效能。