网信办规范人工智能拟人化服务明确训练数据管理六项要求

随着智能化服务深度融入社会生活，数据管理成为影响技术健康发展的重要命题。

国家互联网信息办公室此次发布的征求意见稿，直指当前部分企业在模型训练中存在的数据质量参差、安全防护薄弱等隐患。

文件明确要求，提供者在开展预训练、优化训练等关键环节时，必须建立全流程数据管理体系。

分析指出，新规出台主要基于三方面考量：一是部分平台为追求模型效率，忽视数据筛选导致低俗、偏见内容生成；二是境外曾发生多起数据投毒攻击事件，威胁系统安全性；三是合成数据滥用可能引发伦理争议。

例如2022年某海外聊天机器人因训练数据缺陷，多次输出违背公序良俗的回复，造成恶劣社会影响。

此次提出的六项具体措施形成闭环管理链条。

在数据输入端，要求采用体现中华优秀传统文化的数据集；在加工环节，通过负向采样等技术提升内容安全性；在运维阶段，建立定期检查与迭代机制。

值得注意的是，文件特别强调合成数据的风险评估，这与当前全球对深度伪造技术的高度警惕相呼应。

业内专家认为，新规将推动三个层面的积极变化：从企业角度看，头部平台已建立的伦理审查委员会将获得更明确的操作依据；对监管部门而言，数据溯源要求为执法提供了技术抓手；用户侧则能有效减少错误信息干扰。

据第三方统计，2023年我国智能交互市场规模已突破千亿，规范的及时出台有助于在产业爆发期筑牢发展基石。

训练数据是生成式互动服务的“源头活水”，也是风险防控的第一道关口。

以制度明确要求、以治理夯实底座，有助于把安全、价值导向与创新发展统一起来。

面向未来，只有在全流程、可追溯、可验证的治理框架下持续提升数据质量与安全能力，拟人化互动服务才能更好服务社会需求，在规范有序中释放技术应用的积极效能。

网信办规范人工智能拟人化服务 明确训练数据管理六项要求