中文数据资源建设提速 助力人工智能技术本土化发展

问题——大模型要“更懂中国话”,首先要过“中文关”。

同一词组在不同语境下含义不同,是中文表达的常态。

“看车”既可指过马路时观察来车,也可指逛车展时查看车型;“打”既可能是“打电话”,也可能是“打毛衣”。

这类高度依赖语境、含义分化明显的语言现象,决定了仅靠通用语料难以支撑模型在真实场景中的准确理解与稳定输出。

随着大模型从通用对话走向政务、医疗、工业等专业应用,中文数据的规模与质量成为影响效果和安全的关键变量。

原因——中文数据占比提升,既是能力需求,也是安全需求。

一方面,从全球互联网信息结构看,英文长期占据高比例,高质量标注数据、前沿科技论文、行业标准等也多以英文呈现。

早期模型训练容易出现对外部数据来源依赖较强的问题,进而带来授权、更新与合规等不确定性。

另一方面,语言模型需要遵循语言习惯与表达逻辑。

若训练长期偏重英文数据,模型更易形成“英文式认知路径”,在理解中文特有的修辞、隐喻、礼貌策略、政策表述与文化典故时出现偏差,表现为概念映射不准、语气风格不贴合、推理链条不符合中文语用习惯等。

业内信息显示,当前不少国内模型训练数据中中文占比已超过六成,部分达到八成,反映出行业对中文能力建设的共识正在形成。

影响——中文数据结构优化,正在重塑模型能力边界与应用深度。

其一,面向用户体验,中文数据比重提高有助于模型以更自然的表达完成问答、检索、摘要与写作,减少“翻译腔”和误解语境导致的偏差。

其二,面向产业升级,在医疗、法律、金融、制造等对专业术语和规范表达要求极高的领域,高质量中文数据可显著降低“看似通顺但事实有误”的输出风险,提升可用性和可控性。

以医疗为例,中文语境中的“上火”“湿气”等概念与中医辨证、生活方式建议紧密相关,仅依托外语语料难以准确建立知识关联。

其三,面向国家治理与技术自主,中文数据供给能力提升有助于降低关键迭代受制于外部数据授权、更新时滞等因素的风险,在数据安全、技术自主方面增强主动权。

其四,面向文化传承,中文数据承载典籍、诗词、方言与地域文化等独特内容,为传统文化的数字化传播和教育场景创新提供了基础,使模型能够更准确讲解文言虚词、诗词格律等知识,并以更贴合本土语境的方式进行传播。

对策——从“有数据”到“好数据”,关键在于高质量供给体系建设。

业内普遍将未经审核的网络文本视为“普通数据”,其覆盖面广但难以避免事实错误、概念混淆与时效滞后;而“高质量数据”强调来源可追溯、事实经核查、专业经审核,并能够随着知识演进动态更新。

要提升中文高质量数据供给,需多点发力: 一是强化制度与生态支撑。

围绕高质量训练数据集建设的政策部署持续推进,数据标注基地等基础设施加速落地,有利于形成稳定供给与规模化生产能力,并推动数据要素在合规框架下流通与使用。

二是推动专业领域“专家参与+标准化流程”。

以医疗等高风险领域为代表,依托专家审核、知识点溯源与动态更新机制建设知识图谱和专业语料库,可有效提升数据可靠性与可解释性,减少模型“学错”的源头风险。

三是依靠技术降低成本、提升效率。

中文歧义多、语境依赖强,早期标注成本明显高于英文。

随着中文语义标注、歧义消解等技术进步,机器辅助标注与质量检测能力增强,能够更高效地区分同词不同义、同句不同指向等问题,推动高质量数据集生产进入可持续轨道。

四是完善数据治理与评价体系。

面向大模型训练的数据,不仅要看数量,更要看覆盖度、时效性、一致性、可追溯性以及与场景任务的匹配度。

建立统一的质量评测与分级标准,推动“可用、可靠、可审计”的数据体系建设,是实现规模化应用的基础工程。

前景——中文数据能力建设将从“占比提升”走向“结构优化”。

可以预期,随着政策牵引、产业投入与技术迭代协同推进,中文高质量数据将更多向专业化、场景化、体系化方向发展:通用语料继续夯实语言理解底座,专业语料与知识图谱支撑高风险场景落地,多模态中文数据补齐图文、视频、语音等复杂交互能力。

同时,合规使用与安全治理将成为数据供给的硬约束,谁能在合法合规前提下稳定产出高质量中文数据,谁就更有机会在关键应用与关键迭代中赢得先机。

中文数据集建设的加速推进,标志着我国大模型发展正在从被动适应转向主动引领。

通过提升中文数据的占比和质量,我们不仅在技术上实现了更好的自主可控,更重要的是让大模型能够真正理解和传承中华文化,讲好中国故事。

这是一场关乎文化自信、技术自主、数据安全的深层竞争,需要政策、技术、产业的持续合力。

随着中文高质量数据集的不断完善,大模型将更好地成为中华文明在数字时代的有力承载者和传播者。