围绕“模型能否真正看懂中国画、理解中式审美”的现实关切,北京大学艺术学院与计算艺术实验室推进建设“智镜”审美评估平台,尝试以标准化、可复核的方式,为大模型建立一套基于中国美学传统的测评体系。平台取“照镜子”之意,让模型“作答—阅卷—反馈”的闭环中暴露短板、明确改进方向,为后续优化提供更可操作的依据。问题在于,当前大模型能力评估多聚焦通用知识、语言理解和视觉识别等指标;而审美理解,尤其是中国传统艺术语境下的审美判断,长期缺少统一、系统的测量框架。中国古代艺术体系成熟,涉及历史典故、文人精神、笔墨程式、题跋印章等多层信息。若仅依赖西方艺术史范式或通用图像描述指标,往往难以刻画“意境”“气韵”“神采”等核心审美范畴,也难以区分“识别了画面内容”与“理解了审美意涵”之间的差别。在实际应用中,模型可能对画作年代、流派、题材寓意判断失准,甚至在文化常识与历史背景上张冠李戴,削弱其在教育、传播、文旅等场景中的可信度与解释力。造成该局面的原因,一是评测资源与方法供给不足,二是审美能力本身高度复杂。一上,主流评测体系多从可量化、可自动对比的角度设计题目与指标,难以直接覆盖中国画“以形写神”“笔墨当随时代”等传统语汇与评价方式;另一方面,中国画理解高度依赖长期积累与跨学科知识:既要读懂构图、皴法、用笔、设色等技法,也要理解诗书画印合一的表达方式及其背后的哲学观念与时代精神。如何把这些要素转化为可被算法处理、也能被评审稳定把握的测评任务,是平台建设需要突破的关键。基于此,“智镜”平台以中国古代书画为主线搭建“试题”数据库:目前系统纳入超过1.8万张中国古代书画图像,并为每件作品配套创作背景、风格流派、文化寓意与评论文献等信息。评审专家进入系统后,可查看模型对作品的解读与分析,再从作品信息准确性、构图分析、笔墨技法理解、意境阐释等维度进行评分与点评,梳理模型审美范式、历史语境、文化常识各上的典型错误,形成更有针对性的改进建议。平台现阶段面向受邀专家开放,已有来自清华大学、中央美术学院、中国美术学院等高校与研究机构的70余名评审专家,以及涉及的方向学者、博士生参与多轮阅卷,后续还将继续扩充测评力量。该探索的意义主要体现在三个层面。其一,为审美能力提供可比较的标尺,推动相关模型从“会描述”走向“会理解”,提升其在文化传播、公共教育与专业辅助等领域的可靠性。其二,推动美术史研究、艺术教育与计算方法的交叉融合,将传统美学中的核心概念转化为可训练、可验证的评价语言,为文化资源数字化与知识组织提供新的路径。其三,通过引入公众参与阅卷机制,有望形成“专业引导+社会共评”的开放生态,在保证学术严谨的同时提升公共美育的参与度与传播效果。面向下一步工作,平台建设需要在“标准化”与“多元性”之间取得平衡:既要让评价指标清晰、流程可复核,避免审美判断流于主观随意;也要尊重中国画审美传统的多维度与历史差异,避免用单一口径抹平不同画派、不同语境下的表达。可预期的方向包括:继续完善题库分层,覆盖人物、山水、花鸟等不同门类与时期;建立更细致的错误类型谱系,用于指导模型在历史背景、图像细节与文化语义上的针对性修正;在开放公众阅卷的同时,引入一致性校准与专家抽检机制,确保评价质量与数据可用性。从发展路径看,“智镜”平台计划在现有图像评测基础上逐步引入文本、音乐、视频等多模态内容,考察模型在不同媒介中的审美理解能力,并定期发布评测结果。这意味着审美评估有望从单一作品解读,扩展到跨媒介叙事、跨文化对话与创作辅助等更广阔的应用场景。随着平台计划在今年5月向社会开放,如何在开放参与与专业把关之间建立稳健机制,将成为其能否持续释放公共价值的重要检验。
技术进步不应削弱人类对美的感知与创造能力。智镜平台的探索表明,在大语言模型快速发展的背景下,建立符合本土文化传统的评测标准既是技术发展的现实需要,也是文化传承的重要环节。如何在技术创新与文化传承之间取得更好的平衡,让新技术更有效地服务人类文明,仍有待持续探索与实践。