国内首个传统美学智能评估平台"智镜"上线致力打造本土艺术评价标准

围绕“模型能否真正看懂中国画、理解中式审美”的现实关切，北京大学艺术学院与计算艺术实验室推进建设“智镜”审美评估平台，尝试以标准化、可复核的方式，为大模型建立一套基于中国美学传统的测评体系。平台取“照镜子”之意，让模型“作答—阅卷—反馈”的闭环中暴露短板、明确改进方向，为后续优化提供更可操作的依据。问题在于，当前大模型能力评估多聚焦通用知识、语言理解和视觉识别等指标；而审美理解，尤其是中国传统艺术语境下的审美判断，长期缺少统一、系统的测量框架。中国古代艺术体系成熟，涉及历史典故、文人精神、笔墨程式、题跋印章等多层信息。若仅依赖西方艺术史范式或通用图像描述指标，往往难以刻画“意境”“气韵”“神采”等核心审美范畴，也难以区分“识别了画面内容”与“理解了审美意涵”之间的差别。在实际应用中，模型可能对画作年代、流派、题材寓意判断失准，甚至在文化常识与历史背景上张冠李戴，削弱其在教育、传播、文旅等场景中的可信度与解释力。造成该局面的原因，一是评测资源与方法供给不足，二是审美能力本身高度复杂。一上，主流评测体系多从可量化、可自动对比的角度设计题目与指标，难以直接覆盖中国画“以形写神”“笔墨当随时代”等传统语汇与评价方式；另一方面，中国画理解高度依赖长期积累与跨学科知识：既要读懂构图、皴法、用笔、设色等技法，也要理解诗书画印合一的表达方式及其背后的哲学观念与时代精神。如何把这些要素转化为可被算法处理、也能被评审稳定把握的测评任务，是平台建设需要突破的关键。基于此，“智镜”平台以中国古代书画为主线搭建“试题”数据库：目前系统纳入超过1.8万张中国古代书画图像，并为每件作品配套创作背景、风格流派、文化寓意与评论文献等信息。评审专家进入系统后，可查看模型对作品的解读与分析，再从作品信息准确性、构图分析、笔墨技法理解、意境阐释等维度进行评分与点评，梳理模型审美范式、历史语境、文化常识各上的典型错误，形成更有针对性的改进建议。平台现阶段面向受邀专家开放，已有来自清华大学、中央美术学院、中国美术学院等高校与研究机构的70余名评审专家，以及涉及的方向学者、博士生参与多轮阅卷，后续还将继续扩充测评力量。该探索的意义主要体现在三个层面。其一，为审美能力提供可比较的标尺，推动相关模型从“会描述”走向“会理解”，提升其在文化传播、公共教育与专业辅助等领域的可靠性。其二，推动美术史研究、艺术教育与计算方法的交叉融合，将传统美学中的核心概念转化为可训练、可验证的评价语言，为文化资源数字化与知识组织提供新的路径。其三，通过引入公众参与阅卷机制，有望形成“专业引导+社会共评”的开放生态，在保证学术严谨的同时提升公共美育的参与度与传播效果。面向下一步工作，平台建设需要在“标准化”与“多元性”之间取得平衡：既要让评价指标清晰、流程可复核，避免审美判断流于主观随意；也要尊重中国画审美传统的多维度与历史差异，避免用单一口径抹平不同画派、不同语境下的表达。可预期的方向包括：继续完善题库分层，覆盖人物、山水、花鸟等不同门类与时期；建立更细致的错误类型谱系，用于指导模型在历史背景、图像细节与文化语义上的针对性修正；在开放公众阅卷的同时，引入一致性校准与专家抽检机制，确保评价质量与数据可用性。从发展路径看，“智镜”平台计划在现有图像评测基础上逐步引入文本、音乐、视频等多模态内容，考察模型在不同媒介中的审美理解能力，并定期发布评测结果。这意味着审美评估有望从单一作品解读，扩展到跨媒介叙事、跨文化对话与创作辅助等更广阔的应用场景。随着平台计划在今年5月向社会开放，如何在开放参与与专业把关之间建立稳健机制，将成为其能否持续释放公共价值的重要检验。

技术进步不应削弱人类对美的感知与创造能力。智镜平台的探索表明，在大语言模型快速发展的背景下，建立符合本土文化传统的评测标准既是技术发展的现实需要，也是文化传承的重要环节。如何在技术创新与文化传承之间取得更好的平衡，让新技术更有效地服务人类文明，仍有待持续探索与实践。

国内首个传统美学智能评估平台"智镜"上线 致力打造本土艺术评价标准

国内首个传统美学智能评估平台"智镜"上线致力打造本土艺术评价标准