香港科研团队突破持续学习技术瓶颈 多模态智能系统获类人学习能力

问题——多模态智能体“会执行却难成长”的瓶颈愈发明显。随着视觉理解、工具调用和复杂推理需求迅速增加,智能体图像分析、跨步骤操作等任务中常陷入反复试错:同类问题换一张图、换一种场景就要重新摸索路径,难以像人类一样把成功做法沉淀为固定套路、把失败教训转化为可遵循的规避规则。尤其在依赖视觉线索的任务中,传统以文本记录为主的“记忆”往往抓不住关键画面特征,导致检索到的经验不够贴合,指导作用有限。 原因——知识表达过于单一、经验提炼机制不足是主要阻碍。一上,现有方法多将历史过程压缩成单一形式的文本总结,缺少“流程级”与“动作级”的分层组织:宏观步骤能写清楚,但细节条件、边界情形和易错点难以长期沉淀。另一方面,智能体的学习往往停留“完成一次任务就结束”,缺少对多次尝试轨迹做系统对比、从成功与失败差异中抽取稳定规律机制;在多模态场景下,如果不把视觉特征纳入检索依据,经验积累再多也可能出现“用不上、找不准”。 影响——一旦实现持续积累,多模态任务的稳定性与效率将明显提升。研究团队提出,XSKILL框架的核心是构建“双重知识体系”,把可复用知识拆分为“技能”和“经验”两类:技能面向任务级流程,提供结构化步骤与工具模板,类似可复制的操作手册;经验面向执行级情境,沉淀在特定视觉条件下的应对策略和避坑要点,更像从实战中提炼的诀窍。两者互补:技能保证流程不偏航,经验补足细节与临场判断。更关键的是,框架在知识提取、检索与调用环节引入视觉观测,使智能体能依据图像特征判断“该用哪条经验、该套哪种流程”,从而减少无效试错。 对策——以“多次尝试—交叉对比—分层整理”打造可生长的知识库。按团队披露的设计,XSKILL在经验积累上采取两步:先对同一任务进行多轮尝试收集轨迹,完整记录工具使用、视觉分析与决策链条,让成功与失败都成为可学习样本;再做跨轨迹分析,对比不同尝试的关键分歧点,提炼促成成功的核心因素和导致失败的高频陷阱,把“偶然做对”转化为“稳定可复用”。在知识整理层面,框架强调对不断增长的知识进行分层管理与去冗:相近经验合并精炼,重复技能抽象归纳,避免知识库膨胀带来的检索噪声,提高调用效率与一致性。该研究由香港科技大学、浙江大学、华中科技大学联合开展,涉及的成果已于2026年3月13日发布在预印本平台(论文编号:arXiv:2603.12056v1)。 前景——从“单次完成”走向“长期进化”,有望拓展多模态智能体的应用边界。业内普遍认为,多模态智能体要实现规模化落地,关键不仅是一次任务的正确率,更在于跨场景稳定性、可解释的流程复用,以及对异常情况的处理能力。XSKILL将知识拆分为“可复制流程”和“情境化诀窍”,并把视觉线索纳入检索依据,为提升上述能力提供了更可操作的路径。下一步,若相关机制能在更多数据分布与更复杂工具链环境中验证泛化性,并在知识更新、错误累积抑制与安全边界控制上形成配套方案,或将为教育辅学、工业巡检、图像文档理解、复杂人机协作等场景提供新的方法储备。

人工智能的发展一次次向前,往往来自对学习机制的更细致拆解与工程化落地。XSKILL框架尝试把“持续学习”转化为可执行的知识提取、组织与调用方案,为多模态智能体的长期进化提供了新的实现路径。这项研究不仅回应了当前系统“会做但难以积累”的痛点,也为后续如何让智能体在真实场景中稳定复用经验、逐步提升能力提供了可参考的方向。随着对应的研究持续推进,多模态智能体在更复杂任务中的学习与适应能力有望更增强,并为产业智能化应用带来更扎实的技术支撑。