香港科研团队突破持续学习技术瓶颈多模态智能系统获类人学习能力

问题——多模态智能体“会执行却难成长”的瓶颈愈发明显。随着视觉理解、工具调用和复杂推理需求迅速增加，智能体图像分析、跨步骤操作等任务中常陷入反复试错：同类问题换一张图、换一种场景就要重新摸索路径，难以像人类一样把成功做法沉淀为固定套路、把失败教训转化为可遵循的规避规则。尤其在依赖视觉线索的任务中，传统以文本记录为主的“记忆”往往抓不住关键画面特征，导致检索到的经验不够贴合，指导作用有限。原因——知识表达过于单一、经验提炼机制不足是主要阻碍。一上，现有方法多将历史过程压缩成单一形式的文本总结，缺少“流程级”与“动作级”的分层组织：宏观步骤能写清楚，但细节条件、边界情形和易错点难以长期沉淀。另一方面，智能体的学习往往停留“完成一次任务就结束”，缺少对多次尝试轨迹做系统对比、从成功与失败差异中抽取稳定规律机制；在多模态场景下，如果不把视觉特征纳入检索依据，经验积累再多也可能出现“用不上、找不准”。影响——一旦实现持续积累，多模态任务的稳定性与效率将明显提升。研究团队提出，XSKILL框架的核心是构建“双重知识体系”，把可复用知识拆分为“技能”和“经验”两类：技能面向任务级流程，提供结构化步骤与工具模板，类似可复制的操作手册；经验面向执行级情境，沉淀在特定视觉条件下的应对策略和避坑要点，更像从实战中提炼的诀窍。两者互补：技能保证流程不偏航，经验补足细节与临场判断。更关键的是，框架在知识提取、检索与调用环节引入视觉观测，使智能体能依据图像特征判断“该用哪条经验、该套哪种流程”，从而减少无效试错。对策——以“多次尝试—交叉对比—分层整理”打造可生长的知识库。按团队披露的设计，XSKILL在经验积累上采取两步：先对同一任务进行多轮尝试收集轨迹，完整记录工具使用、视觉分析与决策链条，让成功与失败都成为可学习样本；再做跨轨迹分析，对比不同尝试的关键分歧点，提炼促成成功的核心因素和导致失败的高频陷阱，把“偶然做对”转化为“稳定可复用”。在知识整理层面，框架强调对不断增长的知识进行分层管理与去冗：相近经验合并精炼，重复技能抽象归纳，避免知识库膨胀带来的检索噪声，提高调用效率与一致性。该研究由香港科技大学、浙江大学、华中科技大学联合开展，涉及的成果已于2026年3月13日发布在预印本平台（论文编号：arXiv:2603.12056v1）。前景——从“单次完成”走向“长期进化”，有望拓展多模态智能体的应用边界。业内普遍认为，多模态智能体要实现规模化落地，关键不仅是一次任务的正确率，更在于跨场景稳定性、可解释的流程复用，以及对异常情况的处理能力。XSKILL将知识拆分为“可复制流程”和“情境化诀窍”，并把视觉线索纳入检索依据，为提升上述能力提供了更可操作的路径。下一步，若相关机制能在更多数据分布与更复杂工具链环境中验证泛化性，并在知识更新、错误累积抑制与安全边界控制上形成配套方案，或将为教育辅学、工业巡检、图像文档理解、复杂人机协作等场景提供新的方法储备。

人工智能的发展一次次向前，往往来自对学习机制的更细致拆解与工程化落地。XSKILL框架尝试把“持续学习”转化为可执行的知识提取、组织与调用方案，为多模态智能体的长期进化提供了新的实现路径。这项研究不仅回应了当前系统“会做但难以积累”的痛点，也为后续如何让智能体在真实场景中稳定复用经验、逐步提升能力提供了可参考的方向。随着对应的研究持续推进，多模态智能体在更复杂任务中的学习与适应能力有望更增强，并为产业智能化应用带来更扎实的技术支撑。

香港科研团队突破持续学习技术瓶颈 多模态智能系统获类人学习能力

香港科研团队突破持续学习技术瓶颈多模态智能系统获类人学习能力