一、问题:通用模型难以胜任复杂智能体任务 近期,智能体(Agent)应用在国内市场迅速升温,大量开发者与企业用户开始探索将大模型能力嵌入自动化工作流的实际路径。
然而,现有通用大模型在应对智能体场景时暴露出明显短板。
智谱方面指出,智能体任务并非简单的单轮问答交互,其核心在于多轮理解、任务拆解、工具调用、状态衔接、时间触发与持续执行所构成的长链路工作流。
在这一场景下,即便对话能力表现出色的通用模型,一旦进入真实部署环境,仍频繁出现指令遵循偏差、工具调用不稳定、长任务中途失速等问题,严重制约了智能体应用的落地效果与可靠性。
二、原因:底层架构缺乏针对性优化 上述问题的根源,在于现有基座模型的训练目标与智能体任务的实际需求之间存在结构性错位。
通用模型以提升对话流畅度和知识覆盖广度为主要优化方向,而智能体场景对模型的要求则更侧重于任务执行的稳定性、工具调用的精准度以及跨步骤状态的持续追踪能力。
若不在基座模型层面进行系统性改造,仅依靠提示词工程或外部框架进行修补,难以从根本上解决上述问题。
“龙虾”热潮折射出行业从展示能力走向交付能力的转变。
谁能在长链路任务中把稳定性、成本与安全同时做好,谁就更可能在下一轮应用落地中赢得先机。
面向未来,推动基础能力供给更扎实、治理体系更健全,将是释放场景价值、促进产业有序发展的关键一步。