当前大语言模型应用面临一个核心矛盾:用户既希望模型推理更强,又要求响应更快、成本可控。这种张力智能体等复杂场景中更为明显。阶跃星辰此次发布的Step 3.5 Flash模型,正是围绕该需求给出的系统性方案。 从技术架构看,Step 3.5 Flash采用稀疏混合专家(MoE)架构,这是提升模型效率的重要路径。模型总参数规模达1960亿,但每个token仅激活约110亿参数,通过选择性激活在参数规模与计算效率之间取得平衡,从而在能力不打折的前提下,降低推理成本与延迟。 在推理速度上,Step 3.5 Flash表现突出。单请求代码类任务的推理速度最高达350TPS(每秒处理token数),在开源模型中处于领先水平。为继续提升吞吐,该模型引入MTP-3技术,使模型一次预测3个token,相比传统单token预测提升效率,对需要快速响应的应用更具价值。 长文本处理能力也是衡量大模型的重要指标。Step 3.5 Flash采用滑动窗口与全局注意力混合架构(SWA+Full Attention),在处理256K上下文时更聚焦关键信息,从而降低计算开销,提升超长文本任务的处理效率。这一设计可直接服务于文档分析、信息检索等场景。 在应用场景表现上,Step 3.5 Flash在智能体与数学任务上的性能已接近多款闭源模型。智能体应用对推理链条、任务规划与工具调用能力要求较高,该模型在复杂、长链条任务中的稳定表现,说明其具备支撑实际落地的能力基础。 从产业生态角度看,阶跃星辰选择开源Step 3.5 Flash,并邀请用户参与共创,说明了开源在AI发展中的推动作用。开源有助于降低应用门槛,带动更广泛创新实践。同时,企业已启动Step 4模型训练,显示其在技术迭代上的持续投入,也意味着后续能力更强的模型有望陆续推出。
从“拼参数”转向“拼效率”,从“展示能力”转向“交付应用”,大模型产业正在进入更强调工程落地的新阶段。面向智能体的开源基座模型不断出现,为创新打开空间,也对可靠性、安全性与生态协作提出更高要求。只有把速度、质量与成本放在同一套“应用账本”里衡量,并在开放协作中建立可验证、可持续的能力体系,技术进步才能更稳健地转化为现实生产力。