一、新模型上线引发行业关注 阿里云近日通义千问平台发布了两款新模型:通义千问3.5-Plus和通义千问3.5-397B-A17B;前者是该系列最新通用大语言模型,后者则是开源旗舰产品。两款模型都支持文本处理和多模态任务——虽然发布较为低调——但其技术参数和架构创新很快引起业内关注。 这次发布并非简单的参数升级,而是对底层架构进行了系统性重构,在当前大模型竞争中形成了差异化优势。 二、架构创新实现效率提升 通义千问3.5系列的主要突破在于混合架构设计。该架构结合了门控差分网络的线性注意力机制和稀疏混合专家模型,在提升推理速度的同时,有效降低了计算资源消耗。 具体来看,通义千问3.5-397B-A17B总参数量达3970亿,但每次推理仅激活约170亿参数,激活比例不到5%。这种设计在保持性能的同时显著降低了部署门槛。测试数据显示,新模型在32k上下文长度下的解码吞吐量提升8.6倍,256k超长上下文场景下可达19倍,显存占用减少60%。 这意味着企业可以用相同算力处理更大规模任务,或以更低成本实现相近效果,对中小企业尤其具有实用价值。 三、多语言和多模态能力增强 通义千问3.5的语言支持范围从119种扩展到201种,词表规模从15万增至25万,多数语言的编解码效率提升10%-60%,有助于提升非英语场景下的表现。 在多模态上,通过早期文本与视觉信息的融合训练,模型在视觉理解、视频分析等任务上的表现优于前代产品,体现出更广泛的理解能力。 四、开源策略体现产业趋势 阿里云选择将3970亿参数的旗舰版本开源,此决策反映了当前大模型产业的发展逻辑。开源有助于扩大开发者生态,促进技术社区和商业生态的形成,也表明国内企业在技术积累上已具备一定实力,愿意参与全球竞争。这与国家推动AI技术开放共享的政策方向一致。 五、布局智能体发展方向 阿里云表示,通义千问3.5下一阶段将重点转向系统整合,目标是构建具有持久记忆的智能体系统,探索真实世界交互接口和自我改进机制。这意味着行业竞争焦点正从参数规模转向实际场景应用能力,智能体系统将成为未来技术突破的关键。
阿里云新模型的发布展示了国内科技实力,也反映了AI技术的发展趋势。在追求技术突破的同时,如何让技术更好地服务实际需求,仍是行业需要持续探索的方向。