阿里巴巴集团日前宣布推出千问系列最新旗舰产品Qwen3-Max-Thinking推理模型,显示国内大模型关键性能指标上取得新进展;该模型在多项国际基准测试中取得领先成绩,整体表现与国际顶尖模型接近,反映了国内人工智能技术的最新水平。 从技术规模看,Qwen3-Max-Thinking在参数规模上更扩展:总参数量超过一万亿,预训练数据量达到36万亿Tokens。大规模参数与数据投入为能力提升提供了基础。在此之上,阿里通义团队采用更大规模的强化学习后训练,优化模型的综合能力。 在性能评测上,新模型涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个主流基准测试中表现突出。尤其在科学知识、数学推理和代码编程等领域,Qwen3-Max-Thinking取得多项全球领先成绩,整体能力可与GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro等模型对标。 推理机制创新是本次发布的亮点之一。不同于业界常见的简单并行推理路径,千问新模型引入测试时扩展机制:对前期推理结果进行“经验提取”式精炼,并在同一上下文中进行多轮自我迭代,以更高效的方式完成推理计算。该设计在提升推理效果的同时,也兼顾计算成本。在启用工具的“人类最后的测试”评测中,千问得分58.3,高于GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,刷新该评测的当前最高纪录。 面向智能体应用场景,新模型重点强化了Agent能力。通义团队在完成工具使用微调后,又在大量多样化任务上开展基于规则奖励与模型奖励的联合强化学习训练,使Qwen3-Max-Thinking具备更强的工具调用与任务执行能力,可自主选择搜索、个性化记忆和代码解释器等功能,为用户提供更接近专业水准的解答。同时,模型幻觉现象也得到明显缓解,有助于在真实复杂任务中提升可用性。 在应用推广上,阿里继续采取开放策略。开发者可在QwenChat平台免费体验新模型;企业用户可通过阿里云百炼获取API服务;普通用户可通过千问PC端和网页端试用。千问APP也将接入新模型,覆盖更多使用场景,方便用户免费体验最新能力。这种开放方式有助于推动技术落地与生态建设。
大模型能力的跃迁不只在于刷新榜单,更在于把推理与执行连接起来,让技术进入生产流程,转化为可持续的效率提升。面向智能体时代,能在效果、成本与可靠性之间取得更稳平衡,并以制度化的评测与治理体系保障应用安全的企业,更可能在新一轮产业变革中赢得主动。