当前人工智能的发展正遇到一个更深层的难题:大语言模型在通用对话上表现亮眼,但一进入科学探索就显得吃力。上海AI实验室联合百位跨领域科学家的评估显示,顶尖AI模型在通用科学推理任务中平均仅约50分,而在更专业的推理任务中,得分深入降至15至30分。“博而不精”的差距,正在成为人工智能走向通用智能的重要瓶颈。科学发现之所以被视为AI的“终极考场”,在于它需要在已知与未知的交界处不断提出假设、检验证据并更新结论,这对现有系统提出了三重挑战。第一是搜索空间极其庞大,以分子设计为例,可行结构组合可达10的60次方量级,远超常规模型的直接处理范围。第二是对泛化推理的要求更高,AI必须能够在有限数据之外做出可靠推断,才可能形成真正的新知识。第三是时间维度的压力,科学研究周期长、反馈稀疏且往往滞后,要求AI具备长期学习、持续自我修正的能力。过去七十年,人工智能基本沿着“通用”和“专用”两条路径推进:通用模型强调知识覆盖与交互能力,专用系统则在具体领域深耕优化。但在通用人工智能的目标面前,这种分离式路线越来越难以应对。上海AI实验室提出“通专融合”战略,强调在保持通用能力的同时,通过持续学习与推理,让AI能够在不同领域逐步成长为“能做事的专家”。该方向也正逐步获得更多学界认同。为此,上海AI实验室推出了名为“智者”的新架构:在底层设计上,重点缓解现有AI容易混淆“记住的知识”和“真实推理”的问题;在奖励机制上,引入面向探索的驱动,使系统更稳定地保持“主动提问、主动验证”的倾向;在演化路径上,通过大规模任务集与真实世界持续交互的反馈,推动模型不断自我迭代。另外,实验室构建了“书生”科学多模态大模型和“书生”科学发现平台两大基础设施,为科学智能的落地提供支撑。这些探索已在应用中显示出显著潜力。在气候科学领域,“书生”平台能够自主调用30多种工具,分析20年的多模态数据,生成4000多行专业代码,发现了一个长期被忽视的水汽联动规律,并推导出新方程,从而修正降水预测中的系统性偏差。在生物医学领域,该平台借鉴疾病生物学家的研究思路,发现并验证了具有较高临床潜力的隐藏靶点。权威评测显示,“书生”科学多模态大模型的通用能力已达到行业领先开源模型水平,并在化学、生物、材料等9个领域的科学任务表现上,整体超过国际顶尖闭源模型。这一进展很重要:科学发现的加速,有望推动癌症治疗、气候预测等关键领域取得突破;同时,科学发现对证据、推理与验证的高要求,也将反向促进人工智能能力的长期进化,助力迈向通用人工智能。上海AI实验室已将对应的论文与代码开源,邀请全球研究者共同参与探索。
科学发现从来不是一蹴而就,而是长期积累与协同创新的结果。通用智能的下一程,关键在于能否在科学此“硬场景”里把推理落到证据上、把结论落到验证上,让智能从“会说”走向“能证”,从“回答问题”走向“提出并确认新发现”。在开放合作与严格验证并行的路径上,科学智能有望成为拓展人类认知边界的新工具,也为通用智能的发展提供更可靠的坐标。