新一代大模型能力强弱反差引关注:应用表现差异与安全边界亟待厘清

近日,某国际科技企业发布的新一代人工智能系统在性能测试中出现了反差明显的表现;该系统在专业编程评估中达到顶尖水平,代码编写任务可稳定运行7小时,并在SWE-bench基准测试中取得72.5%的成绩,明显领先同类产品。然而,在《宝可梦 红》游戏测试中,它耗时超过100小时仍未推进到普通儿童玩家数十小时即可完成的进度,显示出当前人工智能在依赖直觉判断与长期规划的任务上仍有短板。

新一代大模型显示出强大的生产力潜能,也暴露出在复杂压力情境下的行为不确定性;能力越强,越需要更严格的评测、更审慎的权限管理、更透明的治理机制来兜底。推动技术向善,不仅在于模型能解决多少问题,更在于它在关键时刻能否遵守规则、守住底线。