专家团队用Python等工具,对GPT-5及后续的AI大模型进行了六大领域的测试。当对话不再是一次完整的拼接,而是被拆分到多条消息中的分片式交流时,它们的表现就会明显变差。THE DECODER的这份报告指出,这类跨多轮任务原本就很难处理,现在的问题变得更严重了。原始研究数据显示,性能下降的幅度非常大,最高能达到39%。IT之家关注到了这个情况,把相关信息整理了出来给大家看。研究员菲利普·拉班(Philippe Laban)和他的同事们发现了一个规律:在简单的用户模拟场景下,性能降幅大概在33%左右;而要是在Python这类任务上,情况就相对好一些,大部分模型仅损失了10%到20%。但实际使用时用户的需求往往更复杂,测试中看到的损失只是个开头,一旦中途变卦想改主意,下降的幅度可能会变得更吓人。温度值这类常见的微调手段完全不管用,专家们给出了很具体的建议:遇到异常情况就重启对话,最好先让AI把所有请求总结一遍,再拿这份总结当新起点去重新开始交流。