大模型时代,断言的效力是不是已经荡然无存?AI 系统测试的架构正迎来一场革命性的剧变。如果仔细审视传统软件测试,一个根深蒂固的观念就是:输入给定,输出就确定,断言自然成立。但当面对大模型系统、RAG应用和Agent系统时,这种逻辑显然受到了挑战。问题不在于断言是否错误,而是系统本身已不再是确定性的。这种改变让测试工程不得不经历一场结构性的蜕变。 传统软件测试凭借明确的规则和可预测的输出而运行顺畅,它的结构清晰可见:输入结构化,规则可追溯,输出可预测,断言也十分明确。测试人员的核心任务便是验证这些规则是否得到正确实现。 而如今企业系统频繁接入大模型能力、RAG知识检索、Agent决策逻辑和MCP工具调用。测试对象不再是单纯的规则系统,而是规则系统、概率模型、检索系统以及工具执行链路的复杂组合。测试复杂度的增加不再是简单的数量级提升,而是结构性的升级。 AI 系统的特性迥异于传统软件:其输出源于概率分布,相同的输入可能产生多种结果,推理路径往往无法解释。这并不是异常现象,恰恰是设计本身的一部分。 这种设计上的差异直接导致了传统断言思维的失效。在传统系统中,“assert actual == expected” 是一条金科玉律;然而在大模型系统里,“expected”可能不是唯一解。例如输入“写一首唐诗”,测试难点不仅在于内容是否符合体裁、押韵和平仄,还在于它是否真实存在。 因此,断言逻辑已不再局限于“等于判断”,而是转向了“质量判断”。这就构成了从功能验证到质量评估的根本转变。为了应对这一变化,测试人员需要建立新的指标体系来衡量系统质量,包括准确率(Accuracy)、一致率(Consistency Rate)、幻觉率(Hallucination Rate)等。 从工程视角看,AI系统测试可以分为三层:功能层关注接口可用性与参数传递;模型能力层考察意图识别准确率与RAG命中率;安全与稳定层则涉及Prompt注入测试与合规性验证。这三层分别需要不同的方法论和工具支持。 大模型时代断言没有消失,而是从“相等判断”转变为“质量评估”。测试对象从规则系统变成了概率系统。如果测试方法不随之升级,得出的结论必然失真。 未来最具竞争力的测试工程师不是最会写断言的人,而是最理解概率系统结构的人。他们需要具备构建数据集的能力、设计评测框架的能力、建模指标的能力以及识别风险的能力。这不是工具的升级而是思维方式的转变。