- 去掉"再受拷问"这样较为生硬的表述

来自斯坦福大学与耶鲁大学的最新研究提供了令人警惕的证据:全球顶尖人工智能模型对训练数据的记忆程度远超业界此前认知;研究人员通过有针对性的提示指令,成功使OpenAI的GPT系列、谷歌的Gemini 2.5、xAI的Grok 3以及Anthropic的Claude等多款主流大语言模型,输出了《权力的游戏》《饥饿游戏》《霍比特人》等13部文学作品的数千字篇幅。其中,谷歌Gemini 2.5通过补全书中句子的方式,高精度复现了《哈利波特与魔法石》超过75%的内容;xAI的Grok 3亦生成了逾70%的原文;研究人员甚至通过绕过安全防护,从Anthropic的Claude模型中提取了几乎完整的小说原文。 这些研究成果对AI产业长期以来的立场构成了直接挑战。美国版权局2023年的官方回应中,谷歌明确声称其模型"本身并不存储训练数据副本,无论文本、图像或其他格式"。类似观点已成为AI企业应对全球数十起版权诉讼的核心防线。AI行业广泛主张,使用受版权书籍训练模型属于"合理使用"范畴,因为该技术将原作品转化为意义在于新的社会意义的内容。然而,新的实证研究直接瓦解了此论点的基础假设。 从技术机制看,研究者尚未完全解释大语言模型记忆训练数据的原理。伦敦帝国理工学院应用数学与计算机科学教授伊夫-亚历山大·德蒙茹瓦指出,越来越多证据表明,模型的记忆现象比此前认为的更为普遍和深层次。这一发现在于,即使是设置了更严格安全防护的闭源模型,也无法从根本上避免大规模存储和复现训练数据的问题。这打破了学术界和产业界关于开源模型与闭源模型在数据记忆上存本质差异的认知。 这一发现在全球法律诉讼中引起了剧烈反响。美国一起重要案例中,法院虽然认定AI企业使用部分受版权内容训练模型可被视为"合理使用",但同时明确指出,存储盗版作品"本质上、无可挽回地构成版权侵权",最终该企业不得不以15亿美元的巨额赔偿达成和解。德国在去年11月的判决中认定,OpenAI因模型记忆歌词构成版权侵犯,该案由词曲作者及出版商协会GEMA提起,已被视为欧盟的标志性判例。美国律师事务所合伙人鲁迪·特尔舍直言,无需绕过安全机制即可完整复制整部著作"显然构成版权侵权",关键问题在于这类情况的普遍程度。 版权问题之外,大模型的记忆特性还隐含了更广泛的社会风险。在医疗、教育等领域,训练数据泄露可能引发患者隐私、学生个人信息等重大保密问题。伦敦品诚梅森律师事务所知识产权合伙人塞里斯·温·戴维斯警告,这些研究发现"可能直接挑战那些声称AI模型不存储、不复制任何受保护作品的观点"。法律专家普遍认为,此类发现可能使AI企业面临更加严苛的版权侵权责任追究,并迫使其调整模型训练方式、重新评估研发成本。 面对这一挑战,AI产业面临多上的压力和调整需求。一方面,企业需要重新审视训练数据的获取与使用方式,探索获得更广泛的版权方授权的可行路径。另一方面,监管部门和法律框架需要做出相应的更新和完善,以平衡AI创新发展与知识产权保护之间的关系。从国际层面看,不同司法管辖区已表现出差异化的态度和判决标准,这对全球AI企业的合规成本和商业模式都提出了新的考验。

当技术创新与既有规则产生碰撞时,往往预示着重大的产业变革契机。此次关于AI模型记忆能力的争议揭示了一个根本命题:在追求技术进步的同时,如何构建与之匹配的责任框架和伦理准则。这不仅需要科技企业的自律革新,更需要学界、法律界和监管机构的协同探索。面向未来的人工智能发展之路,必须在创新活力与社会责任之间找到动态平衡点。