把顶尖的AI模型拿来一试,居然能把畅销书里的字一个不落全给抠出来。这就等于把整个行业赖以为生的“合理使用”抗辩理由给彻底推翻了。最新的研究表明,OpenAI、谷歌这些大块头的记忆力远超大家的想象,甚至能把《哈利波特》原文的76.8%给完美还原出来。专家赶紧出来提醒,这个现象很可能会彻底改写全球AI版权官司的打法。 AI智能生成的消息显示,全世界最厉害的那些模型,只要你给个提示词,立马就能吐出跟原著几乎一模一样的字。这下可好了,那些号称自家系统里根本不放受版权保护内容的说法,算是彻底被打脸了。最近好几项研究都证明,来自OpenAI、谷歌、Meta、Anthropic还有xAI的那些大家伙儿,脑子里存的训练数据比之前大家以为的多多了。法律专家跟《金融时报》说了,这种“过目不忘”的本事,很可能会在全球几十起版权官司里掀起轩然大波。 伦敦帝国理工学院的教授伊夫-亚历山大·德蒙茹瓦讲了一句很实在的话:越来越多的证据摆在这里,证明模型记住的东西比咱们以前想的普遍多了。以前的AI公司死活不认自己的模型会记住东西。你看2023年谷歌给美国版权局写信是咋说的:“机器本身根本不存训练数据的副本,不管是文字、图片还是别的啥格式。” 它们当时还理直气壮地说,用这些有版权的书来教模型是“合理使用”,因为这技术能把原本的东西变成完全不一样的新东西。 但上个月斯坦福和耶鲁的研究人员搞了个大动作。他们通过特别的提示词硬让OpenAI、谷歌、Anthropic还有xAI的大语言模型输出了《权力的游戏》、《饥饿游戏》、《霍比特人》等13本书里的几千字内容。你看谷歌的Gemini 2.5,只要让它接着补全句子就能原样写出《哈利·波特与魔法石》的76.8%;xAI的Grok 3也不示弱,硬生生生成了70.3%。更绝的是他们还“越狱”突破了Anthropic的Claude 3.7 Sonnet的防护机制,几乎把整本小说都给扒了出来。 这个结论是建立在去年那项研究的基础上的。那次发现Meta的Llama等开源模型,也会死死记住训练数据里某些特定书的大量内容。之前大家都没想明白,那些安全防护做得更严实、本来是为了不让它乱生成不当内容的闭源模型,到底会不会也出现这种大规模记忆的情况? 耶鲁大学研究员A·费德·库珀在这个研究里就很吃惊:“明明都设了防护机制了,可模型还是能记住一整段话。” 现在的问题是科学家们还没搞清楚大语言模型为啥要记住这些数据,也不知道它们到底会把多少训练数据给夹带出来。这种记忆的特性还会给医疗、教育这些其他领域带来很大的隐患,万一数据泄露了可就麻烦了。 法律专家担心这事会让AI公司摊上大麻烦,直接承担起版权侵权的责任。英国品诚梅森律师事务所的人说:“这些发现很可能会挑战那些声称AI模型不存储、不复制任何版权作品的观点。” 到底记不记得住训练数据,现在已经成了打官司的关键所在。美国去年有个法院判了Anthropic用受版权的东西来训练模型算合理使用,因为它有“转化性”;可它同时也说储存盗版作品是实打实的侵权。结果Anthropic花了15亿美元(约合103.74亿元人民币)才把这事儿给摆平了。 德国那边也有一个判决很典型。OpenAI因为模型记住了歌词而被认定侵权,这案子是由德国的词曲作者协会GEMA提出来的。 美国Husch Blackwell律师事务所的鲁迪·特尔舍也发表了看法:“不越狱就能把一整本书给复制出来,这显然构成侵权。”但现在的问题是这种情况到底有多普遍,能不能让AI模型也跟着赔一赔。 Anthropic回应说斯坦福和耶鲁研究里用的那种越狱技术其实对普通人来说没啥用,搞出这些文本的成本比直接买本书还高。他们还解释说自己的模型不存特定数据集的副本,只是学了一些词汇和字符之间的模式和关系。 xAI、OpenAI和谷歌都没给置评的请求做回应。 帝国理工的德蒙茹瓦教授最后点了句题:AI实验室之所以设置防护机制来防止数据被提取,这本身就说明他们心里门儿清。