前阵子,IT之家搞了个大新闻,说顶尖的人工智能模型要是给个提示词,就能把畅销小说的内容一字不差地生出来。这事儿可真是把AI行业的底裤都给扒开了,以前他们都号称自己的系统不存受版权保护的作品,现在这说法显然站不住脚了。研究数据特别吓人,像OpenAI、谷歌、Meta、Anthropic和xAI这些大模型,训练数据的记忆量比大家想的大多了。专家们都在提醒呢,这种“记忆”能力一旦真成了常态,全球AI企业应对那些版权官司的时候,麻烦可就大了。以前他们的核心抗辩理由是“只是学习”,现在这理由直接被动摇了。 伦敦帝国理工学院的教授德蒙茹瓦也说,越来越多证据表明模型记忆这事儿比大家以前想的普遍多了。以前AI企业死活不承认有记忆行为。就拿2023年谷歌写给美国版权局的信来说,当时他们可是信誓旦旦地表示:“模型本身并不存储训练数据副本。”但实际情况呢?完全不是那么回事儿。斯坦福和耶鲁的研究人员搞了个实验,对着Anthropic的Claude 3.7 Sonnet来个“越狱”,结果把整本小说的原文都给扒出来了。谷歌Gemini 2.5复现了《哈利·波特》76.8%的内容,xAI的Grok 3也搞出了70.3%的相似率。参与这研究的耶鲁研究员A·费德·库珀直言不讳:“模型还能记住整段文本,这真挺意外的。” 至于为啥模型会记住这些内容?研究人员到现在也没搞明白。这要是在医疗和教育这些领域引发数据泄露,那可真是个大灾难。法律专家已经急了,这可能让AI企业面临巨额的版权侵权责任。英国品诚梅森律师事务所的戴维斯就说了:“这些发现可能会让那些主张AI模型不存储、不复制版权作品的观点没法成立。”现在这就是个关键因素了。 记得去年美国有个案子裁定Anthropic使用受版权内容训练模型算合理使用,但只要涉及存储盗版作品那就是铁定的侵权了。当时Anthropic赔了15亿美元才摆平了。德国那边也有个判决说OpenAI因为模型记忆歌词侵权了。Husch Blackwell律所的特尔舍也觉得这种情况显然构成版权侵权。Anthropic那边倒是辩解说斯坦福和耶鲁研究里用的越狱技术对普通用户不实用。 德蒙茹瓦还特意提到:“AI实验室设置防护机制防止训练数据被提取”,这本身就说明了问题。大家还都在关注Meta的Llama这些开源模型会有多少记忆呢?