近期一项由斯坦福大学、康乃尔大学及西维吉尼亚大学研究人员发表的论文显示,Meta 的 Llama3.1AI 模型能够逐字重现大量受版权保护的书籍内容,这为这家科技巨头带来了潜在的巨额法律风险。研究指出,Llama3.170B 模型在测试中能够重现《哈利波特:神秘的魔法石》高达42% 的文本内容,远超第一代 Llama 模型的4.4%。

人工智能模型,如 OpenAI 的 ChatGPT 和 Meta 的 Llama,通常通过海量数据训练,旨在识别并生成新的模式。然而,该研究的关键发现是,Meta 的 Llama 模型似乎并非仅仅学习语言模式,而是能够近乎“完整地记住”某些书籍,例如《哈利波特》和《1984》。斯坦福技术法律专家马克·莱姆利表示,如果 AI 能够生成其训练数据的完整摘录,那么它就不再被视为基于学习的“变革性作品”,而更像是一个包含版权作品的“巨型 .ZIP 文件”,用户可以随意复制。

版权

 版权之争新焦点:逐字重现 VS. 学习模式

在测试 OpenAI、DeepSeek 和微软等公司的 AI 模型时,莱姆利的研究团队发现 Meta 的 Llama 是唯一一款能够准确复述书籍内容的模型。除了《哈利波特》系列的首部作品,该模型还展现出对 F·斯科特·菲茨杰拉德的《了不起的盖茨比》和乔治·奥威尔的《1984》的显著记忆能力。

Meta 使用受版权保护的材料训练 AI 备受争议。该公司目前正面临多起版权诉讼,其中包括知名作家(如喜剧演员莎拉·西尔弗曼)提起的诉讼,指控 Meta 的模型基于非法获取的“Books3”数据集进行训练,该数据集包含近20万份受版权保护的出版物。据法庭文件显示,一名 Meta 工程师在下载种子文件时曾表示“用(Meta 旗下的)公司笔记本电脑下载种子,感觉不对劲”。

律师莱姆利估计,如果“Books3”数据集中的“仅有”3% 的内容被认定为侵权,Meta 可能面临近10亿美元的法定赔偿,这还不包括利润分成。如果侵权比例更高,Meta 潜在的法律责任将更为严峻。

法律专家立场转变,Meta 拒绝回应

值得注意的是,莱姆利本人曾代表 Meta 在之前的生成式 AI 版权诉讼(Kadrey v Meta Platforms)中进行辩护。然而,随着他领导了这项关于 AI 模型记忆和重现受版权内容的研究,他于今年早些时候宣布不再代理 Meta,以抗议该公司及其首席执行官马克·扎克伯格的某些行为。尽管他先前认为 Meta 应该胜诉,但新研究结果似乎已改变了他的看法。

Meta 对莱姆利的最新研究发现拒绝置评。