Meta AI 知法犯法? 哈利波特42%内容被 Llama吞下，面临巨额诉讼

近期一项由斯坦福大学、康乃尔大学及西维吉尼亚大学研究人员发表的论文显示，Meta 的 Llama3.1AI 模型能够逐字重现大量受版权保护的书籍内容，这为这家科技巨头带来了潜在的巨额法律风险。研究指出，Llama3.170B 模型在测试中能够重现《哈利波特:神秘的魔法石》高达42% 的文本内容，远超第一代 Llama 模型的4.4%。

人工智能模型，如 OpenAI 的 ChatGPT 和 Meta 的 Llama，通常通过海量数据训练，旨在识别并生成新的模式。然而，该研究的关键发现是，Meta 的 Llama 模型似乎并非仅仅学习语言模式，而是能够近乎“完整地记住”某些书籍，例如《哈利波特》和《1984》。斯坦福技术法律专家马克·莱姆利表示，如果 AI 能够生成其训练数据的完整摘录，那么它就不再被视为基于学习的“变革性作品”，而更像是一个包含版权作品的“巨型 .ZIP 文件”，用户可以随意复制。

版权之争新焦点:逐字重现 VS. 学习模式

在测试 OpenAI、DeepSeek 和微软等公司的 AI 模型时，莱姆利的研究团队发现 Meta 的 Llama 是唯一一款能够准确复述书籍内容的模型。除了《哈利波特》系列的首部作品，该模型还展现出对 F·斯科特·菲茨杰拉德的《了不起的盖茨比》和乔治·奥威尔的《1984》的显著记忆能力。

Meta 使用受版权保护的材料训练 AI 备受争议。该公司目前正面临多起版权诉讼，其中包括知名作家（如喜剧演员莎拉·西尔弗曼）提起的诉讼，指控 Meta 的模型基于非法获取的“Books3”数据集进行训练，该数据集包含近20万份受版权保护的出版物。据法庭文件显示，一名 Meta 工程师在下载种子文件时曾表示“用(Meta 旗下的)公司笔记本电脑下载种子，感觉不对劲”。

律师莱姆利估计，如果“Books3”数据集中的“仅有”3% 的内容被认定为侵权，Meta 可能面临近10亿美元的法定赔偿，这还不包括利润分成。如果侵权比例更高，Meta 潜在的法律责任将更为严峻。

法律专家立场转变，Meta 拒绝回应

值得注意的是，莱姆利本人曾代表 Meta 在之前的生成式 AI 版权诉讼（Kadrey v Meta Platforms）中进行辩护。然而，随着他领导了这项关于 AI 模型记忆和重现受版权内容的研究，他于今年早些时候宣布不再代理 Meta，以抗议该公司及其首席执行官马克·扎克伯格的某些行为。尽管他先前认为 Meta 应该胜诉，但新研究结果似乎已改变了他的看法。

Meta 对莱姆利的最新研究发现拒绝置评。

Meta AI 知法犯法? 哈利波特42%内容被 Llama吞下，面临巨额诉讼

相关推荐

钉钉“悟空”获全球首个AI管理体系国际认证，AI治理迈入标准化新阶段

OpenAI Codex个人用户用量暴增 137 倍，AI编程已走出程序员圈子

小鹏机器人架构迎来重大调整，何小鹏亲自下场直管促量产

法国 AI 初创企业 Mistral AI 发布 OCR4模型:覆盖170种语言，交互体验更人性化

Mistral AI发布OCR4 模型：支持 170 种语言，输出质量超越GPT与Gemini