近日, DeepSeek 发布了其最新的 R1推理 AI 模型更新版,该模型在多个数学和编程基准测试中展现出色性能。然而,DeepSeek 并未透露其模型的训练数据来源,令一些 AI 研究人员产生了疑问,并推测该模型可能部分基于 Google 的 Gemini AI 系列进行训练。
墨尔本的开发者 Sam Paeach 声称,他发现 DeepSeek 的 R1-0528模型在用词和表达方式上与 Google Gemini2.5Pro 有许多相似之处。虽然这并不能作为直接证据,但另一位开发者 —— 匿名的 SpeechMap 项目创始人 —— 也提到,DeepSeek 模型在推理过程中产生的 “思维轨迹” 与 Gemini 的表现如出一辙。这一发现再次引发了关于 DeepSeek 是否在训练中使用了竞争对手数据的讨论。
图源备注:图片由AI生成,图片授权服务商Midjourney
早在去年12月,DeepSeek 就曾因其 V3模型频繁将自己标识为 OpenAI 的 ChatGPT 而受到指责,这一行为暗示该模型可能是通过 ChatGPT 的聊天记录进行训练的。今年早些时候,OpenAI 向媒体透露,发现了 DeepSeek 与 “数据蒸馏” 技术相关的证据。“数据蒸馏” 是一种通过从大型模型中提取信息来训练新模型的方法。彭博社报道称,OpenAI 的合作伙伴微软在2024年底发现,很多数据是通过 OpenAI 开发者账户泄露的,这些账户可能与 DeepSeek 有关。
尽管 “提炼” 技术在 AI 界并不罕见,但 OpenAI 明确规定禁止用户使用其模型输出构建竞争产品。需要注意的是,由于开放网络中充斥着大量低质量内容,许多 AI 模型在训练中往往会错误地模仿彼此的用词和措辞。这使得深度剖析训练数据源变得更加复杂。
人工智能专家 Nathan Lambert 认为,DeepSeek 使用 Google Gemini 的数据进行训练并非不可能。他提到,DeepSeek 拥有充足的资金,能够利用市面上最佳的 API 模型生成合成数据。为了防止数据被提炼,AI 公司们也在不断加强安全措施。例如,OpenAI 已开始要求各组织完成身份验证才能访问某些高级模型,而 Google 也在努力提高其 AI Studio 平台的安全性,限制对模型生成轨迹的访问。