拖更三年万字长文，前OpenAI安全VP翁荔拆解Scaling Laws：你的模型可能喂错了数据

停更 13 个月后，前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔在个人博客Lil'Log上发表了一篇逾万字的技术长文《Scaling Laws， Carefully》，自称"迟到了三年多"。这篇文章将支撑大模型行业数百亿美元投入的Scaling Laws从头拆解一遍，得出的核心结论让不少从业者难以平静：当前模型的数据配比，很可能从一开始就走偏了。

从Kaplan到Chinchilla：一场被写反的行业共识

故事始于 2020 年，OpenAI研究员Jared Kaplan发表论文，提出在log-log坐标上，训练损失随参数量、数据量和算力呈漂亮幂律下降——模型规模应比数据增长更快。GPT- 3 正是这一结论的产物： 1750 亿参数，训练数据却仅 3000 亿token。

两年后，DeepMind团队以更大规模实验推翻了这一结论。他们将 2800 亿参数的Gopher与 700 亿参数的Chinchilla同算力对比，后者参数仅为前者的四分之一，但训练数据是四倍多——结果Chinchilla在所有评测上碾压Gopher。Chinchilla揭示的规律是参数与数据应等比增长，最佳比例约为1:20，而非Kaplan所说的参数飙涨、数据慢跟。这也解释了为何后来Llama、DeepSeek等模型参数不敌GPT-3，性能却远胜于它。

翁荔分析了Kaplan的偏差根源：实验最大模型仅 15 亿参数，小规模区间的拟合差异外推至万亿级别后演变为系统性错误；同时Kaplan排除了embedding层参数计数，而这一口径在小模型上影响极大。更令人意外的是， 2024 年Epoch AI团队逐行复现Chinchilla拟合代码时发现两个bug——损失函数取均值而非求和导致优化器误判收敛、核心幂律指数被四舍五入至两位数产生虚假精度——修正后的数据再次印证了等比增长的结论。

数据墙将至，重复训练边际价值指数衰减

上述讨论均以"训练数据无限且不重复"为前提，但高质量文本数据预计 2026 至 2028 年即告枯竭。研究显示，重复数据的有效价值呈指数衰减，每多训练一轮边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性——仅调整拟合精度或噪声水平，外推预测就可能差出十万八千里。

翁荔最终写下这样一句三年来凝练的判断：Scaling Laws不是物理定律，它是对工程细节高度敏感的观测性指南。

拖更三年万字长文，前OpenAI安全VP翁荔拆解Scaling Laws：你的模型可能喂错了数据

相关推荐

OpenAI Codex个人用户用量暴增 137 倍，AI编程已走出程序员圈子

美国政府要求OpenAI分阶段发布GPT-5.6，监管施压成常态

AGI前夜的兵马跃进:DeepSeek全线部门扩容翻倍，大模型顶尖人才争夺战再升级

性能提升 475 倍！富士通推出PHOTON新架构，剑指AI算力瓶颈

坚守万亿美元底线，OpenAI被曝拟将IPO推迟至 2027 年