停更 13 个月后,前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔在个人博客Lil'Log上发表了一篇逾万字的技术长文《Scaling Laws, Carefully》,自称"迟到了三年多"。这篇文章将支撑大模型行业数百亿美元投入的Scaling Laws从头拆解一遍,得出的核心结论让不少从业者难以平静:当前模型的数据配比,很可能从一开始就走偏了。
从Kaplan到Chinchilla:一场被写反的行业共识
故事始于 2020 年,OpenAI研究员Jared Kaplan发表论文,提出在log-log坐标上,训练损失随参数量、数据量和算力呈漂亮幂律下降——模型规模应比数据增长更快。GPT- 3 正是这一结论的产物: 1750 亿参数,训练数据却仅 3000 亿token。
两年后,DeepMind团队以更大规模实验推翻了这一结论。他们将 2800 亿参数的Gopher与 700 亿参数的Chinchilla同算力对比,后者参数仅为前者的四分之一,但训练数据是四倍多——结果Chinchilla在所有评测上碾压Gopher。Chinchilla揭示的规律是参数与数据应等比增长,最佳比例约为1:20,而非Kaplan所说的参数飙涨、数据慢跟。这也解释了为何后来Llama、DeepSeek等模型参数不敌GPT-3,性能却远胜于它。
翁荔分析了Kaplan的偏差根源:实验最大模型仅 15 亿参数,小规模区间的拟合差异外推至万亿级别后演变为系统性错误;同时Kaplan排除了embedding层参数计数,而这一口径在小模型上影响极大。更令人意外的是, 2024 年Epoch AI团队逐行复现Chinchilla拟合代码时发现两个bug——损失函数取均值而非求和导致优化器误判收敛、核心幂律指数被四舍五入至两位数产生虚假精度——修正后的数据再次印证了等比增长的结论。
数据墙将至,重复训练边际价值指数衰减
上述讨论均以"训练数据无限且不重复"为前提,但高质量文本数据预计 2026 至 2028 年即告枯竭。研究显示,重复数据的有效价值呈指数衰减,每多训练一轮边际收益急剧递减。翁荔在文中嵌入的交互式模拟器直观展示了工程细节的敏感性——仅调整拟合精度或噪声水平,外推预测就可能差出十万八千里。
翁荔最终写下这样一句三年来凝练的判断:Scaling Laws不是物理定律,它是对工程细节高度敏感的观测性指南。
