DeepMind研究员推测DeepSeekV4延期原因：训练数据翻倍至33T引发严重不稳定

币界网消息，DeepMind研究员Susan Zhang推测，DeepSeek V4的延期原因是训练数据翻倍至33T引发的严重不稳定性。根据V4技术报告，V4-Flash和V4-Pro分别在32T和33T tokens上预训练，较V3的约15T tokens翻倍。报告坦承训练过程中遭遇了显著的不稳定性挑战，loss spike（训练损失突然飙升）反复出现，根源在于MOE层的异常值，路由机制本身还会加剧这些异常值，简单回滚无法根治。DeepSeek找到两个方案并已应用于实际训练：预见性路由（anticipatory routing），将路由索引计算与主干网络更新解耦，仅在检测到loss spike时自动触发，额外开销约20%Swiglu clamping，将激活值钳位到固定范围直接压制异常值。报告称两者均有效，但承认底层原理尚未充分理解。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

DeepMind研究员推测DeepSeekV4延期原因：训练数据翻倍至33T引发严重不稳定

相关文章阅读