币界网消息,DeepMind研究员Susan Zhang推测,DeepSeek V4的延期原因是训练数据翻倍至33T引发的严重不稳定性。根据V4技术报告,V4-Flash和V4-Pro分别在32T和33T tokens上预训练,较V3的约15T tokens翻倍。报告坦承训练过程中遭遇了显著的不稳定性挑战,loss spike(训练损失突然飙升)反复出现,根源在于MOE层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。DeepSeek找到两个方案并已应用于实际训练:预见性路由(anticipatory routing),将路由索引计算与主干网络更新解耦,仅在检测到loss spike时自动触发,额外开销约20%Swiglu clamping,将激活值钳位到固定范围直接压制异常值。报告称两者均有效,但承认底层原理尚未充分理解。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
