小米披露1T模型MiMo-V2-Pro训练细节：动用数千卡，无职级无deadline

币界网消息，小米大模型团队负责人罗福莉在首次深度访谈中披露，MiMo-V2-Pro模型基座总参数量达1T，训练动用数千张GPU。她认为，1T规模是目前实现接近Claude Opus 4.6水平、拿到下阶段agent竞争入场券的底线。技术层面，Pro版将全局注意力与滑动窗口注意力的比例推向7:1的极致稀疏比，在扩大参数量时控制了长文本的推理成本，并沿用MTP（多Token预测）架构利用富余算力加速推理。管理层面，百人规模的MiMo团队中只有三四十人直接投入核心迭代，团队没有设立职级，也没有明确的小组划分和交付deadline。遇到训练loss跳变等不稳定的数值问题时，团队会选择直接停训排查，哪怕停机一两周、耗费数百万算力成本。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

小米披露1T模型MiMo-V2-Pro训练细节：动用数千卡，无职级无deadline

相关文章阅读