Odyssey：将强化学习引入世界模型训练

2026-05-13 19:07:50 分类：资讯 | 知识库 | 快讯

币界网消息，Odyssey公司将强化学习（RLHF）引入视觉模型训练，发布了prowl框架，首次将RL引入世界模型的训练循环。该框架通过派遣RL智能体在游戏环境中探索，寻找模型在几何、运动、视觉一致性和动作响应上的失败案例，并将这些bug打包成训练数据反哺模型。prowl设计了优先级对抗轨迹缓冲区（PAT），当模型修复简单bug后，PAT会自动推送更难的失败案例。团队在Minecraft的Minerl环境中验证了prowl，量化结果显示，prowl相比预训练基线将动作跟随误差降低了12.6%，在最难的前10%片段上降幅扩大到20.9%。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。