微软开源Phi-Ground：40亿参数点击准度赢了Operator和Claude

币界网消息，微软开源了Phi-Ground模型家族，专门解决AI操控电脑时「该点屏幕哪里」的问题。开源的40亿参数版本在Showdown基准测试中点击准确率超过了OpenAI的Operator和Claude，并在Screenspot-Pro等五项评测中拿下百亿参数以下的全部第一。团队用超过4000万条数据进行了大规模验证，发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。有效的做法是将坐标直接当普通数字输出，如「523, 417」。团队还发现强化学习对纯视觉任务也有用，具体做法是让模型对同一张图做多次点击预测，挑出点对了和点错了的结果进行对比训练。针对4K高分屏上按钮太小的问题，团队在训练时将截图按比例缩小后贴到一张大白底画布上，模拟高分屏下元素极小的真实场景。这一招在Photoshop等复杂专业软件上效果尤为明显。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

微软开源Phi-Ground：40亿参数点击准度赢了Operator和Claude

相关文章阅读