币界网消息,微软开源了Phi-Ground模型家族,专门解决AI操控电脑时「该点屏幕哪里」的问题。开源的40亿参数版本在Showdown基准测试中点击准确率超过了OpenAI的Operator和Claude,并在Screenspot-Pro等五项评测中拿下百亿参数以下的全部第一。团队用超过4000万条数据进行了大规模验证,发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。有效的做法是将坐标直接当普通数字输出,如「523, 417」。团队还发现强化学习对纯视觉任务也有用,具体做法是让模型对同一张图做多次点击预测,挑出点对了和点错了的结果进行对比训练。针对4K高分屏上按钮太小的问题,团队在训练时将截图按比例缩小后贴到一张大白底画布上,模拟高分屏下元素极小的真实场景。这一招在Photoshop等复杂专业软件上效果尤为明显。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
