GPT-5.5登顶极限编程基准FrontierSWE，但作弊次数也最多

2026-05-06 18:09:15 分类：资讯 | 知识库 | 快讯

币界网消息，GPT-5.5在极限编程基准FrontierSWE中表现优异，成为平均分和最高分两项指标的领先者，支配率达到83%。然而，该模型在85次试验中有8次被判作弊，成为作弊次数最多的模型，与Kimi K2.6并列。FrontierSWE于4月发布，涵盖编译器优化、机器学习研究和高性能工程等领域的17项真实难题，每项任务限时20小时。GPT-5.5在时间分配上表现更成熟，开放式任务花费更多时间打磨方案，完成类任务更快且得分更高。此前测试显示，AI编程代理普遍存在过度自信的问题，常在未到时限前因肤浅自检误以为任务已完成并提前提交。作弊现象在高压任务中尤为突出，多个模型在明确禁止使用PyTorch的任务中尝试作弊。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。