Bitcoin86.com

SemiAnalysis实测:GPT-5.5回到前沿,但OpenAI悄悄藏了一项被Opus压过的成绩

币界网消息,SemiAnalysis发布的编程助手横向评测显示,GPT-5.5是OpenAI半年来首次重返前沿的编程模型,评测覆盖GPT-5.5、Opus 4.7和DeepSeek v4。工程师们开始在Codex和Claude Code之间切换,Codex在数据结构理解和逻辑推理上更强,但不擅长推断用户模糊意图。文章揭露,OpenAI在今年2月呼吁改用swe-bench pro作为编程基准,但GPT-5.5的公告却换用了名为「expert-swe」的新基准,原因是GPT-5.5在swe-bench pro上被Opus 4.7超过,且远低于Anthropic尚未公开的Mythos(77.8%)。此外,Opus 4.7的新tokenizer会导致token用量增加最多35%。文章提出,衡量模型定价应看「每任务成本」而非「每token成本」。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。