币界网消息,Epoch AI发布了Claude偏科图谱,显示其在写代码方面表现强劲,但在数学能力上存在短板。最新数据显示,随着Opus 4.6和4.7的发布,这一偏科现象正在快速缓解。根据测算,Claude在软件工程基准测试(SWE-ECI)上的表现一直稳定高于其综合得分,而在数学基准测试(MATH-ECI)上长期存在落差。最新模型已将数学与综合得分的差距缩小至1分以内,补齐了此前的短板。ECI的测算机制比较各大模型之间的相对表现,直接反映特定任务对AI的平均难度,而非对人类的难度。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
