人工智能代理是否已为工作场所做好准备？一项新的基准测试引发了人们的质疑。

2026-01-23 06:01:52 分类：资讯 | 知识库 | 快讯

来自训练数据公司Mercor的一项最新基准测试表明，人工智能模型在应对现实世界中的白领工作任务时仍然面临挑战。这项名为Apex-Agents的测试基于咨询、银行和法律等行业的实际工作数据，结果显示，即使是Gemini 3 Flash和GPT-5.2这样的顶级模型，在大多数查询中也表现不佳，准确率低于25%。关键挑战在于多领域信息检索，而这正是人类的核心技能。研究人员注意到人工智能技术正在快速进步，但最终得出结论：人工智能尚未做好取代专业人士的准备。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。