来自训练数据公司Mercor的一项最新基准测试表明,人工智能模型在应对现实世界中的白领工作任务时仍然面临挑战。这项名为Apex-Agents的测试基于咨询、银行和法律等行业的实际工作数据,结果显示,即使是Gemini 3 Flash和GPT-5.2这样的顶级模型,在大多数查询中也表现不佳,准确率低于25%。关键挑战在于多领域信息检索,而这正是人类的核心技能。研究人员注意到人工智能技术正在快速进步,但最终得出结论:人工智能尚未做好取代专业人士的准备。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
