OpenAI开源思维链可监控性评测：CoT越长越透明，RL不会教模型「藏心思」

2026-04-24 19:08:28 分类：资讯 | 知识库 | 快讯

币界网消息，OpenAI开源了论文《monitoring monitorability》的评测套件monitorability-evals，采用Apache-2.0许可。该套件用于衡量监控模型能否通过推理模型的思维链（CoT）检测异常行为，覆盖13个评测和24个环境。评测分为干预型、过程型和结果属性型。核心发现显示，监控CoT比仅监控模型的最终动作更有效，且CoT越长可监控性越高。RL训练在当前规模下不会降低可监控性。对于低推理力度的大模型，使用推理力度更高的小模型可提高可监控性，代价是推理算力更贵。GPT-5.4 thinking system card已使用该评测，结果显示其整体CoT可监控性略低于GPT-5，但在agentic misalignment场景下接近100%。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。