Perplexity公开搜索Agent后训练方法，基于Qwen3.5的模型在准确率和成本上超过GPT5.4

币界网消息，4 月 23 日（UTC+8），据动察 Beating 监测，Perplexity 研究团队发表技术文章，公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调（SFT）建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习（RL）优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要 2 到 4 跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准（rubric）的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在 RL 阶段防止 SFT 建立的行为退化。奖励设计的核心是门控聚合：只有基线正确（问答答对或评分标准全部满足）时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上，单次工具调用即达 57.3%，比 GPT-5.4 高 5.7 个百分点，比 Sonnet 4.6 高 4.7 个百分点。中等预算（4 次工具调用）下达 73.9%，每查询成本 2.0 美分；同条件下 GPT-5.4 为 67.8% / 8.5 美分，Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算，未含缓存优化。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

Perplexity公开搜索Agent后训练方法，基于Qwen3.5的模型在准确率和成本上超过GPT5.4

相关文章阅读