5 月 28 日消息,英伟达研究团队本周重磅开源了 AI 框架 Polar。该框架巧妙地在模型 API 边界切入,让 Codex、Claude Code、Qwen Code 等现有智能体框架无需破坏原有运行逻辑,即可接入 GRPO(广义相对策略优化)强化学习训练。实验显示,接入 Polar 后,Codex 的跑分暴涨近 6 倍。

解决痛点:传统强化学习“强改”框架代价太高
当前,智能体强化学习正从单步任务转向代码仓库修改、浏览器操作等长流程任务。这类任务高度依赖现成的执行框架,包含多轮调用、上下文压缩等复杂逻辑。
传统强化学习基础设施要求将这些逻辑强行改写成 env.init()、env.step() 这样的环境接口。这不仅接入成本极高,还会丢失原生执行细节等关键训练信号。而英伟达 Polar 并非重写智能体框架,而是将“智能体与模型之间的接口”作为训练边界,基本不改动原有的运行外壳。
核心机制:无感拦截,轨迹重建
在执行框架和推理服务器之间,Polar 巧妙地放置了一个模型智能体。它兼容 Anthropic、OpenAI、Google 风格的 API 请求,在转发请求时“无感”记录提示词、采样 Token、对数概率和响应内容,随后将这些信息重建成可供训练器消费的轨迹。
在系统结构上,Polar 由两大核心组件构成:
Rollout Server:负责任务提交、会话调度、状态持久化和回调接收。
Gateway Node:负责会话执行的全生命周期,包括运行时启动、框架准备、轨迹构建、结果评测和资源回收。
此外,Polar 将初始化、运行中、后处理拆分到独立工作池,并设置 READY 缓冲区,让运行时和评测预热在后台并行,大幅减少了长尾任务对 GPU 训练的阻塞。
效果惊艳:Codex 得分飙升 594%,训练提速 5.4 倍
在基于 Qwen3.5-4B 底座模型的软件工程任务测试中,Polar 配合 GRPO 训练后成绩斐然(SWE-Bench Verified pass@1):
Codex:3.8% → 26.4%(暴涨 594.74%)
Claude Code:29.8% → 34.6%
Qwen Code:34.6% → 35.2%
Pi:34.2% → 40.4%
在效率方面,Polar 的 prefix_merging 技术相比传统的 per_request,将 3 个训练步骤的更新数从 1185 次降至 218 次,墙钟时间从 189.5 分钟缩短至 35.2 分钟(提速约 5.39 倍),Rollout GPU 平均利用率也从 20.4% 飙升至 87.7%。

微信扫一扫
支付宝扫一扫 