英伟达开源 Polar 框架:不改一行底层代码,让 Codex 跑分暴涨 594% - 果核剥壳

5 月 28 日消息,英伟达研究团队本周重磅开源了 AI 框架 Polar。该框架巧妙地在模型 API 边界切入,让 Codex、Claude Code、Qwen Code 等现有智能体框架无需破坏原有运行逻辑,即可接入 GRPO(广义相对策略优化)强化学习训练。实验显示,接入 Polar 后,Codex 的跑分暴涨近 6 倍。

英伟达开源 Polar 框架:不改一行底层代码,让 Codex 跑分暴涨 594%

解决痛点:传统强化学习“强改”框架代价太高

当前,智能体强化学习正从单步任务转向代码仓库修改、浏览器操作等长流程任务。这类任务高度依赖现成的执行框架,包含多轮调用、上下文压缩等复杂逻辑。

传统强化学习基础设施要求将这些逻辑强行改写成 env.init()、env.step() 这样的环境接口。这不仅接入成本极高,还会丢失原生执行细节等关键训练信号。而英伟达 Polar 并非重写智能体框架,而是将“智能体与模型之间的接口”作为训练边界,基本不改动原有的运行外壳。

核心机制:无感拦截,轨迹重建

在执行框架和推理服务器之间,Polar 巧妙地放置了一个模型智能体。它兼容 Anthropic、OpenAI、Google 风格的 API 请求,在转发请求时“无感”记录提示词、采样 Token、对数概率和响应内容,随后将这些信息重建成可供训练器消费的轨迹。

在系统结构上,Polar 由两大核心组件构成:

Rollout Server:负责任务提交、会话调度、状态持久化和回调接收。

Gateway Node:负责会话执行的全生命周期,包括运行时启动、框架准备、轨迹构建、结果评测和资源回收。

此外,Polar 将初始化、运行中、后处理拆分到独立工作池,并设置 READY 缓冲区,让运行时和评测预热在后台并行,大幅减少了长尾任务对 GPU 训练的阻塞。

效果惊艳:Codex 得分飙升 594%,训练提速 5.4 倍

在基于 Qwen3.5-4B 底座模型的软件工程任务测试中,Polar 配合 GRPO 训练后成绩斐然(SWE-Bench Verified pass@1):

Codex:3.8% → 26.4%(暴涨 594.74%)

Claude Code:29.8% → 34.6%

Qwen Code:34.6% → 35.2%

Pi:34.2% → 40.4%

在效率方面,Polar 的 prefix_merging 技术相比传统的 per_request,将 3 个训练步骤的更新数从 1185 次降至 218 次,墙钟时间从 189.5 分钟缩短至 35.2 分钟(提速约 5.39 倍),Rollout GPU 平均利用率也从 20.4% 飙升至 87.7%。

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(0)
上一篇 11小时前
下一篇 10小时前

相关推荐

发表回复

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注