英伟达开源 Polar 框架：不改一行底层代码，让 Codex 跑分暴涨 594%

5 月 28 日消息，英伟达研究团队本周重磅开源了 AI 框架 Polar。该框架巧妙地在模型 API 边界切入，让 Codex、Claude Code、Qwen Code 等现有智能体框架无需破坏原有运行逻辑，即可接入 GRPO（广义相对策略优化）强化学习训练。实验显示，接入 Polar 后，Codex 的跑分暴涨近 6 倍。

解决痛点：传统强化学习“强改”框架代价太高

当前，智能体强化学习正从单步任务转向代码仓库修改、浏览器操作等长流程任务。这类任务高度依赖现成的执行框架，包含多轮调用、上下文压缩等复杂逻辑。

传统强化学习基础设施要求将这些逻辑强行改写成 env.init()、env.step() 这样的环境接口。这不仅接入成本极高，还会丢失原生执行细节等关键训练信号。而英伟达 Polar 并非重写智能体框架，而是将“智能体与模型之间的接口”作为训练边界，基本不改动原有的运行外壳。

核心机制：无感拦截，轨迹重建

在执行框架和推理服务器之间，Polar 巧妙地放置了一个模型智能体。它兼容 Anthropic、OpenAI、Google 风格的 API 请求，在转发请求时“无感”记录提示词、采样 Token、对数概率和响应内容，随后将这些信息重建成可供训练器消费的轨迹。

在系统结构上，Polar 由两大核心组件构成：

Rollout Server：负责任务提交、会话调度、状态持久化和回调接收。

Gateway Node：负责会话执行的全生命周期，包括运行时启动、框架准备、轨迹构建、结果评测和资源回收。

此外，Polar 将初始化、运行中、后处理拆分到独立工作池，并设置 READY 缓冲区，让运行时和评测预热在后台并行，大幅减少了长尾任务对 GPU 训练的阻塞。

效果惊艳：Codex 得分飙升 594%，训练提速 5.4 倍

在基于 Qwen3.5-4B 底座模型的软件工程任务测试中，Polar 配合 GRPO 训练后成绩斐然（SWE-Bench Verified pass@1）：

Codex：3.8% → 26.4%（暴涨 594.74%）

Claude Code：29.8% → 34.6%

Qwen Code：34.6% → 35.2%

Pi：34.2% → 40.4%

在效率方面，Polar 的 prefix_merging 技术相比传统的 per_request，将 3 个训练步骤的更新数从 1185 次降至 218 次，墙钟时间从 189.5 分钟缩短至 35.2 分钟（提速约 5.39 倍），Rollout GPU 平均利用率也从 20.4% 飙升至 87.7%。

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别

发表回复

Serjan 2026年7月15日

QTTabBar只是个小东西，只是Windows 资源管理器的插件。而Total commander是独立完整功能强大文件管理体系。不懂就多学点，QTTabBar的生态和功能连TC的零头都比不了。不要误人子弟。

评论于 Total Commander v11.58 增强版
mxin 2026年7月15日

2.3版的咋什么软件也搜不到，已安装的软件也是空的

评论于 UniGetUI(下载工具) v2026.2.3
blackcalabash 2026年7月15日

其实软件及时更新是个伪需求，手机电脑都是。所以我电脑装这货了一段时间卸载了。隔一段时间看下果壳有啥新的绿色软件就行。之前更新广告拦截，直接把我WIN11系统网络干废了，找半天原因，开始以为是网卡坏了。

评论于 UniGetUI(下载工具) v2026.2.3
Sumire 2026年7月15日

Logseq 转向数据库版本，然后错过名为 LLM Agent 的车

评论于 Logseq v2.0.1 官方中文版
Sumire 2026年7月15日

- 买家秀： Copilot 可以读取 CPU、RAM、GPU 占用等信息，用聊天形式更直观地告诉用户是什么拖慢电脑运行速度 - 卖家秀：哪怕什么都不做， Copilot 也要占用 1G 内存

评论于微软终于受不了AMD和因特尔了，驱动给我拿好的呀！
大魔王 2026年7月15日

如果手机也有就好了

评论于 AnyDesk(远程连接软件) v9.7.10 个人版
163512 2026年7月14日

夸克封太快了

评论于【原版】Windows11 25H2 v26200.8737 果核打包版
MOUQIN 2026年7月14日

居然还在更新，当初可是能下obsidian和思源比较的本地双链笔记软件，结果突然就落后一大截，坚持到现在居然还没死

评论于 Logseq v2.0.1 官方中文版
芥末 2026年7月14日

文件不存在了--

评论于 VueScan Pro(专业扫描工具) v9.8.56.03 修改版
zfb0311 2026年7月14日

20241227,谢谢分离

评论于系统优化工具，增强版Dism++软件体验

英伟达开源 Polar 框架：不改一行底层代码，让 Codex 跑分暴涨 594% - 果核剥壳

相关推荐

发表回复