微软 GitHub 推出跨模型 AI 审查：Claude Sonnet 4.6 搭配 GPT-5.4，弥补 74.7% 性能差距

4 月 8 日消息，微软 GitHub 官方于 4 月 6 日发布博文，宣布为其 Copilot CLI 推出实验性功能 Rubber Duck，引入跨模型家族的“第二意见”审查机制，让 AI 性能提升接近 75%。

援引博文介绍，在代码规划阶段，当前编程智能体的早期决策错误容易层层累积，而单一模型的自我审查会受限于自身的训练偏差与盲点。而 Rubber Duck 功能就是引入异构模型作为独立审查者，提供差异化视角以挖掘潜在错误。

该功能采用跨家族模型组合策略，用户选择 Claude 系列模型作为主控后，Rubber Duck 将调用 GPT-5.4 进行审查。其核心任务是检查智能体工作，输出高价值关注点清单，包括被遗漏的细节、值得质疑的假设及边缘案例。

博文进一步通过 SWE-Bench Pro 基准测试评估，基于 Claude Sonnet 4.6 和 Opus 4.6 单独运行的性能差距对比，发现 Sonnet 4.6 搭配 Rubber Duck 后，成功弥补 74.7% 的性能差距。

在涉及 3 个以上文件或超过 70 步的困难任务中，得分比基线高出 3.8%。实际案例显示，它能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。

Rubber Duck 支持主动、被动及用户触发三种模式。系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查，也可在陷入循环时被动触发。该功能为确保过程透明，用户也可随时请求审查，Copilot 将展示反馈内容与修改依据。

目前该功能已在实验模式下线。用户安装 GitHub Copilot CLI 并运行 /experimental 命令即可启用。启用后，选择 Claude 模型并开通 GPT-5.4 访问权限即可体验。

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别

发表回复

范围 2026年5月29日

这项目被卖给了公司，然后转向.net10+avalonia架构了，还做了Linux和苹果版本，2026.1.11甚至连图标都改了，下回是不是要改名了？

评论于 UniGetUI(下载工具) v2026.1.11
范围 2026年5月29日

edge之前还有云母效果和平滑滚动的，现在也给更没了，奇趣的反而是Firefox菜单支持了云母效果，而微软偏偏要把edge 和 copilot绑死在ai战车之下，我觉得微软下场会很惨

评论于告别黑边撕裂！微软确认 WinUI 3 将支持平滑缩放，今夏正式推送
孟良 2026年5月29日

那现在哪个软件卸载的最干净大佬

评论于【正版特惠】IObit 系列软件正版永久激活
yirongyi 2026年5月29日

安装实测了，大概率和显卡的性能有关，尤其是显存大小……

评论于 Adobe Photoshop 2026 (27.7.0.11) 特别版
小杨聊科技 2026年5月29日

bitlocker不行了，现在出漏洞了

评论于云服务器硬盘加密的方法是什么
dl_god7 2026年5月29日

希望果壳可以让自己的 GHBrowserKit 启动器不仅仅只支持 Chrome 也支持管理这个 Helium 。那我就可以把系统的 Chrome 换成这个了。果壳增强版这个启动器还是太好用了

评论于 Helium浏览器 v0.12.3.1 绿色版
Ultraman 2026年5月29日

果核有兴趣做个edge的增强安装版吗

评论于 Chrome v148.0.7778.217 果核增强版
15983 2026年5月29日

这个IDEA貌似要过期了，有没有好心人再上传一个新版本

评论于 IntelliJ IDEA 2023.3.6 便携增强版
JJ 2026年5月29日

这个有没有修改版，客户端版虽然看视频流畅但CPU占用太高了，我开两个魔兽都没他占比高

评论于抖音PC版 v7.8.0 官方版
czlong1127 2026年5月29日

说的没毛病

评论于黄仁勋谈AI焦虑：浪费点Token没关系，不用AI的人才会被淘汰

微软 GitHub 推出跨模型 AI 审查：Claude Sonnet 4.6 搭配 GPT-5.4，弥补 74.7% 性能差距 - 果核剥壳

相关推荐

发表回复