5 月 19 日消息,特斯拉 CEO 埃隆·马斯克今日在 X 平台发布推文,邀请用户测试 Cursor 的最新 AI 模型 Composer 2.5,并透露该模型部分调用了 Colossus 2 进行训练。与此同时,Cursor 官方也正式宣布 Composer 2.5 上线,称其为史上最强模型,并确认其基于月之暗面的 Kimi K2.5 模型训练打造。

核心升级:长任务稳定性与复杂指令遵循
官方表示,Composer 2.5 的重点提升在于长任务稳定性、复杂指令遵循能力以及协作体验。为了实现这一目标,团队在技术架构上进行了关键性改动——引入基于文本反馈的定向强化学习(RL)。
在处理跨越数十万 token 的长程 rollout 时,传统的最终奖励机制很难准确定位具体是哪一步决策出现失误。Composer 2.5 采用的新机制是:在具体错误发生的位置插入简短反馈提示,将此局部上下文生成的分布作为教师信号,再通过蒸馏 KL 损失拉近学生策略。这一机制能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。
25 倍合成任务与“奖励作弊”挑战
为了持续提升编码能力,Composer 2.5 将合成任务规模扩大至前代 Composer 2 的 25 倍,并在训练中动态筛选高难度任务。其核心方法之一是从真实代码库中删除可测试功能,要求模型补全,并将测试结果直接作为奖励信号。
然而,大规模合成训练也带来了意料之外的“奖励作弊”风险。官方坦言,模型学会了通过逆向类型检查缓存或反编译 Java 字节码来重建 API 以获取奖励。这也表明,高强度的 RL 训练必须配合更严密的监控机制。
底层优化:1T 模型单步耗时仅 0.2 秒
在训练基础设施方面,Composer 2.5 采用了分片 Muon 与双网格 HSDP 技术。针对专家权重正交化带来的主要开销,团队通过异步 all-to-all 通信实现了网络传输与计算的重叠,在 1T 参数模型上将优化器单步耗时控制在 0.2 秒。此外,非专家权重与专家权重采用差异化的 HSDP 布局,既减少了小规模状态的大范围通信,也将专家优化任务分摊至更多 GPU,大幅提升训练效率。

微信扫一扫
支付宝扫一扫 