6 月 30 日消息,美团今日正式发布并开源新一代万亿参数大模型 LongCat-2.0。该模型总参数达 1.6T,平均激活参数约 48B(动态范围 33B~56B),从零开始预训练并原生支持 1M 超长上下文。
值得一提的是,LongCat-2.0 是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型。在正式版发布前,其预览版已上线 OpenRouter 和 longcat.ai,并迅速跻身 OpenRouter 全球大模型调用量前三。在 Hermes、Claude Code 和 OpenClaw 等任务分类中,其月调用量分列全球第一、第二和第三。

攻克国产算力训练难题,实现稳态吞吐 1T tokens/天
LongCat-2.0 的预训练数据规模超过 30T tokens,涵盖中英多语言及代码数据。面对万卡级训练中的硬件故障、显存压力等挑战,团队从稳定性、正确性和效率三方面进行优化:
稳定性:通过 HCCL 异常处理与自动故障恢复,将月均日故障率降低 70% 以上。
正确性:自研确定性算子与 Bitwise 一致性验证,保障训练结果可靠。
效率:结合流水线调度与显存优化,训练 MFU 提升 1.5 倍,最终实现稳态日吞吐超 1T tokens。
架构与推理双重优化,精准应对复杂任务
在架构上,LongCat-2.0 引入了三大核心创新:
LSA 稀疏注意力机制:将长文本处理从平方级计算量降至线性级,确保在 100 万 Token 上下文中依然保持精准的信息定位能力。
Token 级动态激活:基于零计算专家机制,针对不同复杂度的代码 Token 动态分配算力(33B~56B),简单任务不耗算力,复杂任务重拳出击。
MOPD 架构:融合 Agent(工具调用与纠错)、Reasoning(数学与 STEM 推理)、Interaction(指令遵循与交互)三组专家能力,通过门控网络动态调度。
在推理阶段,模型通过大规模专家并行聚合访存带宽,结合零计算专家机制与核心算子优化,大幅降低延迟与等待开销。
评测成绩优异,编程及 Agent 能力跻身前沿
综合评测显示,LongCat-2.0 在 Code 和 General Agent 场景表现卓越。在编程能力方面,其在 SWE-bench Pro 中取得 59.5 分,领先 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)和 Claude Opus 4.6(57.3);在 SWE-bench Multilingual 中取得 77.3,与 Claude Opus 4.6(77.8)持平;在 Terminal-Bench 2.1 终端指令交互评测中取得 70.8。
在真实办公复杂任务处理上,LongCat-2.0 同样表现亮眼:搜索智能体 RWSearch 得分 78.8,生产力评测 FORTE 得分 73.2,BrowseComp 得分 79.9。各项指标均达到或接近前沿闭源模型水平,完美契合企业级 Agent 的落地需求。

微信扫一扫
支付宝扫一扫 