5 月 20 日,阿里千问大模型正式发布 Qwen3.7-Max。作为面向智能体时代的新一代旗舰模型,Qwen3.7-Max 被官方定义为千问迄今最全面、最强大的智能体基座,即将通过阿里云百炼 API 上线提供服务。
核心优势:广度与深度的智能体能力
Qwen3.7-Max 致力于胜任复杂的长周期自主任务。其核心优势体现在:
编程驾驭力:从前端原型到复杂多文件工程均可覆盖;
办公自动化:通过 MCP 集成与多智能体协作,实现工作流自动化;
超长自主执行:在一项长达 35 小时、超 1000 次工具调用的全自主内核优化实验中,验证了其持久的连贯推理与稳定执行能力;
跨框架泛化:在 Claude Code、OpenClaw、Qwen Code 等不同框架下均能稳定发挥。

跑分表现:多维领先,比肩或超越头部模型
据测试数据,Qwen3.7-Max 在多项核心基准上表现优异:
编程智能体:在 SWE-Pro、SWE-Multilingual 等多项测试中领先;在 Terminal Bench 2.0-Terminus(69.7)上超越 DS-V4-Pro Max(67.9),并在 SWE-Verified 上与 Opus-4.6 Max 表现相当。
通用智能体:提升最为显著。在 MCP-Mark、MCP-Atlas 和 Skillbench 上分别超越 GLM-5.1、Opus-4.6 和 K2.6;在 Kernel Bench L3 展现 GPU 内核优化能力(96% 加速率);在办公自动化基准 SpreadSheetBench-v1 斩获 87.0 高分。
推理能力:在 GPQA Diamond、HLE、HMMT 2026 Feb 及 IMOAnswerBench 等高难度推理与数学基准上,均领先于 Opus-4.6 Max 和 DS-V4-Pro。
通用与多语言:指令遵循(IFBench)、多语言翻译(WMT24++/MAXIFE)及专业知识(SuperGPQA)均达一流水平。

微信扫一扫
支付宝扫一扫 
评论列表(1条)
写代码呢?我就想知道写代码水平