打破“快即轻量”定律!智谱 GLM-5.1 高速版发布,400 tokens/s 刷新全球纪录 - 果核剥壳

5 月 22 日,智谱正式推出面向企业客户的 GLM-5.1 高速版 API——“GLM-5.1-highspeed”。该模型以 400 tokens/s 的输出速度,刷新了当前全球大模型 API 的速度上限。

打破“快即轻量”定律!智谱 GLM-5.1 高速版发布,400 tokens/s 刷新全球纪录

在以往的行业认知中,“快”往往意味着参数量的妥协,高速模型几乎等同于轻量级模型。而 GLM-5.1 高速版彻底打破了这一惯例,首次在国产大模型中,将旗舰级的智能表现与极低延迟同时带入了生产环境。

这一突破背后,是智谱 GLM 团队与 TileRT 团队的联合攻坚。双方从推理引擎、调度系统到基础设施进行了系统级优化:

推理引擎层: 针对 GLM-5.1 架构重写核心推理路径,大幅提升单卡吞吐;

调度系统层: 利用动态批处理、请求合并与 KV 缓存调度,有效降低高并发下的尾延迟;

基础设施层: 对集群部署、网络链路与负载均衡协同优化,确保 400 TPS 不仅是瞬时峰值,更是稳定可用的生产级能力。

在底层技术逻辑上,传统推理框架在微秒级的单 token、小 batch 场景下,调度与同步开销极大。为此,TileRT 抛弃了 Runtime 层的动态调度,采用编译期(AOT)静态编排,将整个计算图化作常驻 GPU 的 Persistent Engine Kernel。单卡内,算子间中间结果经由 Register、Shared Memory 与 L2 Cache 直传,告别写回 Global Memory 的延迟;多卡间,则将 Warp Specialization 思路扩展至 8 卡 NVL 拓扑,让不同 GPU 化身特化 worker,而非执行同构逻辑。

目前,GLM-5.1 高速版已面向智谱 MaaS 平台部分企业客户开放,可广泛应用于 AI 编程、实时交互、商业决策及实时语音等对延迟极度敏感的场景。

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(0)
上一篇 16小时前
下一篇 16小时前

相关推荐

发表回复

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注