5 月 22 日,智谱正式推出面向企业客户的 GLM-5.1 高速版 API——“GLM-5.1-highspeed”。该模型以 400 tokens/s 的输出速度,刷新了当前全球大模型 API 的速度上限。

在以往的行业认知中,“快”往往意味着参数量的妥协,高速模型几乎等同于轻量级模型。而 GLM-5.1 高速版彻底打破了这一惯例,首次在国产大模型中,将旗舰级的智能表现与极低延迟同时带入了生产环境。
这一突破背后,是智谱 GLM 团队与 TileRT 团队的联合攻坚。双方从推理引擎、调度系统到基础设施进行了系统级优化:
推理引擎层: 针对 GLM-5.1 架构重写核心推理路径,大幅提升单卡吞吐;
调度系统层: 利用动态批处理、请求合并与 KV 缓存调度,有效降低高并发下的尾延迟;
基础设施层: 对集群部署、网络链路与负载均衡协同优化,确保 400 TPS 不仅是瞬时峰值,更是稳定可用的生产级能力。
在底层技术逻辑上,传统推理框架在微秒级的单 token、小 batch 场景下,调度与同步开销极大。为此,TileRT 抛弃了 Runtime 层的动态调度,采用编译期(AOT)静态编排,将整个计算图化作常驻 GPU 的 Persistent Engine Kernel。单卡内,算子间中间结果经由 Register、Shared Memory 与 L2 Cache 直传,告别写回 Global Memory 的延迟;多卡间,则将 Warp Specialization 思路扩展至 8 卡 NVL 拓扑,让不同 GPU 化身特化 worker,而非执行同构逻辑。
目前,GLM-5.1 高速版已面向智谱 MaaS 平台部分企业客户开放,可广泛应用于 AI 编程、实时交互、商业决策及实时语音等对延迟极度敏感的场景。

微信扫一扫
支付宝扫一扫 