打破“快即轻量”定律！智谱 GLM-5.1 高速版发布，400 tokens/s 刷新全球纪录

5 月 22 日，智谱正式推出面向企业客户的 GLM-5.1 高速版 API——“GLM-5.1-highspeed”。该模型以 400 tokens/s 的输出速度，刷新了当前全球大模型 API 的速度上限。

在以往的行业认知中，“快”往往意味着参数量的妥协，高速模型几乎等同于轻量级模型。而 GLM-5.1 高速版彻底打破了这一惯例，首次在国产大模型中，将旗舰级的智能表现与极低延迟同时带入了生产环境。

这一突破背后，是智谱 GLM 团队与 TileRT 团队的联合攻坚。双方从推理引擎、调度系统到基础设施进行了系统级优化：

推理引擎层：针对 GLM-5.1 架构重写核心推理路径，大幅提升单卡吞吐；

调度系统层：利用动态批处理、请求合并与 KV 缓存调度，有效降低高并发下的尾延迟；

基础设施层：对集群部署、网络链路与负载均衡协同优化，确保 400 TPS 不仅是瞬时峰值，更是稳定可用的生产级能力。

在底层技术逻辑上，传统推理框架在微秒级的单 token、小 batch 场景下，调度与同步开销极大。为此，TileRT 抛弃了 Runtime 层的动态调度，采用编译期（AOT）静态编排，将整个计算图化作常驻 GPU 的 Persistent Engine Kernel。单卡内，算子间中间结果经由 Register、Shared Memory 与 L2 Cache 直传，告别写回 Global Memory 的延迟；多卡间，则将 Warp Specialization 思路扩展至 8 卡 NVL 拓扑，让不同 GPU 化身特化 worker，而非执行同构逻辑。

目前，GLM-5.1 高速版已面向智谱 MaaS 平台部分企业客户开放，可广泛应用于 AI 编程、实时交互、商业决策及实时语音等对延迟极度敏感的场景。

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别

发表回复

评论列表（1条）

Atx4 2026年5月23日下午4:28

Microsoft Edge 148.0.0.0 Windows 11 x64 Edition
意思就是秒问秒答吗

回复

微风的海 2026年7月11日

同样有这个问题

评论于 Total Commander v11.58 增强版
微风的海 2026年7月11日

同样有这个问题

评论于 Total Commander v11.58 增强版
Sumire 2026年7月11日

Syncthing 没有统一的控制面，因此注定了只适合少数可信用户开启双向同步，比如说用户自己或者再加1-3个家庭成员。同步集群中的设备比较多且配置了忽略规则，最好将一部分设备设为仅接收，否则后期集群的维护会非常麻烦。

评论于 Syncthing(文件同步工具) v2.1.2 官方版
kokodecai 2026年7月11日

一直用这个，从没换过

评论于 Android Nova Launcher(Nova桌面)v88500 高级版
白色相簿 2026年7月11日

如果UI能再优化优化那就真是太好了。

评论于 ToDoList(开源待办事项列表) v9.2.1.1 绿色版
玩儿少爷 2026年7月11日

城通网盘从以前到现在都是巨大的一坨

评论于 Wise Care 365 Pro v8.0.4.732 绿色修改版
bzhltl 2026年7月10日

https://www.board4all.biz/threads/ps-tray-factory-3-31.886983/ 有哪位大佬能下载到这个吗

评论于 Traymond(窗口快捷收纳托盘工具) v2.0.1 单文件版
金皮卡 2026年7月10日

求这个软件平替

评论于 LyricEase(第三方网易云播放器) v0.14.153.0
rayblade 2026年7月10日

求138版本的便携增强版，貌似138版是最后支持Manifest V2 扩展的版本了。

评论于 Google Chrome v150.0.7871.115 便携增强版
212 2026年7月10日

没有待办啊

评论于 Simple Sticky Notes(桌面便签助手) v6.9.0 中文版

打破“快即轻量”定律！智谱 GLM-5.1 高速版发布，400 tokens/s 刷新全球纪录 - 果核剥壳

相关推荐

发表回复

评论列表（1条）