OpenAI 发布三款实时语音模型：首推 GPT-5 级推理能力与流式交互技术

5月8日，OpenAI宣布在Realtime API中正式集成三款全新的实时语音模型，分别针对逻辑推理、多语种翻译和流式转录场景提供底层技术支撑。这套模型组合旨在攻克语音交互领域长期存在的响应延迟、打断处理困难以及多语言支持不足等核心痛点。

作为此次更新的重头戏，GPT-Realtime-2是全球首款展现出GPT-5级别推理能力的实时语音模型。该模型在维持自然对话流畅度的同时，具备在交互过程中同步进行复杂推理、调用外部工具的能力，并能精准识别并处理用户的即时打断或纠正，这为开发者构建执行多步骤任务的高级语音助手奠定了基础。在成本定价上，GPT-Realtime-2的音频输入费用为每百万Token 32美元，输出费用为64美元，而缓存输入的成本大幅降低至0.4美元。

针对特定应用场景，GPT-Realtime-Translate支持将70种输入语言即时转化为13种输出语言，其翻译速度与说话者几乎同步，特别适用于跨国会议等实时沟通环境，该模型按分钟计费，价格为每分钟0.034美元。而专注于低延迟流式转录的GPT-Realtime-Whisper则实现了“随说随转”，能够让实时字幕和会议记录紧跟对话节奏，显著减少等待感，其计费标准为每分钟0.017美元。通过这三款模型的协同，OpenAI为开发者提供了更高效、更具逻辑深度的实时语音交互解决方案。

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别