OpenAI 发布三款实时语音模型:首推 GPT-5 级推理能力与流式交互技术 - 果核剥壳

5月8日,OpenAI宣布在Realtime API中正式集成三款全新的实时语音模型,分别针对逻辑推理、多语种翻译和流式转录场景提供底层技术支撑。这套模型组合旨在攻克语音交互领域长期存在的响应延迟、打断处理困难以及多语言支持不足等核心痛点。

作为此次更新的重头戏,GPT-Realtime-2是全球首款展现出GPT-5级别推理能力的实时语音模型。该模型在维持自然对话流畅度的同时,具备在交互过程中同步进行复杂推理、调用外部工具的能力,并能精准识别并处理用户的即时打断或纠正,这为开发者构建执行多步骤任务的高级语音助手奠定了基础。在成本定价上,GPT-Realtime-2的音频输入费用为每百万Token 32美元,输出费用为64美元,而缓存输入的成本大幅降低至0.4美元。

OpenAI 发布三款实时语音模型:首推 GPT-5 级推理能力与流式交互技术

针对特定应用场景,GPT-Realtime-Translate支持将70种输入语言即时转化为13种输出语言,其翻译速度与说话者几乎同步,特别适用于跨国会议等实时沟通环境,该模型按分钟计费,价格为每分钟0.034美元。而专注于低延迟流式转录的GPT-Realtime-Whisper则实现了“随说随转”,能够让实时字幕和会议记录紧跟对话节奏,显著减少等待感,其计费标准为每分钟0.017美元。通过这三款模型的协同,OpenAI为开发者提供了更高效、更具逻辑深度的实时语音交互解决方案。

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(0)
上一篇 5天前
下一篇 5天前

相关推荐

发表回复

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注