5月8日,OpenAI宣布在Realtime API中正式集成三款全新的实时语音模型,分别针对逻辑推理、多语种翻译和流式转录场景提供底层技术支撑。这套模型组合旨在攻克语音交互领域长期存在的响应延迟、打断处理困难以及多语言支持不足等核心痛点。
作为此次更新的重头戏,GPT-Realtime-2是全球首款展现出GPT-5级别推理能力的实时语音模型。该模型在维持自然对话流畅度的同时,具备在交互过程中同步进行复杂推理、调用外部工具的能力,并能精准识别并处理用户的即时打断或纠正,这为开发者构建执行多步骤任务的高级语音助手奠定了基础。在成本定价上,GPT-Realtime-2的音频输入费用为每百万Token 32美元,输出费用为64美元,而缓存输入的成本大幅降低至0.4美元。

针对特定应用场景,GPT-Realtime-Translate支持将70种输入语言即时转化为13种输出语言,其翻译速度与说话者几乎同步,特别适用于跨国会议等实时沟通环境,该模型按分钟计费,价格为每分钟0.034美元。而专注于低延迟流式转录的GPT-Realtime-Whisper则实现了“随说随转”,能够让实时字幕和会议记录紧跟对话节奏,显著减少等待感,其计费标准为每分钟0.017美元。通过这三款模型的协同,OpenAI为开发者提供了更高效、更具逻辑深度的实时语音交互解决方案。


微信扫一扫
支付宝扫一扫 