
gpt-realtime
通过先进的语音模型和API,提升语音交互的自然度和效率。
OpenAI 推出 GPT-Realtime 和实时 API,支持 MCP 服务器、图像输入和 SIP,实现更可靠的语音助手。新模型提升指令遵循、工具调用精度和语音自然度。

更多关于 gpt-realtime 的信息
gpt-realtime
一款专为构建可靠的、可用于生产环境的语音代理而设计的实时API。该API通过访问额外的工具和上下文,使语音代理更强大,支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫。它让用户可以在各种场景下,例如客户服务、个人助理和教育等,获得更流畅自然的语音交互体验。
- •实时语音模型gpt-realtime:全新语音模型,在音频质量、智能、指令遵循和函数调用方面均有提升。在Big Bench Audio评估中,准确率达到82.8%,超越了之前的模型。
- •改进指令遵循能力:模型更精准地执行用户指令,例如控制语速、语调和情感。在MultiChallenge音频基准测试中,指令遵循准确率达到30.5%,显著优于之前的模型。
- •增强函数调用能力:改进了函数调用在调用相关函数、在适当时间调用函数以及使用适当参数调用函数这三个方面。在ComplexFuncBench音频评估中,函数调用性能达到66.5%。
- •支持图像输入:允许在实时API会话中添加图像、照片和屏幕截图,使模型能够基于用户实际看到的内容进行对话,例如提问“你看到了什么?”
- •MCP服务器支持:通过将远程MCP服务器的URL传递到会话配置中,可以轻松扩展代理功能,无需手动连接集成。
- •支持SIP协议:通过实时API直接支持,将应用程序连接到公共电话网络、PBX系统、桌面电话和其他SIP端点。
- •可重用提示:现在可以在实时API会话中保存和重用提示,包括开发者消息、工具、变量和示例用户/助手消息。
- •提供新声音:API中发布了两种新声音,Marin和Cedar,并对现有的八种声音进行了更新,以获得更自然的语音。
在当今世界,构建高效的语音交互体验至关重要。通过选择gpt-realtime和实时API,您可以显著提升语音代理的质量和性能。它不仅解决了传统语音处理流程中的延迟和语音失真问题,还提供了更自然的对话体验。有了它,您将能够构建更智能、更可靠的语音代理,从而增强用户体验,并提升您的业务价值。










