gpt-realtime logo

gpt-realtime

通过先进的语音模型和API,提升语音交互的自然度和效率。

OpenAI 推出 GPT-Realtime 和实时 API,支持 MCP 服务器、图像输入和 SIP,实现更可靠的语音助手。新模型提升指令遵循、工具调用精度和语音自然度。

Sponsors

Become one
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website

Promote your product

Seen by 300K+ monthly visitors

gpt-realtime - 通过先进的语音模型和API,提升语音交互的自然度和效率。 | Product Screenshot
gpt-realtime product screenshot

更多关于 gpt-realtime 的信息

gpt-realtime

一款专为构建可靠的、可用于生产环境的语音代理而设计的实时API。该API通过访问额外的工具和上下文,使语音代理更强大,支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫。它让用户可以在各种场景下,例如客户服务、个人助理和教育等,获得更流畅自然的语音交互体验。

  • 实时语音模型gpt-realtime:全新语音模型,在音频质量、智能、指令遵循和函数调用方面均有提升。在Big Bench Audio评估中,准确率达到82.8%,超越了之前的模型。
  • 改进指令遵循能力:模型更精准地执行用户指令,例如控制语速、语调和情感。在MultiChallenge音频基准测试中,指令遵循准确率达到30.5%,显著优于之前的模型。
  • 增强函数调用能力:改进了函数调用在调用相关函数、在适当时间调用函数以及使用适当参数调用函数这三个方面。在ComplexFuncBench音频评估中,函数调用性能达到66.5%。
  • 支持图像输入:允许在实时API会话中添加图像、照片和屏幕截图,使模型能够基于用户实际看到的内容进行对话,例如提问“你看到了什么?”
  • MCP服务器支持:通过将远程MCP服务器的URL传递到会话配置中,可以轻松扩展代理功能,无需手动连接集成。
  • 支持SIP协议:通过实时API直接支持,将应用程序连接到公共电话网络、PBX系统、桌面电话和其他SIP端点。
  • 可重用提示:现在可以在实时API会话中保存和重用提示,包括开发者消息、工具、变量和示例用户/助手消息。
  • 提供新声音:API中发布了两种新声音,Marin和Cedar,并对现有的八种声音进行了更新,以获得更自然的语音。

在当今世界,构建高效的语音交互体验至关重要。通过选择gpt-realtime和实时API,您可以显著提升语音代理的质量和性能。它不仅解决了传统语音处理流程中的延迟和语音失真问题,还提供了更自然的对话体验。有了它,您将能够构建更智能、更可靠的语音代理,从而增强用户体验,并提升您的业务价值。