voicechat2 logo

voicechat2与 GPT-4o 竞争的开源语音聊天基础设施

与 GPT-4o 竞争的开源语音聊天基础设施。使用 WebSockets 的 AI 语音聊天基础设施。它可以在没有统一语音编解码器的情况下实现低至 300 毫秒的语音对语音延迟(GPT-4o 所做的)。所有这些都在单个高端消费级 GPU 上运行。

voicechat2 screenshot
更多关于 voicechat2 的信息

本地 AI 语音聊天

使用 WebSockets 的快速、完全本地 AI 语音聊天解决方案。

主要功能

  • 低延迟语音对语音交互(AMD RDNA3 上为 1 秒,NVIDIA 4090 上为 300 毫秒)
  • 完全本地处理 - 无云依赖
  • 使用最先进的 AI 模型:
    • 用于语音识别的 Whisper large-v2
    • 用于语言建模的 Llama 3 8B
    • 用于文本到语音的 VITS 模型

用例

  • 个人 AI 助理
  • 语音界面的快速原型设计
  • 对话式 AI 的研究和开发
  • 离线语音交互系统

安装

提供以下内容的详细安装说明:

  • 系统先决条件
  • 代码设置
  • whisper.cpp
  • llama.cpp
  • TTS 和 StyleTTS2

比较

其他开源 AI 语音聊天项目的简要概述:

  • webrtc-ai-voice-chat
  • june
  • GlaDOS
  • local-talking-llm
  • BUD-E
  • LocalAIVoiceChat
  • rtvi-web-demo

定价

这是一个根据 Apache 2.0 许可证提供的开源项目。

针对团队

非常适合从事对话式界面工作的 AI 研究团队和开发人员。完全本地设置允许定制和扩展。