voicechat2与 GPT-4o 竞争的开源语音聊天基础设施

与 GPT-4o 竞争的开源语音聊天基础设施。使用 WebSockets 的 AI 语音聊天基础设施。它可以在没有统一语音编解码器的情况下实现低至 300 毫秒的语音对语音延迟（GPT-4o 所做的）。所有这些都在单个高端消费级 GPU 上运行。

voicechat2 screenshot

更多关于 voicechat2 的信息

本地 AI 语音聊天

使用 WebSockets 的快速、完全本地 AI 语音聊天解决方案。

主要功能

低延迟语音对语音交互（AMD RDNA3 上为 1 秒，NVIDIA 4090 上为 300 毫秒）
完全本地处理 - 无云依赖
使用最先进的 AI 模型：
- 用于语音识别的 Whisper large-v2
- 用于语言建模的 Llama 3 8B
- 用于文本到语音的 VITS 模型

用例

个人 AI 助理
语音界面的快速原型设计
对话式 AI 的研究和开发
离线语音交互系统

安装

提供以下内容的详细安装说明：

系统先决条件
代码设置
whisper.cpp
llama.cpp
TTS 和 StyleTTS2

比较

其他开源 AI 语音聊天项目的简要概述：

webrtc-ai-voice-chat
june
GlaDOS
local-talking-llm
BUD-E
LocalAIVoiceChat
rtvi-web-demo

定价

这是一个根据 Apache 2.0 许可证提供的开源项目。

针对团队

非常适合从事对话式界面工作的 AI 研究团队和开发人员。完全本地设置允许定制和扩展。

voicechat2 的替代品

Cols.ai

AI 电话呼叫平台

Vocode

帮助开发人员利用神奇的对话式 AI 将世界连接起来。

Daily Bots

使用任何 LLM 构建语音到语音的 AI 代理

Chat with AI

与 15 种以上 AI 模型聊天，支持 Web，文件分析器

Retell AI

构建对话式语音 AI 的基础设施

Millis AI

在几分钟内创建尖端、低延迟语音代理

Sista AI Voice Assistant

让您的应用程序变得智能！使用即插即用的AI语音助手

Vapi

面向开发者的语音 AI。

Pal Chat

在您的 Apple 设备上与 AI 聊天互动。

RTVI-AI Open Standard

用 21 行 JavaScript 制作一个 AI 语音聊天应用程序

每周十大热门产品