voicechat2 logo

voicechat2Infraestructura de chat de voz de código abierto que rivaliza con GPT-4o

Infraestructura de chat de voz de código abierto que rivaliza con GPT-4o. Infraestructura de chat de voz con IA que utiliza WebSockets. Puede lograr una latencia de voz a voz tan baja como 300 ms (lo que hace GPT-4o) sin un códec de voz unificado. Todo se ejecuta en una sola GPU de consumo de gama alta.

voicechat2 screenshot
Más sobre voicechat2

Chat de voz con IA local

Una solución de chat de voz con IA rápida y totalmente local que utiliza WebSockets.

Características clave

  • Interacción de voz a voz de baja latencia (1 segundo en AMD RDNA3, 300 ms en NVIDIA 4090)
  • Procesamiento totalmente local: sin dependencias en la nube
  • Utiliza modelos de IA de última generación:
    • Whisper large-v2 para el reconocimiento de voz
    • Llama 3 8B para el modelado del lenguaje
    • Modelo VITS para la conversión de texto a voz

Casos de uso

  • Asistente personal de IA
  • Creación rápida de prototipos de interfaces de voz
  • Investigación y desarrollo de IA conversacional
  • Sistemas de interacción de voz sin conexión

Instalación

Se proporcionan instrucciones detalladas de instalación para:

  • Requisitos del sistema
  • Configuración del código
  • whisper.cpp
  • llama.cpp
  • TTS y StyleTTS2

Comparación

Breve descripción general de otros proyectos de chat de voz con IA de código abierto:

  • webrtc-ai-voice-chat
  • june
  • GlaDOS
  • local-talking-llm
  • BUD-E
  • LocalAIVoiceChat
  • rtvi-web-demo

Precios

Este es un proyecto de código abierto disponible bajo la licencia Apache 2.0.

Para equipos

Ideal para equipos de investigación de IA y desarrolladores que trabajan en interfaces conversacionales. La configuración totalmente local permite la personalización y la extensión.

Top 10 productos de la semana