voicechat2 logo

voicechat2Инфраструктура голосового чата с открытым исходным кодом, конкурирующая с GPT-4o

Инфраструктура голосового чата с открытым исходным кодом, конкурирующая с GPT-4o. Инфраструктура голосового чата с ИИ, использующая WebSockets. Она может достичь задержки голоса с голосом, как минимум 300 мс (что делает GPT-4o) без единого кодека голоса. Все работает на одном высокопроизводительном потребительском графическом процессоре.

voicechat2 screenshot
Подробнее о voicechat2

Локальный голосовой чат с ИИ

Быстрое и полностью локальное решение для голосового чата с ИИ, использующее WebSockets.

Ключевые особенности

  • Низкая задержка взаимодействия голоса с голосом (1 секунда на AMD RDNA3, 300 мс на NVIDIA 4090)
  • Полностью локальная обработка — без зависимости от облака
  • Использует современные модели ИИ:
    • Whisper large-v2 для распознавания речи
    • Llama 3 8B для моделирования языка
    • Модель VITS для преобразования текста в речь

Сферы применения

  • Личный помощник ИИ
  • Быстрое создание прототипов голосовых интерфейсов
  • Исследование и разработка разговорного ИИ
  • Системы автономного голосового взаимодействия

Установка

Предоставлены подробные инструкции по установке для:

  • Системных требований
  • Настройки кода
  • whisper.cpp
  • llama.cpp
  • TTS и StyleTTS2

Сравнение

Краткое описание других проектов голосового чата с ИИ с открытым исходным кодом:

  • webrtc-ai-voice-chat
  • june
  • GlaDOS
  • local-talking-llm
  • BUD-E
  • LocalAIVoiceChat
  • rtvi-web-demo

Цены

Это проект с открытым исходным кодом, доступный по лицензии Apache 2.0.

Для команд

Идеально подходит для исследовательских групп по ИИ и разработчиков, работающих над разговорными интерфейсами. Полностью локальная настройка позволяет настраивать и расширять систему.

Топ-10 продуктов недели