voicechat2 logo

voicechat2Infrastruktur obrolan suara sumber terbuka yang menyaingi GPT-4o

Infrastruktur obrolan suara sumber terbuka yang menyaingi GPT-4o. Infrastruktur obrolan suara AI yang menggunakan WebSockets. Dapat mencapai latensi suara-ke-suara serendah 300 ms (apa yang dilakukan GPT-4o) tanpa kodek suara terpadu. Semuanya berjalan pada satu GPU konsumen kelas atas.

voicechat2 screenshot
Lebih Lanjut Tentang voicechat2

Obrolan Suara AI Lokal

Solusi obrolan suara AI yang cepat dan sepenuhnya lokal menggunakan WebSockets.

Fitur Utama

  • Interaksi suara-ke-suara latensi rendah (1 detik di AMD RDNA3, 300 ms di NVIDIA 4090)
  • Pemrosesan sepenuhnya lokal - tidak ada ketergantungan cloud
  • Menggunakan model AI mutakhir:
    • Whisper large-v2 untuk pengenalan ucapan
    • Llama 3 8B untuk pemodelan bahasa
    • Model VITS untuk teks-ke-ucapan

Kasus Penggunaan

  • Asisten AI pribadi
  • Prototipe cepat antarmuka suara
  • Riset dan pengembangan AI percakapan
  • Sistem interaksi suara offline

Instalasi

Petunjuk instalasi terperinci disediakan untuk:

  • Prasyarat sistem
  • Pengaturan kode
  • whisper.cpp
  • llama.cpp
  • TTS dan StyleTTS2

Perbandingan

Gambaran singkat tentang proyek obrolan suara AI sumber terbuka lainnya:

  • webrtc-ai-voice-chat
  • june
  • GlaDOS
  • local-talking-llm
  • BUD-E
  • LocalAIVoiceChat
  • rtvi-web-demo

Harga

Ini adalah proyek sumber terbuka yang tersedia di bawah lisensi Apache 2.0.

Untuk Tim

Ideal untuk tim riset AI dan pengembang yang bekerja pada antarmuka percakapan. Pengaturan sepenuhnya lokal memungkinkan penyesuaian dan ekstensi.