MARS5 TTS logo

MARS5 TTSModelo de texto a voz de código abierto, increíblemente prosódico

MARS5 un modelo TTS de código abierto para replicar actuaciones (de 2-3 segundos de referencia de audio) en más de 140 idiomas, incluso para escenarios de prosodia extremadamente difíciles como comentarios deportivos, películas, anime y más. ¡Únete a nuestro Discord https://discord.com/invite/ZzsKTAKM hoy!

MARS5 TTS screenshot
Más sobre MARS5 TTS

MARS5 TTS: Transformando la conversión de texto a voz con prosodia avanzada

Introducción

MARS5 TTS de CAMB.AI es un modelo de última generación de conversión de texto a voz diseñado para generar voz altamente natural y prosodiamente rica. Aprovechando una novedosa canalización AR-NAR de dos etapas, MARS5 sobresale en la producción de voz para escenarios diversos y desafiantes.

Características clave

  • Prosodia avanzada: Genera voz con entonación y ritmo naturales.
  • Canalización de dos etapas: Combina modelos autorregresivos y no autorregresivos para obtener una salida de alta calidad.
  • Requisitos mínimos de entrada: Solo requiere 5 segundos de audio y un fragmento de texto.
  • Salida personalizable: Controla la prosodia con la puntuación y las mayúsculas.
  • Clonación profunda: Calidad mejorada con transcripción de referencia para la identidad del hablante.

Casos de uso

  • Comentarios deportivos: Genera comentarios deportivos dinámicos y atractivos.
  • Doblaje de anime: Crea voces expresivas y específicas de los personajes para el anime.
  • Clonación de voz: Clona voces para diversas aplicaciones con alta fidelidad.
  • Respuesta de voz interactiva (IVR): Mejora la atención al cliente con respuestas automatizadas de sonido natural.
  • Narración de audiolibros: Produce narraciones de audiolibros de calidad profesional.

Precios

MARS5 TTS es de código abierto bajo la licencia GNU AGPL 3.0. Para consultas comerciales o para obtener una licencia de la versión de código cerrado, póngase en contacto con [email protected].

Equipos

CAMB.AI es un equipo globalmente distribuido de expertos, incluidos investigadores publicados en Interspeech y ex ingenieros de Siri de Carnegie Mellon. Estamos dedicados a avanzar en la tecnología de síntesis de voz y estamos contratando activamente. Los candidatos interesados ​​pueden comunicarse con [email protected] para obtener más información.

Únete a nuestra comunidad en nuestro Foro y Discord para compartir comentarios, sugerencias o preguntas. Apóyanos en Ko-fi para ayudarnos a continuar nuestro trabajo en hacer que la voz de todos cuente.